Репортаж от Wedoany,Компания Liquid AI, выделившаяся из Массачусетского технологического института, недавно представила новую модель LFM2.5-8B-A1B. Общее количество параметров модели составляет 8 млрд, однако при каждом инференсе активируется лишь 1,5 млрд параметров, то есть фактически задействуется менее одной пятой от общего объёма. Эта модель предназначена для пограничных сценариев, таких как смартфоны, ПК, роботы и лёгкие серверные решения, и не участвует в конкуренции облачных больших моделей.
За последние два года отрасль для запуска больших моделей на устройствах Интернета вещей в основном применяла методы квантования, обрезки и дистилляции, сжимая крупные модели, изначально разработанные для облака, для развёртывания на пограничных устройствах. Liquid AI выбрала иной технический подход, основанный на изменении «способа питания» модели, чтобы она потребляла меньше ресурсов при обработке простых задач и задействовала больше вычислительных мощностей только при сложных задачах. В частности, энергопотребление каждого инференса модели напрямую зависит от сложности входной задачи. Это реализуется через механизм разреженной активации смеси экспертов (MoE): система активирует только наиболее релевантные экспертные модули для конкретной входной задачи, оставляя остальные в спящем режиме.
На пограничном уровне основное ограничение интеллектуализации смещается от стоимости вычислительных мощностей к стоимости энергопотребления. Энергия (в джоулях), потребляемая встроенным чипом за каждый инференс, ограничена и фиксирована. Хотя квантование, обрезка и дистилляция уменьшают объём модели, они не меняют режим, при котором каждый инференс требует перебора всех параметров, что затрудняет устойчивую работу в условиях жёстких ограничений батареи. Технический путь Liquid AI заключается в динамическом изменении потребляемых вычислительных мощностей в зависимости от сложности входной задачи, то есть в реализации «входно-адаптивных вычислений». Эта идея основана на исследованиях нематоды Caenorhabditis elegans, у которой всего 302 нейрона, но интеллект зависит от динамического изменения силы синаптических связей между нейронами, а не от масштаба.
Модель LFM2.5, сохраняя эффективные низкоуровневые операторы, дополнена механизмом разреженной активации MoE. Именно в этом заключается логика: 8 млрд параметров в сумме, но при каждом инференсе активируется лишь около 1,5 млрд. Технический путь Liquid AI эволюционировал от ранних сетей с непрерывной временной динамикой до текущей архитектуры разреженной активации, при этом общим ядром остаётся изменение объёма вычислений в зависимости от входных данных. Кроме того, это техническое направление уделяет внимание устойчивости модели после развёртывания. В отличие от статических моделей, жидкие нейронные сети моделируются с помощью уравнений непрерывного времени и адаптивных временных констант, их внутреннее состояние может «течь» и корректироваться в реальном времени в зависимости от ритма входного сигнала. Многочисленные демонстрации Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (MIT CSAIL) показывают, что агенты, управляемые такими сетями, способны устойчиво навигировать в незнакомой среде, справляясь с её изменениями. По сравнению с методами, полагающимися на OTA-обновления для загрузки новых моделей, такая архитектура с врождённой устойчивостью способна защищать от неизвестных возмущений, которые ещё не возникли.
В эпоху пограничного интеллекта ценность в отрасли смещается от моделей и чипов к уровню их взаимодействия. Модель LFM от Liquid AI с самого начала проектирования архитектуры оптимизирована для совместимости с оборудованием. Официально заявлено, что она может бесперебойно работать на GPU, CPU или NPU, охватывая гетерогенные устройства, такие как носимые гаджеты, роботы, смартфоны, ПК и автомобили. В январе этого года компания заключила партнёрство с AMD и за две недели завершила локальную настройку и развёртывание модели на 2,6 млрд параметров на процессоре Ryzen AI. Ключевая способность, стоящая за такой эффективностью, — это инженерное мастерство быстрого приближения к оптимальной комбинации операторов и минимальному объёму памяти в условиях экстремальных аппаратных ограничений.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









