LFM2.5-230M: компактная LLM для ноутбука и телефона

Компания Liquid AI выпустила модель LFM2.5-230M — нейросеть с 230 миллионами параметров, которую можно запускать прямо на устройстве пользователя, без отправки данных в облако. Модель уже доступна для пяти популярных инструментов инференса: llama.cpp, MLX, vLLM, SGLang и ONNX.

Источник: marktechpost.com

Для команды, которая ищет способ внедрить AI без ежемесячных счетов за облачные GPU, это означает появление ещё одного кандидата на тестирование. Вопрос не в том, хороша ли модель сама по себе, а в том, решит ли она вашу конкретную задачу быстрее, дешевле или надёжнее, чем已有的 варианты.

Прежде чем выделять время разработчика на интеграцию, стоит проверить три вещи: поддерживает ли модель нужный вам язык и формат ответа, работает ли она на вашем железе с приемлемой скоростью, и не появится ли через месяц более удачная альтернатива.

Что именно изменилось

Liquid AI — компания, которая разрабатывает так называемые «жидкие» нейросети (liquid neural networks), отличающиеся по архитектуре от стандартных трансформеров. Модель LFM2.5-230M — это их компактное решение для работы на устройствах с ограниченными ресурсами: ноутбуках, планшетах, смартфонах, одноплатных компьютерах.

Главное изменение для пользователя — модель можно запустить через пять разных инструментов, каждый из которых решает свою задачу:

llama.cpp — запуск на процессоре (CPU) без видеокарты, работает на Linux, Windows, macOS.
MLX — оптимизация для чипов Apple Silicon (M1, M2, M3 и новее).
vLLM — высокопроизводительный инференс для серверов с GPU, поддерживает пакетную обработку.
SGLang — фреймворк для структурированного вывода, полезен, когда нужен строгий формат ответа (JSON, код).
ONNX — кроссплатформенный формат, который позволяет запускать модель на разных движках и устройствах.

Модель доступна на Hugging Face в репозитории Liquid AI. Это не анонс будущего релиза, а уже выпущенный продукт, который можно скачать и протестировать.

Кому это может быть полезно

Компактная модель с поддержкой on-device инференса — это инструмент для трёх типов ситуаций.

Первый сценарий: конфиденциальность. Если вы обрабатываете медицинские данные, финансовую отчётность или клиентскую переписку, отправка запросов в облачные API может быть запрещена политикой безопасности или регулятором. Локальная модель решает эту проблему — данные не покидают устройство.

Второй сценарий: снижение затрат. Облачный инференс стоит денег. Для задач, где не нужна самая мощная модель (например, классификация текстов, извлечение сущностей, простая генерация), компактная модель на собственном сервере или ноутбуке может оказаться дешевле.

Третий сценарий: работа без интернета. Полевые устройства, удалённые объекты, командировки — если соединение нестабильно, локальная модель становится единственным рабочим вариантом.

Однако 230 миллионов параметров — это небольшой размер. Такая модель не заменит GPT-4 или Llama 3 70B в сложных задачах. Её сила в скорости и компактности, а не в глубине понимания.

Как протестировать модель за неделю

Тестирование не требует покупки дорогого оборудования. Вот минимальный план проверки.

Шаг 1. Скачайте модель. Перейдите на Hugging Face в профиль Liquid AI и загрузите LFM2.5-230M в нужном формате. Для llama.cpp потребуется GGUF-версия, для MLX — уже конвертированный файл.

Шаг 2. Выберите инструмент. Если у вас обычный ноутбук без мощной видеокарты, начните с llama.cpp. Он работает на процессоре и не требует GPU. Для Mac на Apple Silicon попробуйте MLX — он даст лучшую производительность.

Шаг 3. Запустите тестовый запрос. Не пытайтесь сразу внедрить модель в продукт. Сначала проверьте, отвечает ли она на ваши типовые вопросы. Например, если вы работаете с технической документацией, задайте модели вопрос по вашей предметной области и оцените качество ответа.

Шаг 4. Замерьте скорость. Засеките время ответа на одном и том же запросе. Для production-сценария важна не только правильность, но и скорость: если модель думает минуту, пользователь уйдёт.

Шаг 5. Сравните с текущим решением. Если вы уже используете какую-то модель (через API или локально), запустите тот же тест на ней. Сравните качество, скорость и стоимость.

Сравнение инструментов для запуска

Инструмент	Где запускать	Когда выбирать
llama.cpp	CPU, Linux/Windows/macOS	Нет GPU, нужна универсальность
MLX	Apple Silicon (M1-M4)	Работаете на Mac, нужна скорость
vLLM	Сервер с GPU	Высокая нагрузка, пакетная обработка
SGLang	Сервер с GPU	Нужен строгий формат ответа
ONNX	Любая платформа	Хотите переносить модель между движками

Выбор инструмента зависит от вашего оборудования и задачи. Для первого теста проще всего взять llama.cpp — он не требует видеокарты и хорошо документирован.

Что может пойти не так

Модель новая, и у неё есть несколько ограничений, которые стоит проверить до принятия решения.

Качество ответов. 230 миллионов параметров — это небольшой размер. Модель может плохо справляться с многошаговыми рассуждениями, редкими языками или специфической терминологией. Единственный способ узнать — протестировать на своих данных.

Совместимость. Поддержка пяти фреймворков не означает, что все они работают одинаково хорошо. На старте возможны баги, неполная поддержка функций или проблемы с производительностью на конкретных конфигурациях. Проверяйте issue-трекеры на GitHub.

Лицензия и коммерческое использование. Перед внедрением в продукт уточните лицензию модели на Hugging Face. Не все модели можно использовать в коммерческих продуктах без ограничений.

Стабильность. Liquid AI — молодая компания, и их модель может обновляться или меняться. Если вы построите интеграцию на текущей версии, следующее обновление может потребовать доработок.

Что можно сделать на этой неделе

Скачайте LFM2.5-230M с Hugging Face и установите llama.cpp или MLX.
Запустите 5-10 тестовых запросов из вашей предметной области.
Замерьте время ответа на вашем оборудовании.
Сравните с текущим решением по качеству и стоимости.
Примите решение: тестировать дальше или отложить до следующей версии.

Если модель показывает приемлемое качество на ваших задачах, можно переходить к пилотному проекту — например, внедрить её в один внутренний инструмент и оценить результат за месяц.

Источники

Генерация изображения

Модель: flux-schnell
Провайдер: replicate

LFM2.5-230M: компактная LLM для ноутбука и телефона — тест за неделю