iLLaDA vs Qwen2.5: когда скорость важнее точности

Исследователи из Renmin University и ByteDance выпустили iLLaDA — языковую модель на 8 миллиардов параметров, которая генерирует текст не слева направо, а через последовательное уточнение зашумлённых токенов. На базовых тестах iLLaDA-Base показывает средний результат 63,9 балла, обходя Qwen2.5 7B (63,3 балла). Однако после дообучения под инструкции разрыв становится значительным: iLLaDA-Instruct набирает 67,1 балла против 77,1 у Qwen2.5 Instruct.

Источник: the-decoder.com

Для команды, которая выбирает языковую модель под свой продукт, это означает появление альтернативного подхода к генерации текста. Диффузионные модели обещают другую скорость и параллелизм, но пока уступают в точности на сложных задачах. Прежде чем тестировать iLLaDA, стоит понять, где её преимущества действительно работают, а где — создают дополнительные риски.

Что изменилось: как работает iLLaDA и чем отличается от привычных моделей

Почти все известные языковые модели — GPT, Claude, Qwen — генерируют текст авторегрессивно: слово за словом, слева направо, где каждый новый токен зависит только от предыдущих. iLLaDA работает иначе. Она начинает с последовательности токенов-заполнителей (masked tokens) и уточняет их за несколько проходов параллельно. Каждая позиция может взаимодействовать с любой другой одновременно — процесс становится двунаправленным.

Этот подход напоминает то, как диффузионные модели создают изображения из шума. Только вместо пикселей — текстовые токены.

iLLaDA — не первая модель такого типа. В июне 2026 года Google DeepMind выпустила DiffusionGemma — 25-миллиардную модель на архитектуре mixture-of-experts, которая генерирует текст примерно в четыре раза быстрее авторегрессивной Gemma 4, но уступает ей по качеству на бенчмарках. Google рекомендует DiffusionGemma для сценариев с низкой задержкой, а не для production-задач, критичных к качеству.

iLLaDA идёт другим путём: это плотная (dense) модель на 8B параметров, обученная с нуля, а не дообученная на существующей авторегрессивной базе. Разработчики сделали ставку на качество, а не только на скорость.

Кого это касается: кто выигрывает и кто рискует

Непосредственно iLLaDA интересна командам, которые:

разрабатывают AI-продукты с высокими требованиями к скорости генерации текста;
ищут альтернативу авторегрессивным моделям для снижения затрат на инференс;
экспериментируют с нестандартными архитектурами для исследовательских или внутренних задач.

Однако для продакшена, где критична точность ответов на инструкции, математические расчёты и генерация кода, iLLaDA пока уступает Qwen2.5. Разрыв в 10 баллов на instruct-версии — это не маркетинговая погрешность, а практическое ограничение.

Владельцу продукта или руководителю команды стоит рассматривать iLLaDA как экспериментальный инструмент, а не как замену текущей модели. Если ваш сценарий требует высокой точности на сложных запросах — пока рано переходить.

Что показывает сравнение: цифры и их значение

Авторы iLLaDA приводят таблицу сравнения с Qwen2.5 7B, LLaDA (предыдущая версия) и Dream 7B (другая диффузионная модель). Вот ключевые результаты для базовых версий (без дообучения под инструкции):

Модель	Тип	Токенов обучения	Средний балл
iLLaDA 8B	Диффузионная	12 трлн	63,9
Qwen2.5 7B	Авторегрессивная	18 трлн	63,3
Dream 7B	Диффузионная	18 трлн + 0,6 трлн	61,4
LLaDA 8B	Диффузионная	2,3 трлн	51,1

iLLaDA обходит Qwen2.5 на общих задачах (MMLU: 74,8 против 71,9; BBH: 71,3 против 63,9; ARC-C: 60,8 против 51,5). Но на коде и математике Qwen2.5 остаётся сильнее (HumanEval: 56,7 против 50,0; Math: 41,1 против 38,4).

Важный нюанс: Dream 7B — это диффузионная модель, дообученная на базе Qwen2.5. iLLaDA, обученная с нуля, всё равно обходит Dream в среднем на 2,5 балла. Это говорит о том, что архитектура iLLaDA сама по себе эффективнее, даже без «наследства» сильной авторегрессивной базы.

Где скрытые ограничения: что не попало в заголовки

Основная проблема iLLaDA — разрыв на instruct-версии. После дообучения под инструкции iLLaDA-Instruct набирает 67,1 балла, а Qwen2.5 Instruct — 77,1. Разница в 10 баллов — это не просто цифра. Она означает, что модель хуже справляется с математическими задачами, генерацией кода и сложными многошаговыми инструкциями.

Авторы объясняют это отсутствием дополнительного выравнивания через reinforcement learning, которое есть у Qwen2.5. В приложении к статье они также отмечают, что модель может застревать в циклах рассуждений на сложных задачах.

Кроме того, прямое численное сравнение с DiffusionGemma от Google затруднено: Google использует другие, более сложные версии бенчмарков, а сама модель работает в другом весовом классе (25B против 8B).

Для бизнес-читателя это означает: iLLaDA может быть полезна в сценариях, где не требуется высокая точность на сложных запросах — например, для генерации черновиков, суммаризации, базовых ответов. Но для клиентского продукта, где каждая ошибка стоит денег, пока рано.

Что можно проверить за неделю: практический чек-лист

Если ваша команда заинтересовалась iLLaDA, вот что стоит сделать до того, как принимать решение о внедрении:

Проверьте доступность модели. На момент публикации статьи нет официальной ссылки на репозиторий или API. Убедитесь, что модель доступна для тестирования через Hugging Face или другой канал.
Сравните на своих данных. Запустите iLLaDA и Qwen2.5 на 10-20 реальных запросах из вашего продукта. Оцените не только точность, но и скорость генерации, стабильность, количество ошибок.
Проверьте сценарии с инструкциями. Если ваш продукт использует сложные промпты с несколькими шагами — протестируйте именно их. iLLaDA может застревать в циклах.
Оцените стоимость инференса. Диффузионные модели могут быть быстрее на коротких текстах, но требуют больше памяти на этапе уточнения. Сравните затраты на GPU-часы для вашего типового объёма генерации.
Проверьте юридическую чистоту. Убедитесь, что лицензия модели позволяет коммерческое использование. ByteDance — китайская компания, и условия могут отличаться от западных аналогов.
Спросите команду. Если ваши разработчики не знакомы с диффузионными архитектурами, оцените время на обучение и отладку. Новая архитектура — это не просто замена модели, это изменение пайплайна.

Что делать на следующей неделе

Не принимайте решение по заголовку. iLLaDA — интересный эксперимент, но не готовая замена Qwen2.5 для production.
Выделите один день на тестирование. Запустите модель на своих данных и сравните с текущей.
Зафиксируйте критерии. Определите, какие метрики для вас критичны: скорость, точность, стоимость, стабильность. Без них любое сравнение будет субъективным.
Следите за обновлениями. Если ByteDance выпустит дообученную версию с reinforcement learning, разрыв может сократиться.

Источники

ByteDance's "iLLaDA" is a diffusion language model that keeps up with Qwen2.5 — The Decoder

Генерация изображения

Модель: flux-schnell
Провайдер: replicate

iLLaDA от ByteDance: диффузионная LLM быстрее, но уступает Qwen2.5 в точности