Экономичные языковые модели Microsoft: революция в искусственном интеллекте совместно с OpenAI

Майкрософт стремится контролировать затраты на использование моделей OpenAI.

Что нового: Согласно информации от The Information, Microsoft стремится создать более компактные языковые модели, которые почти так же хорошо выполняют задачи, как ChatGPT, но стоят дешевле в эксплуатации.

Как это работает: Microsoft предлагает линейку инструментов на основе искусственного интеллекта, которые дополняют основные продукты компании, включая Windows, Microsoft 365 и GitHub. Эта линейка, известная как Copilot, основана на моделях OpenAI. Обслуживание этих моделей для более чем 1 миллиарда пользователей может привести к огромным расходам и занять вычислительные ресурсы, которые могли бы быть использованы в других целях. Чтобы управлять затратами, разработчики Майкрософт используют метод дистилляции знаний, при котором меньшая модель обучается имитировать выводы более крупной модели, а также другие техники.

  • Соглашение Майкрософта с OpenAI дает ему уникальный доступ к выводам моделей OpenAI. Дистилляция моделей OpenAI стала приоритетной задачей команды искусственного интеллекта. Такие модели уже используются в Bing Chat.
  • Петер Ли, главный исследователь по искусственному интеллекту в Майкрософт, выделил около 2000 графических процессоров для обучения и проверки дистиллированных моделей, что является долей от количества, использованного для обучения и проверки модели GPT-4.
    Модель Orca, имеющая 13 миллиардов параметров LLaMA 2 и донастроенная на выводах модели GPT-4, соответствовала ChatGPT по сложному тесту BIG-Bench Hard. Тем не менее, на других тестах она уступала GPT-4. (По сообщениям, Майкрософт рассматривал возможность выпуска модели Orca на платформе Azure в качестве конкурента GPT-4 и LLaMA 2, но лицензия LLaMA 2 ограничивает такую возможность.)
  • Компания также разрабатывает более компактные модели с нуля. Например, модель Phi-1 превосходит большинство моделей с открытым исходным кодом по показателям, связанным с генерацией кода на языке Python, такими как HumanEval, несмотря на то, что она меньше в 10 раз и обучена на 100 раз меньшем количестве данных.

За кулисами: Майкрософт инвестировал 10 миллиардов долларов в OpenAI. Сделка обещает техническому гиганту 75 процентов операционной прибыли OpenAI до погашения инвестиции, а затем 49 процентов дальнейшей прибыли до достижения неуказанного потолка. Тем временем, у Майкрософт есть доступ к высокопроизводительным моделям из других источников. Его облачная платформа Azure обслуживает модель LLaMA 2 от Meta.

Почему это важно: Обслуживание больших нейронных сетей в масштабе - это вызов даже для Майкрософта, который обладает огромными аппаратными ресурсами и выгодным соглашением с OpenAI. Запуск дистиллированных и донастроенных моделей может снизить затраты и для технических гигантов, и для маленьких стартапов.

Мы думаем: Если пользователям так нравится Copilot, что они тратят большие суммы на выводы моделей, это звучит как положительный знак!

https://www.deeplearning.ai/the-batch/microsofts-quest-to-reduce-the-size-and-cost-of-language-models/