Битва машин: матч чатботов обещает захватывающие эмоции

Новый онлайн-инструмент оценивает чатботов, сталкивая их друг с другом в состязаниях "голова к голове".

Что нового

Chatbot Arena позволяет пользователям одновременно запрашивать две большие языковые модели и определять ту, которая дает лучшие ответы. В результате получается таблица лидеров, в которую входят как модели с открытым исходным кодом, так и собственные модели.

Как это работает

Когда пользователь вводит подсказку, две отдельные модели генерируют свои ответы бок о бок. Пользователь может выбрать победителя, объявить ничью, решить, что оба ответа были плохими, или продолжить оценку, введя новую подсказку.

Chatbot Arena предлагает два режима: битва и бок о бок. В режиме битвы участвуют как открытые, так и запатентованные модели, но идентифицируются они только после выбора победителя. Режим "Бок о бок" позволяет пользователям выбирать из списка 16 моделей с открытым исходным кодом.
Система объединяет эти соревнования и ранжирует модели в соответствии с метрикой, известной как Elo, которая оценивает конкурентов относительно друг друга. У Elo нет максимального или минимального балла. Модель, набравшая на 100 очков больше, чем соперник, выиграет 64 процента матчей с ним, а модель, набравшая на 200 очков больше, выиграет 76 процентов матчей.
Кто впереди? По состоянию на 19 июля 2023 года GPT-4 от OpenAI возглавляет таблицу лидеров. Две версии Claude от Anthropic занимают второе и третье места. GPT-3.5-turbo занимает четвертое место, за ним следуют две версии Vicuna (LLaMA, отлаженная на общих разговорах ChatGPT).

Почему это важно

Обычные языковые бенчмарки оценивают производительность моделей количественно. Chatbot Arena дает качественную оценку, реализованную таким образом, что можно ранжировать любое количество моделей относительно друг друга.

Мы думаем

В боксерском поединке между GPT-4 и старинным ELIZA 1960-х годов мы бы поставили на ELIZA. В конце концов, в ней использовались перфокарты.

Источник: https://www.deeplearning.ai/the-batch/issue-206/