Битва машин: матч чатботов обещает захватывающие эмоции

Код продаж 30 янв. 2024 г.

Новый онлайн-инструмент оценивает чатботов, сталкивая их друг с другом в состязаниях "голова к голове".

Что нового

Chatbot Arena позволяет пользователям одновременно запрашивать две большие языковые модели и определять ту, которая дает лучшие ответы. В результате получается таблица лидеров, в которую входят как модели с открытым исходным кодом, так и собственные модели.

Как это работает

Когда пользователь вводит подсказку, две отдельные модели генерируют свои ответы бок о бок. Пользователь может выбрать победителя, объявить ничью, решить, что оба ответа были плохими, или продолжить оценку, введя новую подсказку.

Chatbot Arena предлагает два режима: битва и бок о бок. В режиме битвы участвуют как открытые, так и запатентованные модели, но идентифицируются они только после выбора победителя. Режим "Бок о бок" позволяет пользователям выбирать из списка 16 моделей с открытым исходным кодом.
Система объединяет эти соревнования и ранжирует модели в соответствии с метрикой, известной как Elo, которая оценивает конкурентов относительно друг друга. У Elo нет максимального или минимального балла. Модель, набравшая на 100 очков больше, чем соперник, выиграет 64 процента матчей с ним, а модель, набравшая на 200 очков больше, выиграет 76 процентов матчей.
Кто впереди? По состоянию на 19 июля 2023 года GPT-4 от OpenAI возглавляет таблицу лидеров. Две версии Claude от Anthropic занимают второе и третье места. GPT-3.5-turbo занимает четвертое место, за ним следуют две версии Vicuna (LLaMA, отлаженная на общих разговорах ChatGPT).

Почему это важно

Обычные языковые бенчмарки оценивают производительность моделей количественно. Chatbot Arena дает качественную оценку, реализованную таким образом, что можно ранжировать любое количество моделей относительно друг друга.

Мы думаем

В боксерском поединке между GPT-4 и старинным ELIZA 1960-х годов мы бы поставили на ELIZA. В конце концов, в ней использовались перфокарты.

Источник: https://www.deeplearning.ai/the-batch/issue-206/

Обрезка копыт КРС: зачем нужна и как проводится процедура

7 дней назад • 2 мин. на чтение

Код продаж

Покупка просмотров в Telegram – нюансы использования метода

8 дней назад • 5 мин. на чтение

Код продаж

Дискавери-переходы в Яндекс Картах: что это и чем рискованна накрутка ПФ

22 дня назад • 3 мин. на чтение

OpenClaw на iOS и Android: управление AI-агентами с телефона

AI-агент не коллега: как название снижает качество работы на 18%

NVIDIA BioNeMo Agent Toolkit: как автоматизировать биомолекулярные задачи

PyGraphistry: интерактивный граф для расследования инцидентов безопасности

Битва машин: матч чатботов обещает захватывающие эмоции

Что нового

Как это работает

Почему это важно

Мы думаем

Теги

Алина Дедова

Рекомендуем

Обрезка копыт КРС: зачем нужна и как проводится процедура

Покупка просмотров в Telegram – нюансы использования метода

Дискавери-переходы в Яндекс Картах: что это и чем рискованна накрутка ПФ

OpenClaw на iOS и Android: управление AI-агентами с телефона

AI-агент не коллега: как название снижает качество работы на 18%

NVIDIA BioNeMo Agent Toolkit: как автоматизировать биомолекулярные задачи

PyGraphistry: интерактивный граф для расследования инцидентов безопасности

Что нового

Как это работает

Почему это важно

Мы думаем

Теги

Рабочий экран для документов, заявок и ответственных

Алина Дедова

Рекомендуем

Обрезка копыт КРС: зачем нужна и как проводится процедура

Покупка просмотров в Telegram – нюансы использования метода

Дискавери-переходы в Яндекс Картах: что это и чем рискованна накрутка ПФ