ChatGP-4 обходит людей и другие нейросети по ЕГЭ и экзаменам других стран

Нейросети 30 апр. 2023 г.

И все-таки, насколько умен ChatGPT? Его создатели из компании OpenAI опубликовали отчет про возможности и ограничения новой модели чата, GPT-4.  В отчете есть результаты прохождения чатом разных стандартных экзаменов, - среди них, например, SAT (американский ЕГЭ) или экзамен на адвоката.

На картинке – сравнение результатов GPT-4 с прошлой моделью, GPT-3.5, и с людьми. Результаты измеряются в процентилях, — это способ ранжирования своих результатов по сравнению с результатами других. Например, если вы попали в 60-й процентиль в тесте, это означает, что вы набрали больше, чем 60% тестируемых.

Самое интересное – это, конечно, три экзамена, в которых и старая, и новая модели чата потерпели полную неудачу. Ведь эти результаты показывают области, где людей пока не получится заменить.

Эти три экзамена такие:

1. Письменный тест на продвинутый английский – в нем есть раздел с вопросами на способность понимать описанные в речи ситуации и смысл утверждений, оценивать доказательства и аргументацию, а во втором разделе надо написать эссе, анализирующее выданный текст.

2. По литературе, - там по сути то же самое, понимание смысла и эссе с анализом произведения.

3. Соревнование программистов.

В общем, интеллектуалы и программисты пока могут быть спокойны.

Вот какие выводы делают авторы исследования:

«GPT-4 делает некоторые успехи в общедоступных тестах, таких как TruthfulQA, которые проверяют способность модели отделить факты от набора неверных утверждений, но «статистически привлекательных». Базовая модель GPT-4 лишь немногим лучше справляется с этой задачей, чем GPT-3.5; но после посттренировки мы наблюдаем существенные улучшения.


Несмотря на свои возможности, GPT-4 имеет те же ограничения, что и более ранние модели GPT. Самое главное, - она еще не вполне надежна - «галлюцинирует» с фактологией и допускает ошибки в рассуждениях. Следует проявлять большую осторожность при использовании ее выходных данных, особенно в контекстах с высокими ставками. GPT-4 представляет собой значительный шаг к широко используемым и безопасным системам искусственного интеллекта, но на этом пути предстоит проделать еще много работы».

Теги

Great! You've successfully subscribed.
Great! Next, complete checkout for full access.
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.

Все представленные на сайте материалы предназначены исключительно для образовательных целей и не предназначены для медицинских консультаций, диагностики или лечения. Администрация сайта, редакторы и авторы статей не несут ответственности за любые последствия и убытки, которые могут возникнуть при использовании материалов сайта.