const ghostSearchApiKey = '93722e96ae625aaeb360b7f295'

ChatGP-4 обходит людей и другие нейросети по ЕГЭ и экзаменам других стран

Нейросети 30 апр. 2023 г.

И все-таки, насколько умен ChatGPT? Его создатели из компании OpenAI опубликовали отчет про возможности и ограничения новой модели чата, GPT-4.  В отчете есть результаты прохождения чатом разных стандартных экзаменов, - среди них, например, SAT (американский ЕГЭ) или экзамен на адвоката.

На картинке – сравнение результатов GPT-4 с прошлой моделью, GPT-3.5, и с людьми. Результаты измеряются в процентилях, — это способ ранжирования своих результатов по сравнению с результатами других. Например, если вы попали в 60-й процентиль в тесте, это означает, что вы набрали больше, чем 60% тестируемых.

Самое интересное – это, конечно, три экзамена, в которых и старая, и новая модели чата потерпели полную неудачу. Ведь эти результаты показывают области, где людей пока не получится заменить.

Эти три экзамена такие:

1. Письменный тест на продвинутый английский – в нем есть раздел с вопросами на способность понимать описанные в речи ситуации и смысл утверждений, оценивать доказательства и аргументацию, а во втором разделе надо написать эссе, анализирующее выданный текст.

2. По литературе, - там по сути то же самое, понимание смысла и эссе с анализом произведения.

3. Соревнование программистов.

В общем, интеллектуалы и программисты пока могут быть спокойны.

Вот какие выводы делают авторы исследования:

«GPT-4 делает некоторые успехи в общедоступных тестах, таких как TruthfulQA, которые проверяют способность модели отделить факты от набора неверных утверждений, но «статистически привлекательных». Базовая модель GPT-4 лишь немногим лучше справляется с этой задачей, чем GPT-3.5; но после посттренировки мы наблюдаем существенные улучшения.


Несмотря на свои возможности, GPT-4 имеет те же ограничения, что и более ранние модели GPT. Самое главное, - она еще не вполне надежна - «галлюцинирует» с фактологией и допускает ошибки в рассуждениях. Следует проявлять большую осторожность при использовании ее выходных данных, особенно в контекстах с высокими ставками. GPT-4 представляет собой значительный шаг к широко используемым и безопасным системам искусственного интеллекта, но на этом пути предстоит проделать еще много работы».

Теги

Все представленные на сайте материалы предназначены исключительно для образовательных целей и не предназначены для медицинских консультаций, диагностики или лечения. Администрация сайта, редакторы и авторы статей не несут ответственности за любые последствия и убытки, которые могут возникнуть при использовании материалов сайта.