ChatGP-4 обходит людей и другие нейросети по ЕГЭ и экзаменам других стран

Нейросети 30 апр. 2023 г.

И все-таки, насколько умен ChatGPT? Его создатели из компании OpenAI опубликовали отчет про возможности и ограничения новой модели чата, GPT-4. В отчете есть результаты прохождения чатом разных стандартных экзаменов, - среди них, например, SAT (американский ЕГЭ) или экзамен на адвоката.

На картинке – сравнение результатов GPT-4 с прошлой моделью, GPT-3.5, и с людьми. Результаты измеряются в процентилях, — это способ ранжирования своих результатов по сравнению с результатами других. Например, если вы попали в 60-й процентиль в тесте, это означает, что вы набрали больше, чем 60% тестируемых.

Самое интересное – это, конечно, три экзамена, в которых и старая, и новая модели чата потерпели полную неудачу. Ведь эти результаты показывают области, где людей пока не получится заменить.

Эти три экзамена такие:

1. Письменный тест на продвинутый английский – в нем есть раздел с вопросами на способность понимать описанные в речи ситуации и смысл утверждений, оценивать доказательства и аргументацию, а во втором разделе надо написать эссе, анализирующее выданный текст.

2. По литературе, - там по сути то же самое, понимание смысла и эссе с анализом произведения.

3. Соревнование программистов.

В общем, интеллектуалы и программисты пока могут быть спокойны.

Вот какие выводы делают авторы исследования:

«GPT-4 делает некоторые успехи в общедоступных тестах, таких как TruthfulQA, которые проверяют способность модели отделить факты от набора неверных утверждений, но «статистически привлекательных». Базовая модель GPT-4 лишь немногим лучше справляется с этой задачей, чем GPT-3.5; но после посттренировки мы наблюдаем существенные улучшения.

Несмотря на свои возможности, GPT-4 имеет те же ограничения, что и более ранние модели GPT. Самое главное, - она еще не вполне надежна - «галлюцинирует» с фактологией и допускает ошибки в рассуждениях. Следует проявлять большую осторожность при использовании ее выходных данных, особенно в контекстах с высокими ставками. GPT-4 представляет собой значительный шаг к широко используемым и безопасным системам искусственного интеллекта, но на этом пути предстоит проделать еще много работы».

5 нейросетей дешевле ChatGPT в 2026 году: расчёт экономии

8 дней назад • 4 мин. на чтение

Нейросети

10 ИИ-инструментов для видеомонтажа в июне 2026 года: полный рейтинг

8 дней назад • 4 мин. на чтение

Нейросети

12 нейросетей с открытым кодом для работы в 2026 году: полный список

8 дней назад • 4 мин. на чтение

OpenAI Codex 2026: автоматизация GUI без кода — что проверить перед внедрением

Политическая предвзятость AI-чатботов: как проверить модель перед внедрением

Генеративный ИИ в страховании катастроф: скорость или убытки?

Тест AI-детекторов 2026: какие не ошибаются

ChatGP-4 обходит людей и другие нейросети по ЕГЭ и экзаменам других стран

Теги

Александр Боронихин

Рекомендуем

5 нейросетей дешевле ChatGPT в 2026 году: расчёт экономии

10 ИИ-инструментов для видеомонтажа в июне 2026 года: полный рейтинг

12 нейросетей с открытым кодом для работы в 2026 году: полный список

OpenAI Codex 2026: автоматизация GUI без кода — что проверить перед внедрением

Политическая предвзятость AI-чатботов: как проверить модель перед внедрением

Генеративный ИИ в страховании катастроф: скорость или убытки?

Тест AI-детекторов 2026: какие не ошибаются

Теги

Рабочий экран для документов, заявок и ответственных

Александр Боронихин

Рекомендуем

5 нейросетей дешевле ChatGPT в 2026 году: расчёт экономии

10 ИИ-инструментов для видеомонтажа в июне 2026 года: полный рейтинг

12 нейросетей с открытым кодом для работы в 2026 году: полный список