ИИ завышает оценки студентов: как отличить прогресс от подмены

Вы — руководитель образовательной программы, декан или методист. Вы видите, что после появления ChatGPT оценки студентов по письменным и программным заданиям резко пошли вверх. Ваш первый вопрос: это реальный прогресс или ИИ делает работу за студентов?

Источник: the-decoder.com

Исследование Калифорнийского университета в Беркли, проанализировавшее более 500 000 оценок в крупном университете Техаса, даёт однозначный ответ. С ноября 2022 года доля оценок «отлично» выросла на 13 процентных пунктов — примерно на 30% выше уровня 2022 года. Средний балл GPA поднялся на 0,12 пункта. Но ключевой сигнал в другом: рост произошёл почти исключительно за счёт домашних заданий, а не экзаменов.

Это означает, что ИИ не улучшает обучение, а заменяет его. Студенты передают ИИ выполнение письменных работ и кода, а преподаватели получают завышенные оценки, которые не отражают реальных навыков. Если вы не измените методы оценки, вы рискуете выпускать специалистов, чьи дипломы не соответствуют их квалификации.

Что именно изменилось: данные исследования

Исследователь Игорь Чириков из UC Berkeley изучил динамику оценок за восемь осенних семестров — с 2018 по 2025 год. В выборку вошли 319 курсов из 84 кафедр. Для каждого курса была измерена «экспозиция к ИИ» — доля заданий по письму и программированию в учебном плане осени 2022 года, ещё до появления ChatGPT.

Результаты:

Показатель До ChatGPT (2018–2022) После ChatGPT (2023–2025)
Доля оценок A Базовый уровень 2022 года +13 п.п. (рост ~30%)
Средний GPA Базовый уровень +0,12 пункта
Распределение оценок Широкое Суженное: A- и B+ «подтягиваются» до A

Критический тест: если бы ИИ действительно улучшал обучение, рост оценок наблюдался бы независимо от того, какую долю в итоговой оценке составляют домашние задания. Но данные показывают обратное. В курсах, где домашние задания весят выше медианного значения, доля оценок A выросла дополнительно на 16 процентных пунктов по сравнению с курсами с такой же экспозицией к ИИ, но меньшим весом домашек. В курсах с низким весом домашних заданий эффект статистически незначим.

Плацебо-тест подтвердил вывод: по устным презентациям, где ИИ мало полезен, оценки не изменились.

Почему это меняет стоимость и качество образования

Проблема не в том, что студенты используют ИИ. Проблема в том, что оценки перестают быть сигналом реальной квалификации.

Ранее инфляция оценок происходила на этапе выставления баллов — после того, как студент сдал работу. Преподаватель мог завысить оценку из-за мягкости, конкуренции между вузами или институциональной политики. ИИ меняет механизм принципиально: он вмешивается в процесс создания работы до того, как преподаватель её увидит.

Последствия для бизнеса и образования:

  • Работодатели получают выпускников с дипломами, которые не отражают реальных навыков письма и программирования.
  • Магистерские программы принимают студентов, чьи вступительные работы могли быть выполнены ИИ.
  • Сами студенты не развивают навыки, которые ИИ уже умеет выполнять — а значит, после выпуска они окажутся слабее именно в тех областях, где автоматизация наиболее вероятна.

Исследование предупреждает о петле обратной связи: если ИИ берёт на себя задачи, формирующие навыки во время учёбы, выпускники становятся слабее в тех областях, где ИИ сильнее всего. Это ускоряет автоматизацию и расширяет разрыв в квалификации на рынке труда.

Как проверить, касается ли это вашего курса или программы

Прежде чем менять учебный план или вводить запреты, проведите простую диагностику. Вот четыре проверки, которые можно сделать за неделю без привлечения IT-отдела.

Проверка 1. Оцените долю заданий, уязвимых для ИИ Посмотрите на учебные планы ваших курсов. Если более 40% итоговой оценки приходится на письменные работы и код, выполняемые вне аудитории, курс находится в зоне риска.

Проверка 2. Сравните динамику оценок до и после ноября 2022 Возьмите данные за осенние семестры 2019–2021 и 2023–2025. Если средний балл по курсу вырос более чем на 0,1 пункта, а распределение оценок сузилось — это повод для анализа.

Проверка 3. Разделите домашние задания и экзамены Посмотрите, за счёт каких компонентов произошёл рост. Если оценки выросли по домашним заданиям, но не по экзаменам — высока вероятность, что ИИ заменяет работу студентов.

Проверка 4. Проведите плацебо-тест Сравните динамику оценок по устным презентациям или лабораторным работам, где ИИ малоэффективен. Если там роста нет, а по письменным работам есть — диагноз ясен.

Что может не сработать: риски и ограничения

Простой перенос всех заданий в прокторируемые экзамены — не решение. Исследование прямо указывает, что это недостаточно и не так просто, как кажется. Вот что может пойти не так.

Запреты без альтернатив не работают. Если вы просто запретите использование ИИ, студенты будут использовать его скрытно. Без изменения формата заданий вы не сможете отличить работу студента от работы ИИ.

Прокторинг не решает проблему навыков. Даже если вы переведёте все задания в аудиторные экзамены, вы потеряете возможность развивать навыки письма и программирования в формате, приближенном к реальной работе. Студенты будут меньше практиковаться.

Исследование имеет ограничения. Данные получены из одного университета Техаса. Результаты могут различаться в зависимости от типа вуза, страны, дисциплины. Методология основана на учебных планах 2022 года — с тех пор инструменты ИИ могли измениться.

Риск ложной тревоги. Рост оценок может быть частично связан с другими факторами: изменением состава студентов, улучшением преподавания, адаптацией учебных программ. Исследование пытается контролировать эти факторы, но полной уверенности нет.

Что сделать на этой неделе: практический чек-лист

Этот чек-лист предназначен для руководителя программы, методиста или преподавателя, который хочет проверить влияние ИИ на свои курсы и принять меры.

  • [ ] Собрать данные по оценкам за 2019–2025 годы по всем курсам, где есть письменные работы и код. Разделить домашние задания и экзамены.
  • [ ] Выявить курсы с ростом GPA более 0,1 пункта после ноября 2022 года. Отметить курсы, где рост идёт за счёт домашних заданий.
  • [ ] Провести аудит учебных планов: для каждого курса оценить долю заданий, которые можно выполнить с помощью ИИ (письменные работы, код, отчёты).
  • [ ] Выбрать 2-3 пилотных курса с высокой экспозицией к ИИ и изменить формат итогового оценивания: добавить устные компоненты, защиту проектов, аудиторные работы с ограничением доступа к ИИ.
  • [ ] Обсудить с коллегами политику использования ИИ. Не запрет, а правила: когда ИИ можно использовать, когда нужно указывать его применение, как оценивать работу, выполненную с помощью ИИ.
  • [ ] Запланировать повторный сбор данных через один семестр после изменений, чтобы оценить эффект.

Источники

Генерация изображения

  • Модель: flux-schnell
  • Провайдер: replicate

Что почитать дальше