Будущее наступает: искусственный интеллект на выставке CES

Код машин 24 янв. 2024 г.

Обучение на сгенерированных данных искажает производительность модели
Насколько точны модели машинного обучения, которые были обучены на данных, созданных другими моделями? Исследователи изучили модели, которые обучались на данных, сгенерированных моделями, которые обучались на данных, сгенерированных еще одними моделями.

Что нового

Илия Шумайлов и Захар Шумайлов с коллегами из Оксфордского университета, Кембриджского университета, Имперского колледжа Лондона, Университета Торонто, Векторного института и Эдинбургского университета утверждают - как теоретически, так и эмпирически, - что модели, обученные почти исключительно на результатах предыдущих моделей, усваивают искаженное распределение данных.

Ключевой момент

Обученные модели с меньшей вероятностью будут генерировать типы примеров, которые нечасто появляются в их обучающих данных. Более того, они не моделируют обучающие данные идеально, поэтому их выходные данные не совсем соответствуют распределению обучающего набора данных. Они могут комбинировать элементы обучающих примеров. Когда одна модель последовательно обучается на другой, ошибки накапливаются - это явление авторы называют коллапсом модели.

Как это работает

Авторы обучали модели разных типов. Сначала они обучили модель на наборе данных, собранном и собранном человеком, - поколение 0. Затем они обучили поколение 1 той же архитектуры на выходе поколения 0, поколение 2 - на выходе поколения 1 и так далее. В некоторых случаях они заменяли часть сгенерированных примеров примерами из исходного обучающего набора.

Авторы обучили модель гауссовой смеси (GMM), которая предполагала, что входные данные поступают из пары двумерных гауссовых распределений, и кластеризовала данные, чтобы соответствовать им. Они обучили 2 000 поколений GMM на 1 000 примеров, сгенерированных моделью предыдущего поколения, не используя исходные данные.
Вариативный автоэнкодер (VAE) был обучен генерировать цифры MNIST в течение 20 поколений. Как и в случае с GMM, каждое последующее поколение обучалось только на результатах, полученных предыдущим поколением.
Они провели тонкую настройку предварительно обученной языковой модели OPT (125 миллионов параметров) на WikiText-2. 9 последующих поколений (i) настраивались только на примерах, полученных предыдущим поколением, и (ii) на смеси из 90 % данных предыдущего поколения и 10 % исходных обучающих данных.
Результаты

ГММ первого поколения распознала гауссианы как эллипсы, но каждое последующее поколение ухудшало их форму. К поколению 2 000 форма превратилась в крошечную область. Аналогично, VAE поздних поколений воспроизводили цифры MNIST менее точно; к 20-му поколению результат выглядел как смесь всех цифр. Что касается языковых моделей OPT, то поколение 0 достигло 34 perplexity (это показатель того, насколько маловероятно, что модель воспроизведет текст в тестовом наборе; меньше - лучше). Обученные только на сгенерированных данных, последующие поколения демонстрировали все более низкую производительность; поколение 9 достигло 53 perplexity. При обучении на 10 % исходных данных последующие поколения все еще работали хуже, но уже не так сильно; поколение 9 достигло 37 perplexity.

Да, но

Рекурсивный процесс обучения, предложенный авторами, - это худший сценарий, и сгенерированным данным есть место в обучении. Например, Alpaca превзошла предварительно обученную LLaMA за счет тонкой настройки последней на 52 000 примеров, созданных GPT-3.5.

Почему это важно

Появление высококачественных генеративных моделей дает инженерам возможность обучать новые модели на результатах старых, что может быть быстрее и дешевле, чем сбор реального набора данных. Однако такая практика, доведенная до крайности, может привести к созданию менее способных моделей. Более того, если модели обучаются на данных, взятых из Интернета, а если Интернет все больше наполняется сгенерированными медиа, то и эти модели со временем будут становиться менее способными.

Мы думаем

Чтобы получать результаты, которые можно было бы использовать для обучения, не приводя к краху модели, генератору данных нужен доступ к источникам новой информации. В конце концов, людям тоже нужен свежий материал, чтобы постоянно придумывать новые идеи.

Теги

Все представленные на сайте материалы предназначены исключительно для образовательных целей и не предназначены для медицинских консультаций, диагностики или лечения. Администрация сайта, редакторы и авторы статей не несут ответственности за любые последствия и убытки, которые могут возникнуть при использовании материалов сайта.