Лучшие практики использования GPT-4V: примеры, которые вдохновят Вас

Код машин 24 янв. 2024 г.

GPT-4 - это открытие для глаз.
Немногие успели опробовать GPT-4 with Vision (GPT-4V) от OpenAI, но многие из тех, кто с ним поиграл, выразили восторг.

Что нового

Пользователи, получившие ранний доступ к обновлению GPT-4 with Vision, которое начало постепенно распространяться 24 сентября, заполонили социальные сети своими первыми экспериментами. Тем временем исследователи Microsoft протестировали модель на подробной таксономии задач языкового зрения.

Новые возможности

Пользователи X (бывший Twitter) опробовали модель в ситуациях, требующих понимания содержания и контекста изображения, рассуждения о них и создания соответствующих реакций.

Один из пользователей предоставил GPT-4V фотографию дорожного столба, украшенного несколькими знаками парковки, указал время и день и задал вопрос: "Можно ли здесь парковаться?". Модель прочитала знаки и правильно ответила: "Вы можете припарковаться здесь на один час, начиная с 16:00".
В другой модели был создан "фронтенд-инженер", который позволял модели превращать скриншот веб-страницы в код, а затем итеративно улучшать программу, чтобы устранить ошибки в коде и дизайне.
Отобразив один кадр из голливудского фильма 2000 года "Гладиатор", модель правильно идентифицировала Рассела Кроу как персонажа Максимуса Децима Меридиуса и выдала диалог Кроу ("Разве вас это не развлекает?").
GPT-4V вел себя как персональный репетитор, когда ему показали схему человеческой клетки и попросили описать ее части на уровне девятого класса.


Microsoft подводит итоги

Чжэньюань Ян и его коллеги исследовали возможности GPT-4V и оценили его методы подсказки в широком диапазоне задач, включающих тонкое взаимодействие между изображениями, словами и компьютерным кодом. Они сообщили только качественные результаты - как положительные, так и отрицательные, - оставив другим исследователям возможность сравнить производительность модели с конкурентами вроде LLaVA.

Исследователи визуально подсказывали модели. Выделение интересующих областей изображения рамками или текстовыми метками еще больше улучшило ее работу.
При предъявлении неупорядоченной последовательности изображений GPT-4V определял, какое событие произошло первым, и предсказывал, что произойдет дальше. И наоборот, если последовательность была упорядочена, он описывал действие.
Получив фотографию прибрежного пейзажа и попросив уменьшить желание зрителя посетить это место, модель объяснила, что камни острые и скользкие, а купаться негде.
Получив МРТ-сканирование черепа и попросив написать отчет в качестве эксперта-рентгенолога, модель предложила правильный диагноз, согласно "оценке профессионалов".
Подписи к изображениям, сгенерированные GPT-4V, содержали больше деталей, чем реальные примеры, что привело авторов к выводу, что существующие эталоны не смогут оценить ее способность понимать содержание изображений.


Да, но

Эти высококачественные примеры впечатляют, но они были выбраны для того, чтобы дать лишь общее представление о возможностях GPT-4V. Microsoft отметила, что поведение модели непоследовательно. Еще предстоит выяснить, насколько надежно она сможет выполнить ту или иную задачу.

Почему это важно

GPT-4V - один из первых представителей растущего поколения больших мультимодальных моделей, которые предлагают новые способы взаимодействия с текстом, изображениями и их комбинациями. Он выполняет задачи, которые раньше были уделом специализированных систем, такие как обнаружение объектов, распознавание лиц и оптическое распознавание символов. Он также может адаптировать, изменять или переводить изображения в соответствии с текстовыми или графическими подсказками. Открываются перспективы интеграции с редакторами изображений, средствами дизайна, инструментами кодирования, персональными ассистентами и множеством других приложений.

Мы размышляем

Когда стала доступна только текстовая версия GPT-4, OpenAI в течение нескольких недель не сообщала о количественных результатах (и до сих пор не представила детального представления о своей архитектуре и обучении). Мы с нетерпением ждем более четкого представления о том, на что способен GPT-4V.

Теги

Все представленные на сайте материалы предназначены исключительно для образовательных целей и не предназначены для медицинских консультаций, диагностики или лечения. Администрация сайта, редакторы и авторы статей не несут ответственности за любые последствия и убытки, которые могут возникнуть при использовании материалов сайта.