Лучшие практики использования GPT-4V: примеры, которые вдохновят Вас

Код машин 24 янв. 2024 г.

GPT-4 - это открытие для глаз.
Немногие успели опробовать GPT-4 with Vision (GPT-4V) от OpenAI, но многие из тех, кто с ним поиграл, выразили восторг.

Что нового

Пользователи, получившие ранний доступ к обновлению GPT-4 with Vision, которое начало постепенно распространяться 24 сентября, заполонили социальные сети своими первыми экспериментами. Тем временем исследователи Microsoft протестировали модель на подробной таксономии задач языкового зрения.

Новые возможности

Пользователи X (бывший Twitter) опробовали модель в ситуациях, требующих понимания содержания и контекста изображения, рассуждения о них и создания соответствующих реакций.

Один из пользователей предоставил GPT-4V фотографию дорожного столба, украшенного несколькими знаками парковки, указал время и день и задал вопрос: "Можно ли здесь парковаться?". Модель прочитала знаки и правильно ответила: "Вы можете припарковаться здесь на один час, начиная с 16:00".
В другой модели был создан "фронтенд-инженер", который позволял модели превращать скриншот веб-страницы в код, а затем итеративно улучшать программу, чтобы устранить ошибки в коде и дизайне.
Отобразив один кадр из голливудского фильма 2000 года "Гладиатор", модель правильно идентифицировала Рассела Кроу как персонажа Максимуса Децима Меридиуса и выдала диалог Кроу ("Разве вас это не развлекает?").
GPT-4V вел себя как персональный репетитор, когда ему показали схему человеческой клетки и попросили описать ее части на уровне девятого класса.

Microsoft подводит итоги

Чжэньюань Ян и его коллеги исследовали возможности GPT-4V и оценили его методы подсказки в широком диапазоне задач, включающих тонкое взаимодействие между изображениями, словами и компьютерным кодом. Они сообщили только качественные результаты - как положительные, так и отрицательные, - оставив другим исследователям возможность сравнить производительность модели с конкурентами вроде LLaVA.

Исследователи визуально подсказывали модели. Выделение интересующих областей изображения рамками или текстовыми метками еще больше улучшило ее работу.
При предъявлении неупорядоченной последовательности изображений GPT-4V определял, какое событие произошло первым, и предсказывал, что произойдет дальше. И наоборот, если последовательность была упорядочена, он описывал действие.
Получив фотографию прибрежного пейзажа и попросив уменьшить желание зрителя посетить это место, модель объяснила, что камни острые и скользкие, а купаться негде.
Получив МРТ-сканирование черепа и попросив написать отчет в качестве эксперта-рентгенолога, модель предложила правильный диагноз, согласно "оценке профессионалов".
Подписи к изображениям, сгенерированные GPT-4V, содержали больше деталей, чем реальные примеры, что привело авторов к выводу, что существующие эталоны не смогут оценить ее способность понимать содержание изображений.

Да, но

Эти высококачественные примеры впечатляют, но они были выбраны для того, чтобы дать лишь общее представление о возможностях GPT-4V. Microsoft отметила, что поведение модели непоследовательно. Еще предстоит выяснить, насколько надежно она сможет выполнить ту или иную задачу.

Почему это важно

GPT-4V - один из первых представителей растущего поколения больших мультимодальных моделей, которые предлагают новые способы взаимодействия с текстом, изображениями и их комбинациями. Он выполняет задачи, которые раньше были уделом специализированных систем, такие как обнаружение объектов, распознавание лиц и оптическое распознавание символов. Он также может адаптировать, изменять или переводить изображения в соответствии с текстовыми или графическими подсказками. Открываются перспективы интеграции с редакторами изображений, средствами дизайна, инструментами кодирования, персональными ассистентами и множеством других приложений.

Мы размышляем

Когда стала доступна только текстовая версия GPT-4, OpenAI в течение нескольких недель не сообщала о количественных результатах (и до сих пор не представила детального представления о своей архитектуре и обучении). Мы с нетерпением ждем более четкого представления о том, на что способен GPT-4V.

5 способов полностью очистить Windows от ненужных программ в 2025

месяц назад • 3 мин. на чтение

Код машин

TimeWeb для сайта: личный опыт и особенности хостинга

4 месяца назад • 1 минута на чтение

Код машин

ТОП-25 ИИ-ассистентов для программирования 2025

5 месяцев назад • 2 мин. на чтение

Перевозка цветов: почему важна не только температура, но и упаковка

Обучение публичным выступлениям: причины популярности

Современные методы уборки: как эффективно поддерживать чистоту в доме

Как выбрать подходящий займ и использовать сервисы онлайн-оформления

Лучшие практики использования GPT-4V: примеры, которые вдохновят Вас

Что нового

Новые возможности

Microsoft подводит итоги

Да, но

Почему это важно

Мы размышляем

Теги

Алина Дедова

Рекомендуем

5 способов полностью очистить Windows от ненужных программ в 2025

TimeWeb для сайта: личный опыт и особенности хостинга

ТОП-25 ИИ-ассистентов для программирования 2025

Перевозка цветов: почему важна не только температура, но и упаковка

Обучение публичным выступлениям: причины популярности

Современные методы уборки: как эффективно поддерживать чистоту в доме

Как выбрать подходящий займ и использовать сервисы онлайн-оформления

Что нового

Новые возможности

Microsoft подводит итоги

Да, но

Почему это важно

Мы размышляем

Теги

Бесплатная консультация с автором по нейросетям

Алина Дедова

Рекомендуем

5 способов полностью очистить Windows от ненужных программ в 2025

TimeWeb для сайта: личный опыт и особенности хостинга

ТОП-25 ИИ-ассистентов для программирования 2025