OpenAI представляет новую функциональность ChatGPT: голосовой ввод и вывод, анализ и создание изображений

DeepLearning 25 окт. 2023 г.

Что нового: OpenAI объявила о том, что ChatGPT становится многофункциональным благодаря DALL·E.

Как это работает: Обновления расширяют возможности ChatGPT до голосового управления и взаимодействия с изображениями. Новые функции безопасности разработаны для защиты прав художников и публичных лиц.

Голосовой ввод/вывод дает ChatGPT функциональность, аналогичную Apple Siri или Amazon Alexa. Система распознавания речи Whisper от OpenAI будет транскрибировать голосовой ввод в текстовые запросы, а новая модель текстового воспроизведения рендерит устную речь в пять различных голосовых профилей. Голосовое взаимодействие будет доступно для абонентов платных услуг ChatGPT Plus и Enterprise через пару недель.
Новая модель под названием GPT-4 с Vision (GPT-4V) управляет вводом/выводом изображений для ChatGPT, что было продемонстрировано на дебюте GPT-4. Пользователи могут включать изображения в разговор, например, для анализа математических графиков или планирования приема пищи на основе фотографического содержимого холодильника. Как и голос, ввод/вывод изображений будет доступен для платных абонентов через несколько недель.
DALL·E 3 будет использовать ChatGPT для уточнения запросов и генерации изображений по гораздо более длинным запросам, чем в предыдущей версии. Он будет создавать читаемый текст внутри изображений (вместо вымышленных символов и/или слов). Среди других функций безопасности, он будет отклонять запросы, в которых упоминаются публичные лица или просят создать произведение искусства в стиле живого художника. Обновление будет доступно платным абонентам в начале октября, а Image Creator от Microsoft Bing перейдет с DALL·E 2 на DALL·E 3.
Все новые функции постепенно будут доступны для бесплатных пользователей и API.

Однако: OpenAI заявила, что новые возможности голоса и изображений ограничены английским языком. Кроме того, способность понимать и генерировать высокотехничные изображения ограничена.

За новостью: В марте OpenAI представила GPT-4 с демонстрацией, переводящей набросок веб-сайта на салфетке в код, но Google первым сделал доступ к визуальному вводу и выводу широко доступными для большой языковой модели. Google объявил о визуальных функциях на конференции Google I/O в мае, и общественность смогла использовать их к середине лета.

Почему это важно: ChatGPT уже переопределил возможности искусственного интеллекта среди широкой общественности, бизнеса и технического сообщества. Голосовой ввод открывает мир новых приложений в любой среде, где говорят по-английски, а сочетание языка и видения обязательно приведет к появлению новых приложений в области искусства, науки, промышленности и за ее пределами. Функции безопасности DALL·E 3 звучат как важный шаг вперед в области генерации изображений.

Мы думаем: Понятие генеративных моделей, "делающих все", вошло в сознание общественности. Сочетание генерации текста, голоса и изображений – это захватывающий шаг в этом направлении.

https://www.deeplearning.ai/the-batch/chatgpt-accepts-voice-image-input-output/

5 нейросетей дешевле ChatGPT в 2026 году: расчёт экономии

7 дней назад • 4 мин. на чтение

ИИ-инструменты

Топ-3 AI для кодинга в июне 2026: Claude Opus 4.8, GPT-5.5 и Gemini 3.5 Flash

18 дней назад • 3 мин. на чтение

Нейросети

Как использовать ChatGPT в групповом чате: совещание, решение и общая память

месяц назад • 3 мин. на чтение

Silver Text Gate: многоуровневая фильтрация текста в AI — что даёт бизнесу и где внедрение тормозит

Silver Text Gate в ONFF: 4 критерия качества статьи, которые проверяют перед публикацией

GPT-5.6 отложен и доступен по одобрению: что делать с AI-планом компании

Generative Causal Testing: как превратить объяснение AI в проверяемую гипотезу

OpenAI представляет новую функциональность ChatGPT: голосовой ввод и вывод, анализ и создание изображений

Теги

Андрей Отинов

Рекомендуем

5 нейросетей дешевле ChatGPT в 2026 году: расчёт экономии

Топ-3 AI для кодинга в июне 2026: Claude Opus 4.8, GPT-5.5 и Gemini 3.5 Flash

Как использовать ChatGPT в групповом чате: совещание, решение и общая память

Silver Text Gate: многоуровневая фильтрация текста в AI — что даёт бизнесу и где внедрение тормозит

Silver Text Gate в ONFF: 4 критерия качества статьи, которые проверяют перед публикацией

GPT-5.6 отложен и доступен по одобрению: что делать с AI-планом компании

Generative Causal Testing: как превратить объяснение AI в проверяемую гипотезу

Теги

Рабочий экран для документов, заявок и ответственных

Андрей Отинов

Рекомендуем

5 нейросетей дешевле ChatGPT в 2026 году: расчёт экономии

Топ-3 AI для кодинга в июне 2026: Claude Opus 4.8, GPT-5.5 и Gemini 3.5 Flash

Как использовать ChatGPT в групповом чате: совещание, решение и общая память