OpenAI представляет новую функциональность ChatGPT: голосовой ввод и вывод, анализ и создание изображений

DeepLearning 25 окт. 2023 г.

Что нового: OpenAI объявила о том, что ChatGPT становится многофункциональным благодаря DALL·E.

Как это работает: Обновления расширяют возможности ChatGPT до голосового управления и взаимодействия с изображениями. Новые функции безопасности разработаны для защиты прав художников и публичных лиц.

  • Голосовой ввод/вывод дает ChatGPT функциональность, аналогичную Apple Siri или Amazon Alexa. Система распознавания речи Whisper от OpenAI будет транскрибировать голосовой ввод в текстовые запросы, а новая модель текстового воспроизведения рендерит устную речь в пять различных голосовых профилей. Голосовое взаимодействие будет доступно для абонентов платных услуг ChatGPT Plus и Enterprise через пару недель.
  • Новая модель под названием GPT-4 с Vision (GPT-4V) управляет вводом/выводом изображений для ChatGPT, что было продемонстрировано на дебюте GPT-4. Пользователи могут включать изображения в разговор, например, для анализа математических графиков или планирования приема пищи на основе фотографического содержимого холодильника. Как и голос, ввод/вывод изображений будет доступен для платных абонентов через несколько недель.
  • DALL·E 3 будет использовать ChatGPT для уточнения запросов и генерации изображений по гораздо более длинным запросам, чем в предыдущей версии. Он будет создавать читаемый текст внутри изображений (вместо вымышленных символов и/или слов). Среди других функций безопасности, он будет отклонять запросы, в которых упоминаются публичные лица или просят создать произведение искусства в стиле живого художника. Обновление будет доступно платным абонентам в начале октября, а Image Creator от Microsoft Bing перейдет с DALL·E 2 на DALL·E 3.
    Все новые функции постепенно будут доступны для бесплатных пользователей и API.

Однако: OpenAI заявила, что новые возможности голоса и изображений ограничены английским языком. Кроме того, способность понимать и генерировать высокотехничные изображения ограничена.

За новостью: В марте OpenAI представила GPT-4 с демонстрацией, переводящей набросок веб-сайта на салфетке в код, но Google первым сделал доступ к визуальному вводу и выводу широко доступными для большой языковой модели. Google объявил о визуальных функциях на конференции Google I/O в мае, и общественность смогла использовать их к середине лета.

Почему это важно: ChatGPT уже переопределил возможности искусственного интеллекта среди широкой общественности, бизнеса и технического сообщества. Голосовой ввод открывает мир новых приложений в любой среде, где говорят по-английски, а сочетание языка и видения обязательно приведет к появлению новых приложений в области искусства, науки, промышленности и за ее пределами. Функции безопасности DALL·E 3 звучат как важный шаг вперед в области генерации изображений.

Мы думаем: Понятие генеративных моделей, "делающих все", вошло в сознание общественности. Сочетание генерации текста, голоса и изображений – это захватывающий шаг в этом направлении.

https://www.deeplearning.ai/the-batch/chatgpt-accepts-voice-image-input-output/

Теги

Все представленные на сайте материалы предназначены исключительно для образовательных целей и не предназначены для медицинских консультаций, диагностики или лечения. Администрация сайта, редакторы и авторы статей не несут ответственности за любые последствия и убытки, которые могут возникнуть при использовании материалов сайта.