OpenAI запустила альфа-версию расширенного голосового режима ChatGPT с гиперреалистичными аудиоответами GPT-4o

OpenAI начала развёртывание расширенного голосового режима ChatGPT в виде альфа-версии для небольшой группы пользователей ChatGPT Plus с сегодняшнего дня. Гиперреалистичные аудиоответы GPT-4o станут доступны для всех пользователей Plus осенью 2024 года.

В мае OpenAI продемонстрировала голос GPT-4o, который произвёл впечатление на аудиторию своей скоростью генерации и сходством с настоящим человеческим голосом, напоминающим голос актрисы Скарлетт Йоханссон. После демонстрации Йоханссон заявила, что отказалась от предложения генерального директора Сэма Альтмана на использование её голоса, и наняла юриста для защиты сходства своего голоса. OpenAI отрицала использование голоса Йоханссон, но позже удалила голос из демонстрации. В июне компания объявила, что отложит выпуск расширенного голосового режима, чтобы улучшить меры безопасности.

OpenAI запустила альфа-версию расширенного голосового режима ChatGPT с гиперреалистичными аудиоответами GPT-4o
Источник: OpenAI

OpenAI объявила, что возможности видео и совместного использования экрана, продемонстрированные во время весеннего обновления, не войдут в эту альфа-версию и будут запущены позже. Некоторые премиум-пользователи получат доступ к голосовой функции ChatGPT, показанной в демонстрации.

Расширенный голосовой режим отличается от текущего решения ChatGPT для аудио, которое использует три отдельные модели. GPT-4o является мультимодальным и может обрабатывать эти задачи без помощи вспомогательных моделей, создавая голосовые ответы со значительно меньшей задержкой. OpenAI также утверждает, что GPT-4o может улавливать эмоциональные интонации в голосе, включая грусть, волнение и распознавать пение.

Компания сообщила, что выпускает голос ChatGPT постепенно, чтобы внимательно следить за его использованием. Участники альфа-группы получат оповещение в приложении ChatGPT, а затем электронное письмо с инструкциями по его использованию.

Голосовые возможности GPT-4o были протестированы на 45 языках. OpenAI также ввела новые фильтры для блокировки определённых запросов на создание музыки или других аудиоматериалов, защищённых авторским правом.

Advanced Voice Mode будет ограничен четырьмя предустановленными голосами ChatGPT — Juniper, Breeze, Cove и Ember — созданными в сотрудничестве с платными актёрами озвучивания. ChatGPT не может имитировать голоса других людей и будет блокировать выходные данные, которые отличаются от одного из этих предустановленных голосов.


Источник