1. Главная
  2. »
  3. Технологии
  4. »
  5. OpenAI представляет gpt-realtime для создания голосовых ИИ-агентов нового поколения

OpenAI представляет gpt-realtime для создания голосовых ИИ-агентов нового поколения

OpenAI выпустила свою самую совершенную модель преобразования речи в речь gpt-realtime и открыла доступ к ней по API.

Эти обновления позволяют разработчикам и компаниям создавать надежных и готовых к работе голосовых ИИ-агентов с низкой задержкой и более естественным, выразительным звучанием, передает incrussia.ru

Проблема традиционных голосовых ассистентов — это задержка и роботизированный голос. Они обычно используют цепочку из нескольких моделей (речь в текст, обработка, текст в речь), что замедляет ответ. Realtime API от OpenAI обрабатывает и генерирует аудио напрямую через единую модель, что значительно снижает задержку, сохраняет интонации и делает общение более живым.

GPT Realtime стала значительно лучше понимать сложные инструкции по сравнению со своим предшественником, интегрированным в GPT-4o. Также модель стала точнее использовать сторонние инструменты, говорить более качественно и следовать системным промптам. Также были добавлены два новых, более естественных голоса — Cedar и Marin.

Realtime API получил ключевые обновления для производственного использования. Добавлена поддержка телефонных звонков через протокол SIP, возможность передавать модели изображения для контекста (например, скриншоты) и поддержка удаленных серверов MCP для интеграции с внешними инструментами, такими как Stripe. Это делает голосовых агентов гораздо более функциональными.

OpenAI также снизила цены на gpt-realtime на 20% по сравнению с предыдущей версией. Стоимость составит $32 за 1 млн входных аудиотокенов и $64 за 1 млн выходных. Новые возможности API уже оценили такие компании, как Zillow, которые отмечают, что модель позволяет обрабатывать сложные многоэтапные запросы.

Источник

Комментировать

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Читайте также

Сейчас читают