Amazon запускает Nova Sonic — голосовой ИИ с более высокой точностью, чем у GPT-4o
Американская компания Amazon запускает инновационную голосовую систему искусственного интеллекта под названием Nova Sonic. Ее отличают высокая скорость отклика, точное распознавание речи и естественная манера общения. По словам разработчиков, этот голосовой ИИ способен успешно конкурировать с решениями от лидеров индустрии. Речь в первую очередь идет об OpenAI и Google.
Что представляет собой Nova Sonic
Nova Sonic — голосовой ИИ, созданный для непринужденного взаимодействия в формате диалога. Его уже встроили в новейшую версию помощника Alexa+. За основу специалисты взяли многолетние наработки Amazon в области обработки пользовательских запросов.
Система умеет:
- вести двусторонний голосовой обмен;
- поддерживает интеллектуальную маршрутизацию информации;
- распознаёт паузы в речи;
- синхронизирует свои ответы с ритмом беседы.
Также доступна функция автоматической текстовой расшифровки речи. Она пригодится при интеграции ИИ в сторонние сервисы.

Модель демонстрирует выдающиеся результаты при тестировании. Например, в многоязычном сценарии коэффициент ошибок в словах составил всего 4,2%. Это усредненный показатель по пяти языкам: английскому, французскому, итальянскому, немецкому и испанскому.
В другом бенчмарке, с одновременным участием нескольких говорящих, система оказалась почти на 47% точнее, чем одна из версий GPT от OpenAI. Кроме того, время отклика сократилось до 1,09 секунды. Это делает речь Nova Sonic заметно более живой по сравнению с альтернативами, где паузы в диалоге достигают почти 1,2 секунды. Для пользователя разница может показаться незначительной, но на уровне восприятия она играет роль.
Преимущества для бизнеса
Разработчики получили возможность использовать новую модель через платформу Bedrock. На ней предусмотрен API для внедрения ИИ в корпоративные продукты. По расчётам Amazon, Nova Sonic — самый доступный голосовой ИИ на рынке. Стоимость использования модели в 5 раз ниже, чем у GPT-4o. Особенно важно, что система сохраняет точность даже в шумной обстановке, обеспечивая высокое качество разговора. Благодаря гибкой архитектуре ее можно адаптировать под самые разные задачи — от голосовых помощников до интерфейсов для бизнеса.
Nova Sonic — это часть долгосрочной стратегии Amazon в области AGI. Компания стремится создать ИИ-системы, способные выполнять любые задачи, которые человек делает с помощью компьютера.
Amazon делает ставку на универсальность. В ближайших планах компании — расширение возможностей Nova Sonic в сторону мультимодальных решений. Они будут работать не только с голосом, но и визуальной информацией. Снижение стоимости, высокая точность и скорость делают эту модель серьезным конкурентом для решений от OpenAI и других лидеров рынка.