Читайте о новой модели разговорной нейросети, которая одновременно восхищает и пугает пользователей


Sesame AI представила новую модель разговорной речи (CSM), которая добавляет в разговор с пользователем такие реакции, которые обычно присущи только людям, а не машинам. В модель встроены звуки дыхания, непроизвольные ошибки и смешки, что придает ей невероятную естественность и делает общение с ИИ еще более реалистичным.

Два голоса для естественного общения


Модель CSM имеет два голоса: «Майлз» (мужской) и «Майя» (женский). Эти голоса не только демонстрируют феноменальные качества синтеза речи, похожие на человеческие, но и очаровывают тестировавших пользователей. Реализм звучания впечатляет, напоминая технологии таких компаний, как Google (Duplex) и OpenAI (Omni).

Мультимодальный подход к синтезу речи

Технология Sesame использует мультимодальный подход, который сочетает в себе обработку текста и аудио в одной модели. Это обеспечивает более естественный синтез речи, приближая ИИ к реальному разговору. Несмотря на близкое к человеческому качество, система все еще сталкивается с трудностями в разговорном контексте и темпе общения. Как признал соучредитель компании Брендан Ирибе, их голосовая нейросеть требует доработки, но компания уверена, что в ближайшее время все недочеты будут исправлены.

Реакции пользователей: от восторга до дискомфорта

Реакции на технологию были разные. От удивления и восторга до беспокойства и дискомфорта. Модель создает атмосферу максимально естественного разговора, благодаря добавлению звуков дыхания, смешков и случайных самокоррекций. Эти тонкости дают собеседнику уверенность в том, что он общается с реальным человеком. Некоторые пользователи даже отмечали формирование эмоциональных связей с машиной.

Однако не все пользователи оценили эту технологию положительно. Марк Хахман из PCWorld сообщил, что женская версия ИИ напомнила ему его бывшую девушку. Чат-бот задавал ему вопросы, как будто пытаясь установить «близость», что вызвало у него чувство дискомфорта.

Риски гиперреалистичных голосов и возможные угрозы

Как и в случае с любой мощной технологией, использование таких «человеческих» голосов сопряжено с рисками. Возможность генерировать гиперреалистичные голоса может привлечь мошенников, которые будут использовать их для голосового фишинга, выдавая себя за близких или авторитетных лиц.

Однако, по заверению разработчиков, текущая демоверсия Sesame не клонирует голоса и предназначена, главным образом, для использования в обслуживании клиентов и работе в техподдержке.

Опубликовано: 09.03.2025 23:53