«Неконтролируемая человеческая речь»: потенциальные угрозы нового AI-набора данных


Новый голосовой набор данных для AI: потенциал и риски

MLCommons, некоммерческая рабочая группа по безопасности AI, совместно с Hugging Face выпустила один из крупнейших в мире наборов голосовых записей под названием «Неконтролируемая человеческая речь». В него вошло более миллиона часов аудиофайлов на 89 языках.

Разработчики утверждают, что этот набор данных поможет развитию речевых технологий, включая:

Улучшение распознавания речи на языках с ограниченными ресурсами.
Оптимизацию синтеза голоса для различных акцентов и диалектов.
Создание новых AI-приложений, связанных с голосовыми технологиями.
Однако, несмотря на его ценность для исследований, эксперты предупреждают, что подобные наборы данных могут представлять потенциальные риски.

Главная проблема — предвзятость данных

Источником аудиофайлов для Unsupervised People’s Speech стал Archive.org, где большинство пользователей говорят на английском с американским акцентом.

Это может привести к тому, что AI-модели, обученные на этом наборе данных, будут:

Хуже распознавать речь людей с акцентом или не носителей английского языка.
Иметь ограниченные возможности для генерации естественного синтетического голоса на других языках.
Воспроизводить языковую предвзятость, затрудняя общение для пользователей, говорящих с различными интонациями и произношением.

Вопросы этики и конфиденциальности

Ещё один риск заключается в использовании голосов без ведома людей. Хотя MLCommons утверждает, что записи либо являются общественным достоянием, либо доступны по лицензии Creative Commons, возможны ошибки в классификации данных.

Исследование Массачусетского технологического института показало, что сотни AI-наборов данных содержат ошибки в лицензировании, что может привести к непреднамеренному использованию персональных данных в коммерческих и исследовательских приложениях.

Генеральный директор Fairly Trained Эд Ньютон-Рекс критикует подход, при котором авторов контента заставляют самостоятельно отказываться от использования их данных в AI-наборах. По его словам:

«Даже если бы существовал идеальный способ отказа, это было бы несправедливо по отношению к создателям контента, так как AI уже использует их работы, чтобы конкурировать с ними».

Что будет с «Неконтролируемой человеческой речью» дальше?
MLCommons заявляет, что продолжит обновлять и улучшать набор данных, однако эксперты по AI-безопасности призывают разработчиков проявлять осторожность при его использовании.

Без тщательной проверки источников и обработки данных речевые AI-модели могут унаследовать серьёзные недостатки, влияющие как на качество технологий, так и на этические вопросы их применения.

Опубликовано: 02.02.2025 05:02