Новый голосовой набор данных для AI: потенциал и риски
MLCommons, некоммерческая рабочая группа по безопасности AI, совместно с Hugging Face выпустила один из крупнейших в мире наборов голосовых записей под названием «Неконтролируемая человеческая речь». В него вошло более миллиона часов аудиофайлов на 89 языках.Разработчики утверждают, что этот набор данных поможет развитию речевых технологий, включая:
Улучшение распознавания речи на языках с ограниченными ресурсами.
Оптимизацию синтеза голоса для различных акцентов и диалектов.
Создание новых AI-приложений, связанных с голосовыми технологиями.
Однако, несмотря на его ценность для исследований, эксперты предупреждают, что подобные наборы данных могут представлять потенциальные риски.
Главная проблема — предвзятость данных
Источником аудиофайлов для Unsupervised People’s Speech стал Archive.org, где большинство пользователей говорят на английском с американским акцентом.Это может привести к тому, что AI-модели, обученные на этом наборе данных, будут:
Хуже распознавать речь людей с акцентом или не носителей английского языка.
Иметь ограниченные возможности для генерации естественного синтетического голоса на других языках.
Воспроизводить языковую предвзятость, затрудняя общение для пользователей, говорящих с различными интонациями и произношением.
Вопросы этики и конфиденциальности
Ещё один риск заключается в использовании голосов без ведома людей. Хотя MLCommons утверждает, что записи либо являются общественным достоянием, либо доступны по лицензии Creative Commons, возможны ошибки в классификации данных.Исследование Массачусетского технологического института показало, что сотни AI-наборов данных содержат ошибки в лицензировании, что может привести к непреднамеренному использованию персональных данных в коммерческих и исследовательских приложениях.
Генеральный директор Fairly Trained Эд Ньютон-Рекс критикует подход, при котором авторов контента заставляют самостоятельно отказываться от использования их данных в AI-наборах. По его словам:
«Даже если бы существовал идеальный способ отказа, это было бы несправедливо по отношению к создателям контента, так как AI уже использует их работы, чтобы конкурировать с ними».
Что будет с «Неконтролируемой человеческой речью» дальше?
MLCommons заявляет, что продолжит обновлять и улучшать набор данных, однако эксперты по AI-безопасности призывают разработчиков проявлять осторожность при его использовании.
Без тщательной проверки источников и обработки данных речевые AI-модели могут унаследовать серьёзные недостатки, влияющие как на качество технологий, так и на этические вопросы их применения.