CAPA: новый инструмент выявил схожесть ошибок в LLM, угрожая безопасности AI


CAPA: исследователи выявили схожесть ошибок в LLM и их влияние на безопасность AI


Новое исследование, проведённое учёными из Тюбингена, Хайдарабада и Стэнфорда, обнаружило, что языковые модели (LLM) демонстрируют схожие ошибки, что может повлиять на их безопасность. Для анализа команда разработала инструмент CAPA (Chance Adjusted Probabilistic Agreement), который отслеживает пересечение ошибок между различными AI-моделями.

Как модели AI "подражают" друг другу?


Когда языковым моделям поручали оценивать выводы других LLM, они давали более высокие оценки тем системам, которые совершали похожие ошибки. Это явление исследователи сравнили с «предвзятостью по сходству» у людей, когда работодатели бессознательно выбирают кандидатов, которые напоминают их самих себя.

Влияние на безопасность AI


По мере усложнения LLM их ошибки становятся всё более схожими.
Контроль AI с помощью AI может привести к распространению одинаковых слепых зон.
Чем больше модели учатся друг у друга, тем сильнее склонность к однотипным ошибкам, что может привести к масштабным сбоям.
Исследователи подчеркнули необходимость увеличения разнообразия в обучении AI и дальнейших исследований, чтобы оценить влияние CAPA на более сложные задачи, включая рассуждение и ответы в свободной форме.

Опубликовано: 16.02.2025 05:40