CAPA: исследователи выявили схожесть ошибок в LLM и их влияние на безопасность AI
Новое исследование, проведённое учёными из Тюбингена, Хайдарабада и Стэнфорда, обнаружило, что языковые модели (LLM) демонстрируют схожие ошибки, что может повлиять на их безопасность. Для анализа команда разработала инструмент CAPA (Chance Adjusted Probabilistic Agreement), который отслеживает пересечение ошибок между различными AI-моделями.
Как модели AI "подражают" друг другу?
Когда языковым моделям поручали оценивать выводы других LLM, они давали более высокие оценки тем системам, которые совершали похожие ошибки. Это явление исследователи сравнили с «предвзятостью по сходству» у людей, когда работодатели бессознательно выбирают кандидатов, которые напоминают их самих себя.
Влияние на безопасность AI
По мере усложнения LLM их ошибки становятся всё более схожими.
Контроль AI с помощью AI может привести к распространению одинаковых слепых зон.
Чем больше модели учатся друг у друга, тем сильнее склонность к однотипным ошибкам, что может привести к масштабным сбоям.
Исследователи подчеркнули необходимость увеличения разнообразия в обучении AI и дальнейших исследований, чтобы оценить влияние CAPA на более сложные задачи, включая рассуждение и ответы в свободной форме.