CAPA: инструмент для анализа ошибок LLM выявил тревожные закономерности

CAPA: исследователи выявили схожесть ошибок в LLM и их влияние на безопасность AI

Новое исследование, проведённое учёными из Тюбингена, Хайдарабада и Стэнфорда, обнаружило, что языковые модели (LLM) демонстрируют схожие ошибки, что может повлиять на их безопасность. Для анализа команда разработала инструмент CAPA (Chance Adjusted Probabilistic Agreement), который отслеживает пересечение ошибок между различными AI-моделями.

Как модели AI "подражают" друг другу?

Когда языковым моделям поручали оценивать выводы других LLM, они давали более высокие оценки тем системам, которые совершали похожие ошибки. Это явление исследователи сравнили с «предвзятостью по сходству» у людей, когда работодатели бессознательно выбирают кандидатов, которые напоминают их самих себя.

Влияние на безопасность AI

По мере усложнения LLM их ошибки становятся всё более схожими.
Контроль AI с помощью AI может привести к распространению одинаковых слепых зон.
Чем больше модели учатся друг у друга, тем сильнее склонность к однотипным ошибкам, что может привести к масштабным сбоям.
Исследователи подчеркнули необходимость увеличения разнообразия в обучении AI и дальнейших исследований, чтобы оценить влияние CAPA на более сложные задачи, включая рассуждение и ответы в свободной форме.

CAPA: новый инструмент выявил схожесть ошибок в LLM, угрожая безопасности AI

CAPA: исследователи выявили схожесть ошибок в LLM и их влияние на безопасность AI

Как модели AI "подражают" друг другу?

Влияние на безопасность AI