Взлом Claude: хакеры обошли защиту AI, выявив критические уязвимости
Anthropic объявила результаты теста на безопасность своего AI-ассистента Claude. В ходе эксперимента хакеры и исследователи попытались взломать защитные механизмы модели, чтобы определить ее уязвимости.
Как проходило тестирование?
Эксперимент длился пять дней, в течение которых участники обработали более 300 000 сообщений. По оценкам Anthropic, на тестирование было затрачено 3700 часов коллективных усилий. Компания стремилась проверить, насколько устойчива система защиты Claude перед сложными атаками.
Какие уязвимости выявили исследователи?
Четыре участника успешно обошли защиту Claude на всех уровнях испытаний.
Один хакер нашел универсальный джейлбрейк, позволяющий обойти все защитные ограждения модели.
Anthropic выплатила победителям 55 000 долларов за обнаруженные уязвимости.
Результаты теста показали, что автоматические классификаторы безопасности недостаточны для полной защиты AI. Лейке отметил, что по мере роста возможностей AI-ассистентов их защита становится всё более сложной задачей, особенно в контексте предотвращения неправомерного использования технологий, связанных с химическими, биологическими и ядерными рисками.