AI-ассистенты не проходят базовую проверку фактов в исследовании BBC

AI-ассистенты массово проваливают проверку фактов в исследовании BBC

BBC провела масштабное исследование, протестировав работу ведущих AI-ассистентов, включая ChatGPT, Microsoft Copilot, Google Gemini и Perplexity, на точность представления новостного контента. В ходе анализа выяснилось, что 51% ответов содержат значительные ошибки, варьирующиеся от устаревшей информации до полностью сфабрикованных данных.

Как проводилось исследование?

В декабре 2024 года 45 журналистов BBC протестировали AI-ассистентов на 100 актуальных новостных вопросов. Анализировались семь параметров:

точность,
корректность приписывания источников,
беспристрастность,
разделение фактов и мнений,
наличие комментариев,
контекст,
корректность использования контента BBC.
Каждый ответ оценивался по шкале от «нет проблем» до «значительные проблемы». В результате выяснилось, что 19% ответов, ссылающихся на BBC, содержали ошибки, а 13% включали сфабрикованные или некорректно приписанные цитаты.

Кто допустил наибольшее количество ошибок?

Google Gemini продемонстрировал самые низкие результаты, показав наибольшее число проблемных ответов — более 60%.

Microsoft Copilot представил устаревшую новость о независимости Шотландии как актуальную информацию.
Perplexity AI сфабриковал детали о смерти журналиста Майкла Мосли.
ChatGPT не признал смерть лидера Хамаса, описав его как действующего политика спустя несколько месяцев после его кончины.
Исследование BBC подтверждает, что AI-ассистенты не только допускают ошибки, но и могут представлять устаревшие данные как актуальные новости. BBC планирует продолжить тестирование AI-систем в будущем и следить за их развитием.

Исследование BBC: AI-ассистенты массово проваливают проверку фактов

AI-ассистенты массово проваливают проверку фактов в исследовании BBC

Как проводилось исследование?

Кто допустил наибольшее количество ошибок?