AI-ассистенты массово проваливают проверку фактов в исследовании BBC
BBC провела масштабное исследование, протестировав работу ведущих AI-ассистентов, включая ChatGPT, Microsoft Copilot, Google Gemini и Perplexity, на точность представления новостного контента. В ходе анализа выяснилось, что 51% ответов содержат значительные ошибки, варьирующиеся от устаревшей информации до полностью сфабрикованных данных.
Как проводилось исследование?
В декабре 2024 года 45 журналистов BBC протестировали AI-ассистентов на 100 актуальных новостных вопросов. Анализировались семь параметров:
точность,
корректность приписывания источников,
беспристрастность,
разделение фактов и мнений,
наличие комментариев,
контекст,
корректность использования контента BBC.
Каждый ответ оценивался по шкале от «нет проблем» до «значительные проблемы». В результате выяснилось, что 19% ответов, ссылающихся на BBC, содержали ошибки, а 13% включали сфабрикованные или некорректно приписанные цитаты.
Кто допустил наибольшее количество ошибок?
Google Gemini продемонстрировал самые низкие результаты, показав наибольшее число проблемных ответов — более 60%.
Microsoft Copilot представил устаревшую новость о независимости Шотландии как актуальную информацию.
Perplexity AI сфабриковал детали о смерти журналиста Майкла Мосли.
ChatGPT не признал смерть лидера Хамаса, описав его как действующего политика спустя несколько месяцев после его кончины.
Исследование BBC подтверждает, что AI-ассистенты не только допускают ошибки, но и могут представлять устаревшие данные как актуальные новости. BBC планирует продолжить тестирование AI-систем в будущем и следить за их развитием.