Иллюзия точности: почему искусственный интеллект пока не способен заменить фактчекеров

Почти половина интернет-пользователей обращается к искусственному интеллекту для поиска информации и генерации идей. На фоне деградации социальных сетей и снижения качества поисковой выдачи чат-боты кажутся быстрой и удобной альтернативой. Однако, как показывают исследования и практика работы ведущих технологических изданий, доверие к алгоритмам в вопросах установления истины может быть преждевременным.

Статистика ошибок: насколько часто ошибается ИИ

Несмотря на заверения разработчиков, нейросети продолжают искажать факты с пугающей регулярностью. Анализ точности работы поисковых систем на базе искусственного интеллекта показывает неутешительные результаты.

По данным исследования Центра цифровой журналистики Тоу (Tow Center for Digital Journalism), опубликованного в марте 2025 года, более 60% ответов поисковиков на базе ИИ содержали фактические неточности. Исследование корпорации BBC оценивает долю недостоверных ответов чат-ботов примерно в 45%. Таким образом, практически в половине случаев искусственный интеллект предоставляет некорректные данные.

Различные независимые тесты производительности также демонстрируют жесткие ограничения современных языковых моделей:

В тесте RealFactBench, оценивающем навыки верификации данных, лидирующая модель Claude показала точность на уровне 73% по всем метрикам.
В тесте SimpleQA от компании OpenAI, содержащем более 4000 сложных вопросов с однозначными ответами, ни одна из тестируемых моделей не смогла преодолеть порог в 50% точности.
В обновленной версии теста SimpleQA от Google модель Gemini 2.5 Pro показала лучший результат, но он составил всего 55,6% правильных ответов.

Даже при прямом запросе о собственной надежности ИИ склонен ошибаться. Например, ChatGPT в ответ на вопрос о точности языковых моделей привел нерелевантные данные из медицинского экзамена, а при попытке сослаться на статистику «галлюцинаций» в 1–2% предоставил ссылку на несуществующий источник.

Эксперимент с тестами для профессиональных фактчекеров

В рамках эксперимента стандартный тест, который обычно дают кандидатам на должность фактчекера в крупных изданиях, был предложен популярным чат-ботам: ChatGPT, Claude, Gemini и Grok. Результаты оказались весьма показательны.

Модель Grok заявила о полном понимании сути фактчекинга, однако сделала упор на сборе избыточных объемов данных, которые физически невозможно обработать в условиях реального новостного цикла. Claude и Gemini проявили себя более профессионально, предложив логичный алгоритм действий и указав на потенциальные юридические риски.

ChatGPT продемонстрировал чрезмерную уверенность и начал использовать профессиональные термины, однако в процессе работы сгенерировал несуществующий абзац текста, выдав его за часть проверяемого материала. В итоге ни одна из моделей так и не выполнила саму проверку фактов. Чат-боты детально расписали план действий, но остановились в шаге от его практического воплощения.

Почему человек остается незаменимым в верификации информации

Классический метод проверки в профессиональных медиа включает в себя детальный построчный анализ публикаций, работу с первичными источниками, юридическую и этическую экспертизу. На данном этапе технологии ИИ способны автоматизировать лишь последующий анализ (постфактум) — например, выявление потенциально ложных утверждений в огромных массивах данных социальных сетей или транскриптов подкастов для их дальнейшей проверки людьми. Подобные системы сейчас используются более чем в 40 странах.

Руководитель Международной сети фактчекинга (IFCN) Энджи Холан отмечает, что журналистам, архивистам и библиотекарям необходимо активно изучать инструменты ИИ, чтобы понимать их сильные и слабые стороны. Если модель помогает выйти на авторитетный первоисточник, который специалист может верифицировать самостоятельно, технология приносит пользу. Однако полностью перекладывать ответственность на алгоритмы нельзя.

Ключевые аспекты верификации остаются недоступны машинам. ИИ не способен провести сложный телефонный разговор с первоисточником, проявить эмпатию к собеседнику, распознать скрытый конфликт интересов между спикерами или уловить пассивную агрессию в электронной переписке. Кроме того, огромная часть накопленных человечеством знаний до сих пор не оцифрована и отсутствует в сети, что делает ее абсолютно недосягаемой для алгоритмов машинного обучения.