Популярный репозиторий научных препринтов ArXiv ужесточает правила публикации материалов, созданных с помощью больших языковых моделей (LLM). Платформа, которая является основным каналом распространения исследований в области компьютерных наук и математики, намерена бороться с распространением низкокачественного контента, генерируемого нейросетями без должной проверки со стороны ученых.
Новые правила и санкции за «галлюцинации» ИИ
Томас Диттерих, возглавляющий секцию компьютерных наук ArXiv, заявил о введении правила «одного удара» для авторов, проявляющих халатность. Если в тексте статьи будут обнаружены неоспоримые доказательства того, что результаты генерации LLM не проверялись, доверие к такой работе аннулируется полностью. В обзоре отмечается, что под подозрение попадают материалы, содержащие специфические признаки:
- вымышленные (галлюцинированные) ссылки на литературу;
- остатки технических комментариев от чат-бота или фрагменты диалогов с ним;
- некорректные формулировки, плагиат или ошибки, характерные для нейросетевых моделей.
Годичный запрет на публикации
В случае обнаружения подобных нарушений авторы столкнутся с серьезными последствиями. Платформа вводит запрет на публикацию любых работ нарушителей сроком на один год. После истечения этого периода исследователи смогут вернуться на ArXiv только при условии, что их новые статьи будут предварительно приняты и одобрены авторитетным рецензируемым изданием. По словам экспертов, решение о блокировке принимается модераторами и подтверждается главами профильных секций, однако у авторов остается возможность обжаловать вердикт.
Ответственность за качество контента
Администрация ресурса подчеркивает, что речь не идет о полном запрете использования ИИ при подготовке материалов. Основная претензия заключается в отсутствии контроля за итоговым текстом. Авторы обязаны нести полную персональную ответственность за содержание работы, независимо от того, какие инструменты использовались при ее написании. Платформа настаивает на недопустимости прямого копирования текста из языковых моделей, если он содержит фактические ошибки или вводит читателей в заблуждение.
Усиление контроля совпало с реорганизацией структуры: после 20 лет работы под руководством Корнельского университета ArXiv становится независимой некоммерческой организацией. Этот статус позволит привлекать дополнительные средства для борьбы с низкокачественным контентом. Проблема становится все более масштабной: недавние исследования показывают резкий рост числа сфабрикованных цитат в биомедицинских статьях, что связывают с бесконтрольным применением нейросетей в академической среде.


