Anthropic признала непреднамеренное ухудшение работы ИИ Claude из-за сбоев

Anthropic признала непреднамеренное ухудшение работы ИИ Claude из-за сбоев

Пользователи искусственного интеллекта Claude, заметившие снижение качества его ответов в течение последнего месяца, не ошибались. Внутреннее расследование компании Anthropic выявило три изменения, внесённые в марте и апреле, которые негативно сказались на работе сервисов Claude Code, Claude Agent SDK и Claude Cowork. При этом API Claude, по заявлению представителей компании, осталось без изменений. Проблемы с доступностью сервиса лишь усугубили ситуацию.

Anthropic настаивает, что ухудшение работы моделей не было преднамеренным. Вместо этого, несколько корректировок сработали некорректно, что привело к восприятию снижения компетентности ИИ.

Ошибка №1: Снижение уровня рассуждений

Первая проблема возникла 4 марта, когда Anthropic скорректировала уровень детализации рассуждений по умолчанию в Claude Code с «высокого» до «среднего». Этот параметр контролирует объём усилий, которые модель прикладывает к выполнению конкретной задачи. Компания надеялась, что это изменение сократит задержки, возникающие из-за более длительного процесса обдумывания.

«Это был неверный компромисс», — признали в Anthropic. — «Мы отменили это изменение 7 апреля после того, как пользователи сообщили, что они предпочитают более высокий уровень интеллекта по умолчанию и готовы выбирать меньшие усилия для простых задач».

Предполагалось, что снижение уровня усилий по умолчанию для Opus 4.6 и Sonnet 4.6 также уменьшит нагрузку на вывод. Модели должны были «думать» меньше и потреблять меньше токенов, более рационально используя ограниченные мощности. Текущая сборка Claude Code, v2.1.118, для Sonnet 4.6 по умолчанию использует уровень «очень высокий».

Ошибка №2: Проблема с кэшированием

Второй промах Anthropic произошёл 26 марта, когда изменение в оптимизации кэша привело к очистке кэшированных данных сессии после каждого цикла запроса и ответа. Обычно Claude кэширует входные токены на один час, что ускоряет и удешевляет последовательные вызовы API.

Инженеры компании изначально планировали очищать выходные токены (сессии обдумывания) для пользователей, которые бездействовали в течение часа, поскольку после этого времени кэш перестаёт быть актуальным. Мотивом Anthropic было снижение затрат на возобновление сессии путём удаления старых, неактуальных следов обдумывания.

Однако вместо этого разработчики допустили ошибку, которая приводила к очистке сессий обдумывания при каждом новом запросе. В результате Claude стал «забывчивым и повторяющимся». Эта проблема была исправлена 10 апреля для моделей Sonnet 4.6 и Opus 4.6.

Ошибка №3: Изменение системного промта

Третья корректировка была внесена 16 апреля, когда Anthropic пересмотрела свой системный промт (начальную инструкцию для ИИ) в попытке сделать модели Claude менее многословными. Добавленный фрагмент выглядел безобидно:

«Ограничения по длине: текст между вызовами инструментов должен быть не более 25 слов. Окончательные ответы должны быть не более 100 слов, если задача не требует большей детализации».

После нескольких недель внутреннего тестирования оценки качества моделей показали, что изменение безопасно. Однако после выпуска обновлённого системного промта в сочетании с релизом Opus 4.7 последующие абляционные тесты (методика, при которой инструкции удаляются для оценки их влияния) выявили снижение производительности на 3 процента как для Opus 4.6, так и для 4.7. Соответствующая корректировка системного промта была отменена 20 апреля.

Планы на будущее и компенсации

Anthropic пообещала проводить больше внутренних тестов для будущих публичных версий Claude Code, улучшить инструмент Code Review, более тщательно оценивать изменения системных промтов и запустить новый аккаунт @ClaudeDevs в социальной сети X. Цель нового аккаунта — подробно объяснять продуктовые решения и их обоснования.

Это заявление прозвучало всего через день после того, как руководитель отдела развития Амол Авасаре сообщил в X, что компания стремится к более прямому общению, чтобы пользователи не узнавали о проблемах из социальных сетей, таких как X и Reddit. Для компенсации неудобств Anthropic сбросила уровни использования аккаунтов для всех пользователей.

«Такого опыта использования пользователи не должны ожидать от Claude Code», — заявили в компании.