Новый метод RLSD: как ИИ-модели учатся мыслить эффективнее и дешевле

Новый метод RLSD: как ИИ-модели учатся мыслить эффективнее и дешевле

Разработка продвинутых моделей искусственного интеллекта, способных к сложному логическому мышлению, требует значительных ресурсов, которые зачастую недоступны большинству корпоративных команд. Инженерам нередко приходится выбирать между использованием знаний из дорогостоящих больших моделей и применением методов обучения с подкреплением, предоставляющих скудную обратную связь.

Недавно исследователи из JD.com и нескольких академических учреждений представили новую парадигму обучения, которая обходит эту дилемму. Методика, получившая название Reinforcement Learning with Verifiable Rewards with Self-Distillation (RLSD) – обучение с подкреплением с проверяемыми вознаграждениями и самодистилляцией – сочетает надежный контроль производительности обучения с подкреплением и детальную обратную связь самодистилляции.

Эксперименты показали, что модели, обученные с помощью RLSD, превосходят те, которые созданы на основе классических алгоритмов дистилляции и обучения с подкреплением. Для корпоративных команд такой подход снижает технические и финансовые барьеры при создании кастомизированных логических моделей, адаптированных под конкретные бизнес-задачи.

Проблемы обучения логических моделей

Стандартный метод обучения логических моделей известен как Reinforcement Learning with Verifiable Rewards (RLVR) – обучение с подкреплением с проверяемыми вознаграждениями. В этой парадигме модель учится методом проб и ошибок, получая руководство от конечного результата в своей среде. Автоматический верификатор проверяет правильность ответа модели, предоставляя бинарное вознаграждение, например, 0 или 1.

RLVR страдает от скудной и однородной обратной связи. По словам Ченсю Янга, соавтора исследования, стандартный алгоритм GRPO имеет проблему плотности сигнала. «Многотысячные цепочки рассуждений, состоящие из токенов (отдельных единиц текста или кода), получают одно бинарное вознаграждение, и каждый токен внутри этой цепочки получает одинаковое признание, независимо от того, является ли он ключевым логическим шагом или просто проходной фразой». В результате модель не учится, какие промежуточные шаги привели к успеху или неудаче.

On-Policy Distillation (OPD) – дистилляция по политике – использует другой подход. Вместо ожидания конечного результата разработчики связывают меньшую «модель-ученика» с более крупной и мощной «моделью-учителем». Для каждого обучающего примера ученик сравнивает свой ответ с ответом учителя токен за токеном. Это предоставляет ученику детальную обратную связь по всей цепочке рассуждений и процессу генерации ответа.

Развертывание и запуск отдельной, массивной модели-учителя параллельно с учеником на протяжении всего процесса обучения влечет за собой огромные вычислительные затраты. Как отметил Янг, необходимо поддерживать более крупную модель-учителя в резидентном режиме на протяжении всего обучения, что примерно удваивает нагрузку на графические процессоры. Кроме того, модели учителя и ученика должны использовать абсолютно одинаковую словарную структуру, что, по мнению Янга, «незаметно исключает большинство меж-архитектурных, межмодальных или многоязычных конфигураций, которые фактически используются предприятиями».

Перспективы и недостатки самодистилляции

On-Policy Self-Distillation (OPSD) – самодистилляция по политике – появилась как решение, призванное преодолеть недостатки двух других подходов. В OPSD одна и та же модель играет роль как ученика, так и учителя.

Во время обучения ученик получает стандартный запрос, в то время как учитель получает привилегированную информацию, такую как проверенный пошаговый ключ ответа. Эта хорошо информированная версия модели-учителя затем оценивает версию ученика, предоставляя по-токенную обратную связь, пока ученик пытается решить задачу, используя только стандартный запрос.

OPSD казалась идеальным компромиссом для корпоративного бюджета. Она обеспечивает детальное, пошаговое руководство, подобно OPD. Поскольку она устраняет необходимость во внешней модели-учителе, она работает с высокой вычислительной эффективностью и низкой стоимостью, как RLVR, требуя лишь один дополнительный проход для учителя.

Однако исследователи обнаружили, что OPSD страдает от явления, называемого «утечкой привилегированной информации».

По словам Янга, «целевая функция структурно некорректно сформулирована. Существует неприводимый разрыв взаимной информации, который ученик никогда не сможет преодолеть… Когда самодистилляция настроена как сопоставление распределений, ученику предлагается имитировать полное выходное распределение учителя в привилегированном контексте».

Поскольку учитель оценивает ученика на основе скрытого ключа ответа, цель обучения заставляет модель-ученика изучать точную формулировку или шаги учителя вместо базовой логики рассуждений. В результате модель-ученик начинает «галлюцинировать» ссылки на невидимое решение, к которому у неё не будет доступа при реальном внедрении.

На практике модели OPSD показывают быстрый скачок производительности в начале обучения, но их логические возможности вскоре достигают плато и постепенно ухудшаются со временем.

Разделение направления и величины с RLSD

Исследователи, стоящие за RLSD, осознали, что сигналы, управляющие обновлением параметров модели, имеют принципиально асимметричные требования. Они определили, что сигнал, диктующий направление обновления (то есть, подкреплять или наказывать поведение), может быть скудным, но должен быть абсолютно надежным, поскольку указание модели в неверном направлении наносит ущерб её логической политике.

С другой стороны, сигнал, диктующий величину обновления (то есть, сколько относительного «кредита» или «вины» заслуживает конкретный шаг), выигрывает от того, что он чрезвычайно плотный, что позволяет проводить тонкие, пошаговые корректировки.

RLSD строится на этом принципе, разделяя направление обновления и его величину. Фреймворк позволяет проверяемой обратной связи от среды (сигнал RLVR) строго определять направление обучения. Модель получает общее подкрепление только в том случае, если окончательный ответ объективно верен.

«Самоучитель» лишается права диктовать, что должна генерировать модель. Вместо этого по-токенная оценка учителя используется для определения величины обновления. Она просто распределяет общий «кредит» или «вину» по отдельным шагам логического пути модели.

Это меняет способ обучения модели по сравнению с классической парадигмой OPSD. В стандартном OPSD цель обучения действует как поведенческое клонирование, где модель вынуждена напрямую копировать точную формулировку учителя. Это приводит к «галлюцинациям» ученика и утечке ссылок на данные, которыми он не обладает.

Вместо того чтобы заставлять модель копировать скрытое решение, RLSD предоставляет естественный и практически бесплатный источник информации о «кредите» для каждого токена.

«Идея заключается в следующем: мы не учим модель рассуждать, как учитель, — пояснил Янг. — Мы говорим модели, на выбранном ею пути, какие из её собственных токенов фактически выполняли работу. Исследовательское распределение модели остается её собственным. Только распределение «кредита» становится более точным».

Если конкретный вывод убедительно подтверждает правильный результат, он получает более высокую оценку. Если это просто бесполезное «слово-заполнитель», оно получает базовую оценку. RLSD устраняет необходимость обучать сложные вспомогательные сети вознаграждений, вручную аннотировать пошаговые данные или поддерживать массивные внешние модели-учителя.

Тестирование RLSD

Для тестирования RLSD исследователи обучили открытую визуально-языковую модель Qwen3-VL-8B и оценили её на нескольких бенчмарках визуального логического мышления. Среди них были MMMU для междисциплинарных вопросов университетского уровня, MathVista, MathVision, WeMath и ZeroBench – стресс-тест, специально разработанный так, чтобы быть почти невыполнимым для современных передовых моделей.

Они сравнили модель RLSD с базовой моделью без пост-обучения, стандартным RLVR с использованием алгоритма GRPO, стандартным OPSD и гибридной комбинацией этих двух методов.

RLSD значительно превзошла все остальные методы, достигнув самой высокой средней точности в 56,18% по всем пяти бенчмаркам. Она опередила базовую модель на 4,69 процентных пункта и превзошла стандартный RLVR на 2,32 процентных пункта. Наиболее заметные улучшения были достигнуты в сложных математических задачах, где RLSD опередила стандартный RLVR на 3,91 процентных пункта на бенчмарке MathVision.

Помимо точности, фреймворк предлагает огромные преимущества в эффективности. «Конкретно, RLSD за 200 шагов обучения уже превосходит GRPO, обученную за 400 шагов, что означает примерно двукратное ускорение сходимости, — отметил Янг. — С точки зрения затрат, единственные накладные расходы помимо обычного конвейера GRPO – это один дополнительный проход для каждого ответа, чтобы получить логиты учителя. По сравнению с генерацией свертки… это практически бесплатно».

В отличие от OPSD, производительность которой сначала резко возрастала, а затем полностью обрушивалась из-за утечки информации, RLSD поддерживала долгосрочную стабильность обучения и сходилась к более высокому потолку производительности, чем стандартные методы.

Качественные выводы подчеркивают, как модель меняет свое поведение в процессе обучения. Например, в сложной задаче визуального подсчета стандартный RLVR рассматривает окончательный правильный ответ и присваивает всему абзацу токенов рассуждений одинаковое вознаграждение. RLSD же точечно применяет вознаграждения к конкретным математическим шагам вычитания, которые решили проблему, активно снижая вес общего «текста-заполнителя», такого как «Глядя на изображение, я вижу…».

В другом примере модель выполнила некорректный математический вывод на основе столбчатой диаграммы. Вместо того чтобы пометить весь ответ как ошибку, RLSD сосредоточила наибольшее штрафное воздействие на тот момент, где модель неправильно интерпретировала взаимосвязь из диаграммы. Она осталась нейтральной в отношении остальной логической структуры, признав, что первоначальная основа была верной.

Это особенно важно для сложных реальных корпоративных сценариев. Если модель делает ошибку при анализе квартального отчета на 50 страницах, разработчики не хотят, чтобы она полностью «разучилась» своей аналитической структуре. Они просто хотят, чтобы она исправила конкретное неверное допущение. RLSD позволяет модели узнавать, какие логические шаги ценны, а какие ошибочны, токен за токеном. Поскольку RLSD делает это, перепрофилируя саму модель, она предоставляет моделям детальные возможности рассуждений, сохраняя при этом разумные затраты на обучение.

Как предприятия могут начать работу

Для инженеров данных и команд по управлению ИИ интеграция RLSD относительно проста, но требует правильной настройки. Самым критическим требованием является наличие проверяемого сигнала вознаграждения, такого как компиляторы кода, программы для проверки математических расчетов, выполнения SQL-запросов или валидаторы схем. По словам Янга, «задачи без проверяемого вознаграждения (открытые диалоги, написание текстов в заданном стиле) относятся к конвейерам, основанным на предпочтениях».

Однако RLSD очень гибка в отношении требуемой привилегированной информации. В то время как OPSD структурно требует полных промежуточных цепочек рассуждений, вынуждая предприятия либо платить аннотаторам, либо дистиллировать информацию из передовой модели, RLSD этого не требует.

«Если у вас есть полные проверенные цепочки рассуждений, отлично, RLSD будет их использовать, — сказал Янг. — Если у вас есть только окончательный правильный ответ, это тоже сработает… OPSD не обладает такой гибкостью».

Интеграция метода в существующие открытые мультимодальные фреймворки обучения с подкреплением, такие как veRL или EasyR1, чрезвычайно легка. По словам Янга, это не требует переписывания фреймворка и идеально вписывается в стандартный стек. Изменение кода включает в себя всего лишь корректировку нескольких десятков строк для изменения цели GRPO и синхронизации учителя с учеником.

В перспективе RLSD предлагает мощный способ для предприятий максимально эффективно использовать свои существующие внутренние активы.

«Собственные данные, которыми предприятия располагают внутри своего периметра (руководства по соответствию, внутренняя документация, исторические заявки, проверенные фрагменты кода), по сути, являются бесплатной привилегированной информацией, — заключил Янг. — RLSD позволяет предприятиям использовать такого рода данные непосредственно в качестве привилегированного контекста, что делает сигнал обучения на меньших моделях более точным без необходимости во внешнем учителе и без передачи чего-либо за пределы сети».