上海 AI 实验室联合清华等大学突破强化学习算法，攻克 AI 推理熵崩溃难题

IT之家故渊

上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等学府，组建国际团队研发新方法，通过 Clip-Cov 和 KL-Cov 技术有效应对策略熵崩溃问题。

背景简介

大型语言模型（LLMs）近年来在推理能力上的突破，让强化学习（RL）的应用范围从单一任务扩展到更广泛的场景，这种进步赋予了模型更强的泛化能力和逻辑推理能力。

然而，与传统的模仿学习不同，强化学习需要更高的计算资源来支持从经验中学习，核心问题在于策略熵（反映了模型在利用已知策略和探索新策略之间的平衡）的下降。

熵值过低会导致模型过度依赖已有策略，丧失探索能力。这一探索-利用权衡（exploitation-exploration trade-off）是强化学习的基础，如何控制策略熵成为训练中的关键难题。

策略熵崩溃的理论与实践突破

为解决这一问题，研究团队提出了一个经验公式：R = a exp H + b，其中 H 代表策略熵，R 为下游任务表现，a 和 b 为拟合系数。这一公式揭示了策略性能与熵值之间的权衡关系，指出熵耗尽是性能瓶颈。

研究进一步分析了熵动态变化，发现其受动作概率与 logits 变化协方差的驱动。为此，团队创新性地提出了 Clip-Cov 和 KL-Cov 两种技术，分别通过裁剪高协方差 token 和施加 KL 惩罚来维持熵水平。

实验基于 Qwen2.5 模型和 DAPOMATH 数据集，覆盖数学任务，结果显示新方法在 7B 和 32B 模型上分别提升了 2.0% 和 6.4% 的性能，尤其在 AIME24 和 AIME25 等高难度基准测试中，32B 模型性能提升高达 15.0%。

研究团队在包括 Qwen2.5、Mistral、LLaMA 和 DeepSeek 在内的 11 个开源模型上进行了测试，参数规模从 0.5B 到 32B 不等，涵盖数学和编程任务的 8 个公开基准测试。

训练采用 veRL 框架和零样本设置，结合 GRPO、REINFORCE++ 等算法优化策略性能。结果表明，Clip-Cov 和 KL-Cov 技术能维持更高的熵水平，例如 KL-Cov 方法在基线熵值趋于平稳时仍保持 10 倍以上的熵值。

这不仅解决了策略熵崩溃问题，也为强化学习在语言模型中的扩展提供了理论支持。研究强调，熵动态是性能提升的关键瓶颈，未来需进一步探索熵管理策略，以推动更智能语言模型的发展。

免责声明：本文仅代表作者个人观点，与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

给作者点赞

0 VS 0

写得不太好