Reinforcement Learning

微软研究院重磅突破：让AI在长篇文本中像侦探一样推理思考

这项由微软研究院亚洲分部的王思源、张高恺、张丽娜等研究团队完成的研究发表于2025年10月，论文标题为"LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts ...

来自MSN

据通义千问Qwen，为了能够持续拓展强化学习（Reinforcement Learning，RL），提出了Group Sequence Policy Optimization (GSPO) 算法。不同于过去的RL算法，GSPO定义了序列级别的重要性比率，并在序列层面执行裁剪、奖励和优化。

一些您可能无法访问的结果已被隐去。