这项由微软研究院亚洲分部的王思源、张高恺、张丽娜等研究团队完成的研究发表于2025年10月,论文标题为"LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts ...
来自MSN
阿里Qwen提出强化学习新算法GSPO
据通义千问Qwen,为了能够持续拓展强化学习 (Reinforcement Learning,RL),提出了Group Sequence Policy Optimization (GSPO) 算法。不同于过去的RL算法,GSPO定义了序列级别的重要性比率,并在序列层面执行裁剪、奖励和优化。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈