“MoE+Long-CoT(长思维链)+RL(强化学习)” 这条技术路线存在难以兼顾训练稳定性和效果的难题。9 月 19 日,蚂蚁百灵大模型团队把 “难啃的骨头” 直接做成开源礼包 ——Ring-flash-2.0。100B 总参、6.1B 激活,数学 AIME25 拿下 86.98 分,CodeForces elo 分数 90.23,128K ...