资讯
本文的第一作者为华为诺亚研究员李向阳,毕业于北京大学,开源组织 BigCode 项目组成员。此前他们团队曾经推出 CoIR 代码检索基准,目前已经成为代码检索领域的标杆 benchmark。其余主要成员也大部分来自 CoIR 项目组。
测试时扩展规律(Test-time Scaling Laws)未被充分探索 : 模型在推理时花费更多计算资源能否持续提升性能? 这个问题在复杂编程任务上尚无定论。
作者表示,Test-time Scaling 不仅是大模型推理的「第二引擎」,更是迈向 AGI 的关键拼图。 教会模型「三思而后行」,是我们迈向通用人工智能的重要 ...
要事解读① 用 Test Time 换 Training Time 能让 LLM 更强吗?. 引言:LLM 在近几年的突破离不开 Scaling Law 的影响。然而,近期有许多声音指出 Scaling up 大 ...
近期,OPPO AI团队在arXiv上发布了一项突破性研究,题为《Scaling Test-time Compute for LLM Agents》,该论文于2025年6月17日公开,探讨了如何通过 测试时计算扩展 ...
重新思考Test-Time Scaling. 为探究这些问题,团队在MATH-500和AIME24数学推理数据集上,使用多个不同规模的策略模型和PRM,进行了全面的实验评估。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果