小模型能否超越大模型? 重新思考Test-Time Scaling 为探究这些问题,团队在MATH-500和AIME24数学推理数据集上,使用多个不同规模的策略模型和PRM ...