资讯
来自MSN14 小时
让大型AI模型减肥变身,马普所等机构打造"瘦身"版训练新方法这项由德国马普所智能系统研究所的邱泽驹、刘维阳等研究者领导的研究发表于2025年6月的arXiv预印本平台,论文编号为arXiv ...
来自MSN19 小时
华为首个开源大模型来了!Pro MoE 720亿参数,4000颗昇腾训练代码生成方面, 在MBPP+(Pass@1)的指标达到80.2,与Qwen3-32B(82.0)处于同一性能区间。数学推理任务中,MATH-500测试以96.8分超越Qwen3-32B(96.6),CNMO2024基准Pass@1指标70.8亦较后者(70.4)提升0.4分。特别在 SuperGPQA复杂问题解答基准中,54.8 的Pass@1 得分显著优于 GLM-Z1 ...
当大模型面对数学题反复“纠结”时,这种反思行为究竟是有效探索还是无效模式?针对这一核心问题,美国西北大学与谷歌、谷歌 DeepMind 团队在最新合作研究中给出了系统性解答。他们提出了贝叶斯自适应强化学习(BARL,Bayes-Adaptive ...
最新报道称,R2很可能不会在短期内发布,原因在于梁文锋对R2现在的性能还不满意,工程师团队仍在全力优化和打磨,部分原因受到算力影响。这意味着R2仍在谋求远超前代的性能,届时“四小虎”如果停滞不前,压力无疑会更大。
According to the US media, Hong Letong, a Stanford math PhD graduate born in the 00s, has recently founded an AI startup ...
7 天on MSN
网易有道近期宣布了一项重大举措,正式将“子曰3”系列大模型中的数学模型(英文名Confucius3-Math)向公众开源。这款模型是国内首个专注于数学教育领域的开源推理模型,其独特之处在于能够在单块消费级GPU上高效运行,无需高昂的硬件投入。
如上图所示,在 GSM8K、MATH、HumanEval 等六大主流基准测试上,MaAS 全面超越了现有的 14 个基线方法,性能提升了 0.54% ~ 11.82%。 平均得分高达 83.59%,展示了其卓越的通用性和高效性。
点击上方蓝字,关注「Python图书馆」你是否也有过这样的经历?花了一个周末写出一个完美的数据分析脚本,算法逻辑清晰,代码优雅易读,结果一跑起来...去泡杯茶回来还在那儿转圈圈。特别是处理大型数据集或者复杂科学计算时,Python的执行速度简直让人抓 ...
然而,为了保护核心知识产权(如防止模型蒸馏或 Agent 工作流泄露)、提供更流畅的用户体验,服务提供商通常会将这些中间步骤隐藏,仅向用户呈现最终的输出结果。这在当前的商业和技术环境下,是一种保护创新、简化交互的常见做法。 近期,CASE Lab ...
红板报 on MSN14 天
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 ...MathFusion团队 投稿量子位 | 公众号 QbitAI 当前数学领域的数据生成方法常常局限于对单个问题进行改写或变换,好比是让学生反复做同一道题的变种,却忽略了数学题目之间内在的关联性。
Thinkless 框架的提出,正是为了打破这一困局。它可以赋予 LLM 一种“情境感知”的能力,使其能够像经验丰富的工匠一样,根据手头任务的复杂度和自身技艺的精湛程度,灵活地选择最合适的工具。
我们通常所说的“维生素B”其实是一个总称,维生素B这一“家族”人丁兴旺,有众多兄弟姐妹,都是人体必不可少的营养素。为什么维生素B有如此多种?B族维生素有哪些功能?如何通过饮食补充?
一些您可能无法访问的结果已被隐去。
显示无法访问的结果