还记得当年GPT-3 吗? OpenAI笃信不管三七二十一,就是要把计算量堆上去试试,所以才有GPT-3,才有后续的一系列进展。如果当初OpenAI看到随着计算量增加模型的表现没有快速增长,就停止了缩放试验,现在也不用在这讨论这个问题了。
在元强化学习中,对于每个测试 MDP M_x,策略 A_θ 在通过 A_θ 生成最终响应进行评估之前,可以通过消耗测试时计算来获取信息。在元强化学习术语中,获得的关于测试 MDP M_x 的信息可以被视为在测试问题 x 引发的 MDP ...
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou ...
每经记者:宋欣悦 每经编辑:兰素英2月6日,据外媒报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的费用,使用了16张英伟达H100 ...
2月6日,据外媒报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的费用,使用了16张英伟达H100 GPU,耗时26分钟就完成了训练,成功“打造”出了一个名为s1-32B的人工智能推理模型。
据TechCrunch,这个训练过程消耗了不到50美元的云计算成本,约合人民币364.61元;而s1模型作者之一表示, 训练s1所需的计算资源,在当下约花20美元 (约145.844元) 就能租到 。
2025 年 2 月,斯坦福大学和华盛顿大学的研究人员宣布,他们成功训练出了一个名为 s1 的人工智能推理模型。据报道,该模型的训练成本极低,仅需不到 50 美元的云计算费用,且仅用了 16 个英伟达 H100 GPU 进行了 26 ...
作者|Yoky邮箱|yokyliu@pingwest.com DeepSeek、李飞飞、LIMO,全球的AI界近期几乎都被这几个名词环绕,而这一切的背后,都要从一个“大隐隐于市”的高手谈起。
近期,国产AI大模型DeepSeek横空出世,仅以几十分之一的成本,就达到与全球领先的ChatGPT最新o1版本推理模型相当的实力。目前,DeepSeek下载量持续攀升,据研究公司SimilarWeb估计,在短短一周内,DeepSeek网站的用户数量就超过了谷歌的Gemini聊天AI,而后者已经存在了近两年。一时间,各界众说纷纭:DeepSeek为什么这么牛?何以如此?是创新还是蒸馏?……诸如此类 ...
媒体/自媒体的宣传出现了「一丢丢偏差」,我先结合论文简要说几点最关键的看法帮大家省流,然后还原一下这篇 AI 论文是如何在信息传递的过程中逐渐「被标题党」的。大家可以按需阅读。 下面的讨论主要基于最广为流传且被很多官媒转发的信息: ...