腾讯AI Lab与香港中文大学(深圳)合作开展了一项新研究,提出了这样一种名为 无监督前缀微调 (UPFT)的方法。 团队研究发现,关键的正确推理信号,全都藏在模型的“前几步”里,将这种现象称为“推理前序自一致性”。
图片来源:unsplash+我偷偷用AI写的文案,怎么就被别人发现了?当AI生成内容席卷互联网,如何避免被AI伪造的假信息蒙蔽?3月21日晚20:00,锁定《环球科学》直播间,和编辑畅聊AI内容识别技巧,还有“空间碎片防御术”“照亮抑郁迷宫的迷走神经 ...
近日,阶跃星辰研究团队通过大规模实证探索,耗费了近 100 万 NVIDIA H800 GPU 小时(约百万美元),从头训练了 3,700 个不同规模,共计训了 100 万亿个 token,揭示了 LLM ...
1. 开源微调神器Unsloth优化了DeepSeek-R1同款GRPO训练算法,上下文变长10倍,显存需求减少90%。 3.
据彭博新能源财经预测,到2030年AI驱动研发将使固态电池商业化进程提前3-5年,而中国有望占据全球60%的市场份额。这不仅是技术竞争的胜利,更意味着在零碳时代的全球能源版图中,中国正从规则追随者转变为标准制定者。当AI遇见固态电池,我们看到的不仅是 ...
7 天
知乎专栏 on MSN阶跃&清华新论文:DeepSeek-R1的GRPO 可以更简洁机器之心报道,编辑:Panda。 DeepSeek-R1 非常热门,而在其公布的训练配方中,GRPO(Group Relative Policy Optimization)非常关键,是 DeepSeek-R1 核心的强化学习算法。 PPO 与 ...
这款软件可被用作宏,能将坐标设置为功能,还可轻松设置按键和功能,对游戏玩家有帮助。
红板报 on MSN7 天
DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练 ...魔搭社区 投稿量子位 | 公众号 QbitAI GRPO训练又有新的工具链可以用,这次来自于ModelScope魔搭社区。
继去年政府工作报告首次写入“人工智能+”后,今年政府工作报告再次提出,持续推进“人工智能+”行动,人工智能又成为两会热词。其中全国人大代表、科大讯飞董事长刘庆峰提出的“加快构建国产算力平台上的自主可控大模型及产业生态”建议,值得注意。
科大讯飞此前已对外发布了基于全国产算力训练的推理模型星火 X1,昨日又宣布完成了星火 X1 的全新升级。升级后的星火 X1,仅用 70B 参数规模,就在数学能力上实现了与 DeepSeek R1(参数量 671B)和 OpenAI o1 的全面对标,中文数学任务更是全面领先。相较于 DeepSeek R1,X1 不仅答题速度更快,而且解题过程和步骤也更为清晰。作为国内率先落地应用的推理模型,此次 ...
机器之心授权发布作者:王子涵我们都知道,DeepSeek-R1 的训练过程使用了一种名为专家混合模型(Mixture-of-Experts, MoE)的技术,而当前的 MoE ...
IT之家 3 月 3 日消息,科大讯飞今日宣布星火 X1 升级,并发布星火一体机等系列新品。 其中,深度推理大模型星火 X1 再升级,数学能力全面对标 DeepSeek R1 和 OpenAI o1。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果