北航、人大和九坤投资共同撰写的论文 《Scaling Laws for Code: Every Programming Language Matters》 整理而成。 在代码大模型(Code LLMs)的预训练中,行业内长期存在一种惯性思维,即把所有编程语言的代码都视为同质化的文本数据,主要关注数据总量的堆叠。然而,现代软件开发本质上是多语言混合的,不同语言的语法特性、语料规模和应用场景差异巨大。
科技行者 on MSN
北航首次揭秘多语言编程奥秘:为什么Python比Rust更"饿"数据?
这项由北京航空航天大学的杨健、国鑫、林静等研究者联合优矿公司和中国人民大学人工智能学院团队完成的突破性研究,发表于2025年12月的arXiv预印本(论文编号:2512.13472v1),是全球首次系统性探索多语言编程训练规律的重要成果。
如果超过5W个/s,低于50W个/s,推荐修改:SeqBitLength=10 如果超过50W个/s,接近500W个/s,推荐修改:SeqBitLength=12 总之,增加 ...
scons ( 2.3.0 ) ant ( 1.8.2 ) Python ( 2.7.3 ) PostgreSQL ( 9.3.4 ) Linux x86-64: g++ ( 4.3.4 ) gcc ( 4.3.4 ) make ( 3.81 ) kernel ( 3.0.13-0.27-default ) Linux PPC64: g++ ( 4.3.4 ) gcc ( 4.3.4 ) make ...
尽管许多人认为 PHP 是一种古老且不合格的语言,但在如今的 2024 年,它依然是所有网站中使用最多的语言。PHP 的糟糕名声通常与 WordPress(被认为是 21 世纪最糟糕的软件之一)有关。如果不提 WordPress,让我们快速了解一下 ...
12 月 23 日,MiniMax 发布 M2.1,并即将开源这次升级的核心,是多语言编程能力。较之上代模型,在 Rust、Java、Golang、C++、TypeScript 这些语言上,表现都有很大提升我在 Claude Code 里把模型换成了 M2.1,给它一个任务用 Python + Manim ...
如今,张宏波也在用一门重新编撰的语言,用全新的方式,向AI表达“你好”,这门语言叫做——Moonbit。他现在是粤港澳大湾区数字经济研究院(后简称:IDEA)基础软件中心首席科学家。
编辑|Panda这两天,中国 AI 行业关注的核心无疑是 MiniMax。12 月 21 日,MiniMax(稀宇科技)正式向港交所递交招股书,披露的一连串数字瞬间引爆了舆论场:账上坐拥超 10 亿美元的现金储备,2025 年前九个月营收同比激增 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈