智东西1月27日报道,昨晚,阿里巴巴推出了 Qwen3-Max-Thinking ,这是阿里千问系列目前能力最强的旗舰级推理模型,在19项权威基准测试中,Qwen3-Max-Thinking跟 GPT-5.2-Thinking、Claude-Opus ...
【导读】 13.8和13.11哪个大?这个问题不光难倒了部分人类,还让一票大模型折戟。AI如今都能做AI奥数题了,但简单的常识问题对它们依然难如登天。其实,无论是比大小,还是卷心菜难题,都揭示了LLM在token预测上的一个重大缺陷。
阿里巴巴近日正式推出其千问系列最新旗舰推理模型——Qwen3-Max-Thinking,标志着国产大模型在高效推理领域迈出重要一步。该模型在19项权威基准测试中展现强劲实力,与GPT-5.2-Thinking、Claude-Opus-4.5等国际顶尖 ...
OpenAI工程师Michael Bolin于上周五发布了一篇详细的技术分析文章,深入剖析了该公司Codex CLI编程助手的工作原理,旨在为开发者提供关于人工智能(AI)编程工具的更深层次理解。这些工具能够在人工监督下编写代码、运行测试并修复错误。这篇文章是对我们12月份关于AI代理如何工作的文章的补充,详细阐述了OpenAI如何实现其“代理循环”。
分析师/奕君校对/Tina策划/Eason“skill”可以说是最近AI圈内最火的概念。要是说前两年人们还在分享各种prompt技巧,现在则是不停种草好用的skill。在prompt时代,用户花费了大量的时间在重复某些要求和描述上。比如不停复制粘贴同 ...
这项由上海交通大学LLMSE实验室、中山大学和抖音集团联合开展的研究发表于2026年1月,论文编号为arXiv:2601.16746v1。随着AI编程助手越来越普及,一个让程序员头疼的问题正日益凸显:这些AI助手在处理复杂编程任务时就像健忘的学徒,需 ...
随着数字经济的渗透,企业对“数据驱动决策”的需求爆发式增长。2024 年 IDC《中国商业智能(BI)市场跟踪报告》显示,中国 BI 市场规模已达 89.6 亿元,同比增长 15.3%,连续 5 年保持两位数增速。但企业在 BI 落地中仍面临三大痛点: • 数据孤岛严重:68% 的企业表示跨系统(ERP、CRM、Excel)数据整合困难,无法形成全链路分析; • 业务 - IT 脱节:72% 的业 ...
《六面体》是一款开放式编程益智游戏,玩家需要根据要求设计和规划工厂生产所需的立方体。游戏提供了丰富的编程功能和工具,玩家可以使用Python、C++等语言进行编程,并通过调试和优化来实现最佳效果。游戏还提供了多种场景和任务,让玩家不断挑战自己的能力。同时,游戏还支持多人合作模式,让玩家可以与好友一起合作完成任务。《六面体》是一款适合初学者和进阶者的编程教育软件,通过游戏化学习方式,让编程变得有趣而 ...
2026年1月23日,北京——摩尔线程与北京市十一学校共同宣布,双方战略合作的“AI教育实训基地”已正式启用。作为首个落地北京的AI实训示范项目,该基地部署了摩尔线程MTTAIBOOK及云端算力,为学校多元化的人工智能课 ...
这就好比我们突然发现,原本只会纸上谈兵的军师,一旦给了他一套完整的作战工具,立刻就能指挥千军万马。研究结果显示,不同的AI模型在获得沙盒环境后,性能提升幅度从1%到24%不等,这在AI领域算是相当可观的进步。
编辑:KingHZ 【新智元导读】xAI联创撰长文故事:深陷电子邮件泥潭的软件工程师Ivan,借助Claude构建完美系统,却不知不觉越过界线。全球基础设施的「有机蔓延」如病毒般不可逆,警示AI效率追求的黑暗面。 xAI联合创始人Igor ...