Code 64 - 搜索 News

10 小时

Claude Opus 4.6 发布，跑分霸榜，价格不变

NBIM（挪威央行投资管理局）：「在 40 项网络安全调查中，Claude Opus 4.6 盲评排名第一拿了 38 次，每个模型跑同一套 Agent 框架，最多用 9 个子 Agent 和 100+ 次工具调用。」 ...

7 小时

在 GDPval-AA（一项针对金融、法律等高经济价值任务的评估）中，Opus 4.6 的 Elo 得分比业界第二（OpenAI 的 GPT-5.2）高出了整整 144 分，比前代更是高出 190 分。一方面，Anthropic 这回直接把 ...

50 分钟

周二在旧金山举行的思科（CSCO）AI峰会上，英伟达（NVDA）CEO黄仁勋表示：“有一种观点认为工具行业正在衰退，并将被AI取代…… 这是世界上最不合逻辑的事情，时间会证明一切。” ...

23 分钟

该公司称，这款名为Claude Opus 4.6的版本能够检视企业数据、监管备案文件和市场信息，并生成详细的金融分析报告，通常这类工作通常需要人工耗时数天才能完成。此外，Opus 4.6还将提升一系列其他办公功能，包括制作电子表格和演示文稿，以及软件开发。

OSWorld-Verified于2025年7月28日发布，是一次全面重构，修复了原版中300+已识别问题，包括失效 URL、反爬 CAPTCHA、不稳定 HTML 结构、含糊指令，以及过严/过松的评测脚本。

Anthropic刚发了Claude Opus 4.6，OpenAI也发了GPT‑5.3-Codex，在Codex app里已经能用了。我这稿子写一半直接重新写啊。马上来看看这两模型的评分，它们强化了那些点，以及除了模型本身，还带来了什么更新。

4 小时

为了展示 Opus 4.6 的极限，Anthropic 的研究员 Nicholas Carlini 搞了个疯狂的实验：充值了 2 万美元的 API 额度，让 16 个 Claude Opus 4.6 组成一个「全自动软件开发团队」。

小黑盒生活 on MSN

【本文由小黑盒作者@飞碟AI于02月06日发布，转载请标明出处！】凌晨，Anthropic 丢出重磅更新，跟本公众号昨天发布的爆料不一样，本以为是发布的Claude 5.0，但是这次版本号是4.6，还没来得及欢呼，紧接着OpenAI ...

3 小时

在知识工作能力的评测GDPval-AA 上，Opus 4.6比OpenAI的GPT-5.2高出约144Elo分，比自己的前代Opus 4.5高出190分。这个测试涵盖了金融、法律等领域的实际工作任务，比如制作财务分析报告、起草法律文件、做市场调研等。

一些您可能无法访问的结果已被隐去。