NBIM(挪威央行投资管理局):「在 40 项网络安全调查中,Claude Opus 4.6 盲评排名第一拿了 38 次,每个模型跑同一套 Agent 框架,最多用 9 个子 Agent 和 100+ 次工具调用。」 ...
在 GDPval-AA(一项针对金融、法律等高经济价值任务的评估)中,Opus 4.6 的 Elo 得分比业界第二(OpenAI 的 GPT-5.2)高出了整整 144 分,比前代更是高出 190 分。 一方面,Anthropic 这回直接把 ...
周二在旧金山举行的思科(CSCO)AI峰会上,英伟达(NVDA)CEO黄仁勋表示:“有一种观点认为工具行业正在衰退,并将被AI取代…… 这是世界上最不合逻辑的事情,时间会证明一切 。” ...
该公司称,这款名为Claude Opus 4.6的版本能够检视企业数据、监管备案文件和市场信息,并生成详细的金融分析报告,通常这类工作通常需要人工耗时数天才能完成。此外,Opus 4.6还将提升一系列其他办公功能,包括制作电子表格和演示文稿,以及软件开发。
OSWorld-Verified于2025年7月28日发布,是一次全面重构,修复了原版中300+已识别问题,包括失效 URL、反爬 CAPTCHA、不稳定 HTML 结构、含糊指令,以及过严/过松的评测脚本。
Anthropic刚发了Claude Opus 4.6,OpenAI也发了GPT‑5.3-Codex,在Codex app里已经能用了。我这稿子写一半直接重新写啊。马上来看看这两模型的评分,它们强化了那些点,以及除了模型本身,还带来了什么更新。
为了展示 Opus 4.6 的极限,Anthropic 的研究员 Nicholas Carlini 搞了个疯狂的实验:充值了 2 万美元的 API 额度,让 16 个 Claude Opus 4.6 组成一个「全自动软件开发团队」。
【本文由小黑盒作者@飞碟AI于02月06日发布,转载请标明出处!】 凌晨,Anthropic 丢出重磅更新,跟本公众号昨天发布的爆料不一样,本以为是发布的Claude 5.0,但是这次版本号是4.6,还没来得及欢呼,紧接着OpenAI ...
在知识工作能力的评测GDPval-AA 上,Opus 4.6比OpenAI的GPT-5.2高出约144Elo分,比自己的前代Opus 4.5高出190分。这个测试涵盖了金融、法律等领域的实际工作任务,比如制作财务分析报告、起草法律文件、做市场调研等。