2026年的这一天注定会被写入AI发展史。 Claude Opus 4.6和GPT-5.3 Codex在相隔不到一个小时的时间里先后发布。 两家公司似乎都憋着一口气,要在同一个时间节点上交出自己的答卷。
Claude Opus 4.6还在高难度Agent 搜索(DeepSearchQA / BrowseComp)上单 Agent比GPT-5.2 Pro多6个点,在多学科推理(Humanity's Last Exam / ARC AGI 2)上,同样是工具配置拉满的状态下,比GPT5.2Pro多了3个点。
OSWorld-Verified于2025年7月28日发布,是一次全面重构,修复了原版中300+已识别问题,包括失效 URL、反爬 CAPTCHA、不稳定 HTML 结构、含糊指令,以及过严/过松的评测脚本。
2026年的这一天注定会被写入AI发展史。 Claude Opus 4.6和GPT-5.3 Codex在相隔不到一个小时的时间里先后发布。 两家公司似乎都憋着一口气,要在同一个时间节点上交出自己的答卷。