OSWorld-Verified于2025年7月28日发布,是一次全面重构,修复了原版中300+已识别问题,包括失效 URL、反爬 CAPTCHA、不稳定 HTML 结构、含糊指令,以及过严/过松的评测脚本。
2026年2月5日,AI行业发生了一件载入史册的事。OpenAI和Anthropic在相隔不到20分钟的时间内,分别发布了GPT-5.3-Codex和Claude Opus 4.6——两个代表完全不同进化方向的顶级模型。一个学会了"自我繁殖": ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果