为了让外界更直观地理解这一成果的尺度,有网友在社交平台上给出了一个对照:GCC 的开发从 1987 年开始,历经 37 年,投入过数以千计的工程师。而这一次,是一名研究者加上 16 个 AI 智能体,在短短数周内完成了一个能够通过大量 GCC 测试集 ...
NBIM(挪威央行投资管理局):「在 40 项网络安全调查中,Claude Opus 4.6 盲评排名第一拿了 38 次,每个模型跑同一套 Agent 框架,最多用 9 个子 Agent 和 100+ 次工具调用。」 ...
智通财经APP获悉,华源证券发布研报称,据The ...
智东西(公众号:zhidxcom)作者|王涵编辑|心缘智东西2月6日报道,今天凌晨,Anthropic正式发布旗舰模型Claude Opus 4.6,是Anthropic首款开启100万token上下文窗口测试功能的旗舰级模型。Opus ...
除了提升 Claude 在非技术类工作中的表现,本次更新也为软件工程师带来了多项优化。Anthropic称,新模型可将编码任务分配给多个智能体团队协作完成,而非由单个智能体逐一处理,这一模式复刻了人类工程师团队的工作方式。
当然,比起选择哪款模型,更重要的是,当 ChatGPT 可以自主修 Bug 甚至操作你的终端,当 Claude 可以一次性吞吐海量文档并精准定位细节时,Prompt Engineering(提示词工程)的重要性正在下降,而 Agent ...
为了展示 Opus 4.6 的极限,Anthropic 的研究员 Nicholas Carlini 搞了个疯狂的实验:充值了 2 万美元的 API 额度,让 16 个 Claude Opus 4.6 组成一个「全自动软件开发团队」。
小黑盒生活 on MSN
OpenAI 和 Anthropic 同时王炸更新,能力翻倍,不仅代码!
【本文由小黑盒作者@飞碟AI于02月06日发布,转载请标明出处!】 凌晨,Anthropic 丢出重磅更新,跟本公众号昨天发布的爆料不一样,本以为是发布的Claude 5.0,但是这次版本号是4.6,还没来得及欢呼,紧接着OpenAI ...
在知识工作能力的评测GDPval-AA 上,Opus 4.6比OpenAI的GPT-5.2高出约144Elo分,比自己的前代Opus 4.5高出190分。这个测试涵盖了金融、法律等领域的实际工作任务,比如制作财务分析报告、起草法律文件、做市场调研等。
智东西2月3日报道,今日,爆火的AI社交网络Moltbook创始人马特·施利希特(MattSchlicht)首次接受直播专访并透露,他给自己的机器人命名“Clawd ...
省政府工作报告提出,大力推进科技创新、产业创新和金融创新深度融合发展,加快构建体现湖北优势的现代化产业体系。对此,来自随州的代表委员们,围绕全省发展大局,结合随州发展实际,就推进专汽应急、文化旅游、新材料、风机、中医药、特色农业、绿色建材、电子信息、氢能、低空经济等产业发展提出建议。
科技行者 on MSN
微软的电脑助手学会了“一招鲜吃遍天”:CUA-Skill如何让AI像人一样 ...
电脑操作为什么这么难? 想象一下,你想教一个机器人来帮你完成电脑上的工作。这看起来很简单,但实际上却是个难题。当你告诉机器人"打开Excel表格并计算平均值"时,机器人需要做的不仅仅是点击几个按钮,它还要理解你说的是哪个表格,知道在哪里找到平均值功能,然后一步步操作。如果在哪一个环节出错,整个任务就可能失败。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果