这种现象在现实使用中远比在标准化基准测试中更明显。当用户与 ChatGPT 等主流 LLM 进行长时间、多轮的复杂对话时,会明显感觉到模型开始变「笨」,变得难以聚焦、遗忘关键信息。
Anthropic于2025年10月15日发布了Claude Haiku 4.5。该模型在编码、计算机使用和基于代理的任务方面的性能与旗舰模型Sonnet 4相媲美,但成本仅为其三分之一,速度却是其两倍以上。 Haiku 4.5在SWE-bench ...
在2025年,众多AI安全研究团队对主流MCP工具的安全性进行了深入分析,发现了大量新型安全风险。尤其是海外的谷歌、微软、英伟达,国内的腾讯朱雀实验室、阿里达摩院安全团队,作为国际*的AI安全团队,他们在MCP安全检测领域都取得了重要突破。本文将从十 ...
作者|沐风来源|AI先锋官谷歌 Gemini 3.0已经在 X 上被“剧透”到发烫,这个尚未正式发布的模型,可以说是提前火出了圈。拿到内测资格的开发者们在X上一波接一波的分享着Gemini ...
还记得不久前我们介绍过一波 Google AI 全家桶吗,那会儿正是 nano banana 爆火,Gemini 登顶第一。许多人因此第一次去尝试了 Gemini 2.5 Pro,发现这个不声不响的旗舰模型,很多时候竟然比 GPT-5 还要好。
为了对比现有的模型能力,有网友采用了具有代表性的顶级编程模型 Claude 4.5 Sonnet 也采用类似的提示词进行了操作系统的生成,结果发现不仅图标显示不全,而且无法和生成出的任何内容进行交互,处于完全不可用的状态。
短短一天之内,苹果、微软、Linux这三足鼎立的PC操作系统江湖就被Gemini 3.0 Pro全包了。 有网友尝试让Gemini 3.0 Pro生成一个网页版Windows,结果一次成功。
整理 | 屠敏出品 | CSDN(ID:CSDNnews)今天,前 OpenAI 联合创始人、Eureka Labs 创始人 Andrej Karpathy(安德烈·卡帕西)带来了一个全新的开源项目——nanochat。用他自己的话说,这是他写过的最 ...
iFlow CLI就像一个全能的生产力平台,能够整合多任务、多环节。过去需要一个团队协作才能完成的工作,比如产品提测时审查代码、自动生成测试用例,现在可能只需要一个人,借助iFlow CLI就能搞定。
小编最近看了一篇深度专访,作者 Gergely Orosz,采访了 Claude Code 的几位联合创始工程师和产品经理,信息密度颇为巨大。三位可以说都是CC元老级员工。 Boris Cherny,该项目的首位工程师,也是最初原型的设计者;Sid Bidasaria, Claude Code 的第二位工程师,也是 “Claude Code 子代理(subagents)” 的创建者; ...