这种现象在现实使用中远比在标准化基准测试中更明显。当用户与 ChatGPT 等主流 LLM 进行长时间、多轮的复杂对话时,会明显感觉到模型开始变「笨」,变得难以聚焦、遗忘关键信息。
Anthropic于2025年10月15日发布了Claude Haiku 4.5。该模型在编码、计算机使用和基于代理的任务方面的性能与旗舰模型Sonnet 4相媲美,但成本仅为其三分之一,速度却是其两倍以上。 Haiku 4.5在SWE-bench ...
在2025年,众多AI安全研究团队对主流MCP工具的安全性进行了深入分析,发现了大量新型安全风险。尤其是海外的谷歌、微软、英伟达,国内的腾讯朱雀实验室、阿里达摩院安全团队,作为国际*的AI安全团队,他们在MCP安全检测领域都取得了重要突破。本文将从十 ...
作者|沐风来源|AI先锋官谷歌 Gemini 3.0已经在 X 上被“剧透”到发烫,这个尚未正式发布的模型,可以说是提前火出了圈。拿到内测资格的开发者们在X上一波接一波的分享着Gemini ...
还记得不久前我们吗,那会儿正是 nano banana 爆火,Gemini 登顶第一。许多人因此第一次去尝试了 Gemini 2.5 Pro,发现这个不声不响的旗舰模型,很多时候竟然比 GPT-5 还要好。 大量的测试结果,都提到 Gemini 3 ...
为了对比现有的模型能力,有网友采用了具有代表性的顶级编程模型 Claude 4.5 Sonnet 也采用类似的提示词进行了操作系统的生成,结果发现不仅图标显示不全,而且无法和生成出的任何内容进行交互,处于完全不可用的状态。
告诉你一个反直觉事实:对ChatGPT越凶,它回答的越准!来自宾夕法尼亚州立大学团队实证,4o在非常粗鲁情况下,拿下84.8%准确率。 一项来自PSU的最新研究,给所有人当头一棒——对LLM越粗鲁,它回答得就越给力。
短短一天之内,苹果、微软、Linux这三足鼎立的PC操作系统江湖就被Gemini 3.0 Pro全包了。 有网友尝试让Gemini 3.0 Pro生成一个网页版Windows,结果一次成功。
上周写了两篇关于GEPA的文章《Agent多步误差咋破?看下GEPA,反思自进化+帕累托前沿,超过DSPy的MIPROv2》《别被提示词优化困住!用DSPy.GEPA把Prompt做成可演进的工程(万字长文)》,有不少朋友还是很困惑。GEPA(Gen ...
整理 | 屠敏出品 | CSDN(ID:CSDNnews)今天,前 OpenAI 联合创始人、Eureka Labs 创始人 Andrej Karpathy(安德烈·卡帕西)带来了一个全新的开源项目——nanochat。用他自己的话说,这是他写过的最 ...