这种现象在现实使用中远比在标准化基准测试中更明显。当用户与 ChatGPT 等主流 LLM 进行长时间、多轮的复杂对话时,会明显感觉到模型开始变「笨」,变得难以聚焦、遗忘关键信息。
Anthropic于2025年10月15日发布了Claude Haiku 4.5。该模型在编码、计算机使用和基于代理的任务方面的性能与旗舰模型Sonnet 4相媲美,但成本仅为其三分之一,速度却是其两倍以上。 Haiku 4.5在SWE-bench ...
在2025年,众多AI安全研究团队对主流MCP工具的安全性进行了深入分析,发现了大量新型安全风险。尤其是海外的谷歌、微软、英伟达,国内的腾讯朱雀实验室、阿里达摩院安全团队,作为国际*的AI安全团队,他们在MCP安全检测领域都取得了重要突破。本文将从十 ...
还记得不久前 我们介绍过一波 Google AI 全家桶吗 ,那会儿正是 nano banana 爆火,Gemini 登顶第一。许多人因此第一次去尝试了 Gemini 2.5 Pro,发现这个不声不响的旗舰模型,很多时候竟然比 GPT-5 还要好。
为了对比现有的模型能力,有网友采用了具有代表性的顶级编程模型 Claude 4.5 Sonnet 也采用类似的提示词进行了操作系统的生成,结果发现不仅图标显示不全,而且无法和生成出的任何内容进行交互,处于完全不可用的状态。
告诉你一个反直觉事实:对ChatGPT越凶,它回答的越准!来自宾夕法尼亚州立大学团队实证,4o在非常粗鲁情况下,拿下84.8%准确率。 一项来自PSU的最新研究,给所有人当头一棒——对LLM越粗鲁,它回答得就越给力。
短短一天之内,苹果、微软、Linux这三足鼎立的PC操作系统江湖就被Gemini 3.0 Pro全包了。 有网友尝试让Gemini 3.0 Pro生成一个网页版Windows,结果一次成功。
整理 | 屠敏出品 | CSDN(ID:CSDNnews)今天,前 OpenAI 联合创始人、Eureka Labs 创始人 Andrej Karpathy(安德烈·卡帕西)带来了一个全新的开源项目——nanochat。用他自己的话说,这是他写过的最 ...
为了减轻开发者构建提示词(Prompt)的负担,Qoder 近日推出了全新的“一键 Prompt 增强”功能。该功能旨在通过智能的 Prompt 优化,帮助开发者更高效地与 AI 互动,从而提高编码效率。 在 Agentic Coding 时代,开发者经常面临一个核心挑战:如何在与 AI 交互时提出精确的问题。许多开发者花费大量时间思考和编写 Prompt,但结果往往无法生成所需的代码。例如,一个 ...
近期出现了一种复杂的恶意软件攻击活动,攻击者将会话式聊天机器人作为入侵企业系统的隐蔽入口。该攻击最早在2025年9月中旬被发现,主要针对基于大语言模型构建的面向客户的聊天应用。
在数字经济深度渗透各行各业的当下,运营岗位正经历前所未有的结构性变革。行业调研数据显示,超半数运营从业者已启动技能升级或跨领域转型计划,以应对自动化工具普及与人工智能技术迭代带来的职业挑战。这场转型浪潮不仅关乎个体职业发展,更成为企业适应数字化生存的 ...
如果各位读者从事涉及代码相关的工作,应该很能察觉到近两年 AI 编程能力的进化幅度,GPT-5 和 Gemini 2.5 等最新前沿大模型已经让开发者在实际任务中一定程度实现了自动化,近期发布的 Sonnet 4.5 又再次推动了这一进展。