Benchmark Learning - 搜索 News

1 天

姚顺雨腾讯第一篇论文，道破为什么AI死活听不懂人话

上下文提供专业领域知识，如虚构的法律体系、创新的金融工具或小众专业知识，模型需要学习并应用这些知识进行推理。比如给AI一个虚构国家的完整法律条文和判例，让AI判罚一起复杂的民事纠纷。

9 小时

姚顺雨在腾讯首个研究：在“上下文”这事上，在座的各位都不及格

2025年4月，姚顺雨在博文《The Second ...

1 天

AI为何总是听不懂人话？揭示学习能力的真相！

这个基准的核心设计理念，是挑选那些在模型的预训练数据中不存在的难题，让每个任务都必须要求模型从提供的上下文中学习全新的知识才能解决。这篇论文不仅揭示了当前AI的根本性缺陷，还构建了一个专属于AI的评价体系，非常值得AI以及agent从业者学习。

1 天

美团提出全新多模态统一大模型STAR，GenEval突破0.91，破解“理解-生成 ...

近日，美团推出全新多模态统一大模型方案 STAR（STacked AutoRegressive Scheme for Unified Multimodal Learning），凭借创新的 "堆叠自回归架构 + 任务递进训练" 双核心设计，实现了 "理解能力不打折、生成能力达顶尖" 的双重突破。

2 天

雷军官宣小米多篇研究成果入选 ICLR 2026 国际顶级会议，涵盖端到端 ...

IT之家 2 月 3 日消息，小米创办人、董事长兼 CEO 雷军今日宣布，小米团队的多篇最新研究成果，成功入选 ICLR 2026，研究方向涵盖多模态推理、强化学习、GUI Agent、端到端自动驾驶以及音频生成等领域。

GitHub

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

We introduce M3-Agent, a novel multimodal agent framework equipped with long-term memory. Like humans, M3-Agent can process real-time visual and auditory inputs to build and update its long-term ...

头部财经

雷军官宣小米多篇最新研究成果成功入选ICLR 2026国际顶级会议

腾讯网

杨植麟亲自发布，月之暗面最强模型Kimi K2.5开源

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！杨植麟亲自出镜，发布月之暗面迄今为止最强模型Kimi K2.5。Kimi K2.5 在 Kimi K2 ...

13 天

研究发现，最强大模型的视觉能力不如 6 岁小孩

在 BabyVision 视觉推理 benchmark 上，当前表现最强的 Gemini 3 Pro Preview 也只是小胜三岁儿童，跟六岁儿童仍有 20% 的差距。与成年人 94.1 的水平相比，更是天壤之别。更关键的是，Gemini 3 Pro Preview 已经是当前一众模型中的“天花板”。

21st Century Business Herald

Guangzhou International Cultural Center Launched Global Investment Promotion

On January 23, 2026, Southern Publishing & Media Co., Ltd. launched the global investment promotion conference of "Beyond the Core· Survey the Future – Guangzhou International Cultural Center (GICC)".

腾讯网

微信文本嵌入模型KaLM-Embedding登顶全球榜单：数据工程与训练技巧详解

不论是大模型应用的RAG架构中，还是在语义搜索、推荐系统中，开发人员经常遇到检索不够精准的问题，导致应用效果受限。微信团队开源KaLM-Embedding系列模型，以全球榜首的实力，打通语义检索的“最后一公里”。文本嵌入Embedding模型可以将任意文本编码到统一向量空间，赋予非结构化内容可度量、可检索的特性，可为上层的检索、分类、推荐等应用提供基础支撑。在RAG等主流大模型应用架构中，Emb ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果