mamba - 搜索 News

14 天

DeepMind携Mamba华人作者推Transformer革命之作，性能暴涨媲美Llama 2，推理 ...

线性RNN赢了？近日，谷歌DeepMind一口气推出两大新架构，在d基准测试中超越了Transformer。新架构不仅保证了高效的训练和推理速度，并且成功扩展到了14B。这次的挑战者来自大名鼎鼎的谷歌DeepMind，并且一口气推出了两种新架构，——Hawk和Griffin。

腾讯网

Mamba再次挑战霸主Transformer！首个通用Mamba开源大模型一鸣惊人

【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B，性能与Transformer架构模型相媲美，在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天，阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。

科技行者 on MSN

清华大学发布TimeViper：让AI一次看懂数万帧超长视频的混合架构

研究团队的解决方案TimeViper采用了一种巧妙的混合架构设计。这种设计就像是组建了一个专业的视频分析团队，其中Mamba层负责快速浏览和记忆长时间序列信息，就像一个善于速读的助手，能够快速扫描大量内容并记住关键信息。而Transformer层则像是一个细致的分析师，专注于深入理解和分析重要细节。这两种不同特长的"员工"协同工作，既保证了处理效率，又维持了理解质量。

腾讯网

Mamba-2发布状态空间扩大8倍，训练速度提高50%，提出结构化状态空间 ...

Mamba-2最新发布，其研究成果在顶级学术会议ICML 2024上被正式接收，标志着在深度学习序列模型领域的一个重要进展。该模型相较于前作Mamba展示了在计算效率和模型泛化能力上的显著提升，特别是在处理大规模数据集时，显示出其卓越的性能优势。通过深入分析 ...

36氪

Mamba再次挑战霸主Transformer，首个通用Mamba开源大模型一鸣惊人

Falcon Mamba 7B有什么特别之处？ TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B，性能与Transformer架构模型相媲美，在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天，阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果