mamba - 搜索 News

Mamba再次挑战霸主Transformer！首个通用Mamba开源大模型一鸣惊人

【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B，性能与Transformer架构模型相媲美，在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天，阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。

腾讯网

MambaOut：状态空间模型并不适合图像的分类任务

该论文探讨了Mamba架构（包含状态空间模型SSM）是否有必要用于视觉任务，如图像分类、目标检测和语义分割。通过实验证实了了Mamba在视觉识别任务中的效果，认为其不如传统的卷积和注意力模型。论文理论化认为Mamba更适合具有长序列和自回归特性的任务，而 ...

新浪网

Mamba-3惊现AI顶会ICLR 2026！CMU知名华人教授一作首代工作AI圈爆红

【新智元导读】曼巴回来了！Transformer框架最有力挑战者之一Mamba的最新进化版本Mamba-3来了，已进入ICLR 2026盲审环节，超长文本处理和低延时是其相对Transformer的显著优势。另一个挑战者是FBAM，从不同的角度探索Transformer的下一代框架。算法巨蟒「Mamba」悄然蜕变 ...

12 天

Mamba一作再祭神作，H100利用率飙至75%，FlashAttention三代性能翻倍，比 ...

去年7月，FlashAttention-2发布，相比第一代实现了2倍的速度提升，比PyTorch上的标准注意力操作快5～9倍，达到A100上理论最大FLOPS的50～73%，实际训练速度可达225 TFLOPS（模型FLOPs利用率为72%）。

新浪网

老牌Transformer杀手在ICLR悄然更新：Mamba-3三大改进趋近设计完全体

至今为止 Transformer 架构依然是 AI 模型的主流架构，自从其确立了统治地位后，号称 Transformer 杀手的各类改进工作就没有停止过。在一众挑战者中最具影响力的自然是 2023 年社区爆火的基于结构化的状态空间序列模型（SSM）架构的 Mamba。 Mamba 的爆火可能和名字 ...

36氪

Mamba再次挑战霸主Transformer，首个通用Mamba开源大模型一鸣惊人

Falcon Mamba 7B有什么特别之处？ TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B，性能与Transformer架构模型相媲美，在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天，阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型 ...

生物通

Geo-Mamba：一个基于数据的Mamba框架，用于结合多源地理因素的时空建模

本文提出Geo-Mamba框架，创新性地将地理因素分类为动态、静态和类别型，结合Mamba架构的线性时空建模能力与KAN网络的高精度数值回归特性，实现异质时空数据的多尺度融合与高效建模，在地下水存储异常（RMSE=1.916）、净生态系统交换（R2=0.986）和水覆盖分类（OA ...

生物通

TDG-Mamba：一种基于双向信息传播的高级时空嵌入技术，用于时序动态 ...

针对动态时序图（TDGs）建模中的计算复杂度高和时空关系捕捉不足问题，本文提出TDG-mamba方法，融合双向mamba架构和时空优先令牌模块（SPTM），结合单向GNN优化时空嵌入，在多个公开数据集上验证其性能提升。摘要：时间动态图（TDGs）用于表示实体及其关系随 ...

当前正在显示可能无法访问的结果。

隐藏无法访问的结果