GPU的Scale Up互连成为炙手可热的话题,在2024年涌现了众多相关的行业讨论。站在阿里云的视角,什么样的技术以及生态才能满足云上智算集群的发展?为什么采用全新的Scale Up设计而不复用当前的以太网和RDMA技术呢?本文借着行业内的一些事件,对GPU超节点的 ...
报告导读:AI芯片 Scale up 集群扩大,带来交换芯片新需求场景,国内厂商在高速率芯片持续突破,交换芯片国产渗透空间广阔 ...
本文来自“半导体行业观察”,在本文中,我们来谈一下GPU集群的横向和综合拓展。 让我们从“AI Pod”的概念开始。这个术语对不同的人可能意味着不同的东西,但它通常指的是一种预先配置的模块化基础设施解决方案,旨在简化和加速AI工作负载的部署。
Scale-up网络是算力资源纵向扩展网络,用于提供高带宽、低时延与高可靠的GPU互联网络,压缩GPU之间的通信开销,提高算力资源利用率。本文分析了Scale-up网络的技术要求,指出当前RoCE v2与PCIe都不能完全满足Scale-up网络的技术要求,需要从物理层、链路层及事务 ...
(原标题:国泰海通:scale up带动交换芯片新需求 国内厂商市场份额有望逐步提升) ?智通财经APP获悉,国泰海通发布研报称,国内厂商随着在高端速率上持续突破,市场份额有望逐步提升。该行预计由于AI整体支出增加,以及Scale up技术趋势带动交换芯片需求 ...
近年来,随着人工智能(AI)技术蓬勃发展,大模型训练、推理任务对算力、内存的需求呈现指数级增长。为了提升算力,获取更短的训练时间和更高的推理效率,智算集群通过高性能网络进行集群算力的扩展,目前已经从万卡向十万卡、数十万卡级别迈进。
在 AI 大模型参数从百亿级迈向千亿级、智算集群规模突破百万卡的今天,“算力聚合” 正成为制约 AI 普惠的核心瓶颈 —— 传统 PCIe 总线、RoCEv2 协议已难以满足超节点内数十甚至数百 GPU 间 “低时延、高带宽、高可靠” 的数据传输需求。 在此背景下,ETH-X Scale ...
通信世界网消息(CWW)近年来,大语言模型(LLM)的发展备受瞩目,模型参数规模迈向万亿,模型泛化能力增强,可同时处理语言、文字、图像、视频等多种任务。LLM的发展驱动了底层智算基础设施的升级,传统单机8卡的设备形态在支撑模型快速迭代时遭遇瓶颈。
摩根大通称,Hot Chips 2025大会显示AI基础设施需求强劲增长。谷歌TPU性能较前代提升10倍,与英伟达GPU差距快速缩小;Meta扩展10万+GPU集群,预计未来十年增长10倍;以太网技术向Scale Up领域扩张,成为网络关键增长点;光学集成技术加速发展以应对功耗限制。