近日,科技圈被一则消息彻底引爆:Reddit平台上,开发者johnnytshi分享了一项颠覆性操作—— Claude Code仅耗时30分钟,便成功将一整套完整的CUDA后端代码,移植到了AMD的ROCm平台,而且无需任何中间转换层。
Hello folks,我是 Luga,今天我们继续来聊一下人工智能生态相关技术 - 用于加速构建 AI 核心算力的 GPU 编程框架 - CUDA 。 CUDA,作为现代图形处理器(GPU)的计算单元,在高性能计算领域扮演着日益重要的角色。通过将复杂的计算任务分解为数千个 ...
令人惊叹的是,johnnytshi在短短30分钟内,就把整个CUDA后端移植到了AMD ROCm上,而且中间没用任何翻译层。 为AMD GPU实现了完整的ROCm后端,从而在RDNA 3.5及其他AMD架构上支持基于注意力机制的现代国际象棋网络。
近日,一则有关英伟达试图在其CUDA软件中封杀第三方GPU公司的消息,正引起国内外人工智能及芯片行业的关注。在CUDA 11.6版本开始,安装的时候会在EULA(最终用户许可协议)中看到相关警告条款:“你不能逆向工程、反编译或反汇编使用此SKD生成的任何结果 ...
事实上,各界为打破 CUDA 的技术 “护城河”,已持续推进相关研发数月:ZLUDA 等项目相继落地,微软等企业也在内部开展了相关工作。但在面向 GPU 加速性能的核函数编写领域,英伟达的主导地位至今仍未被撼动。
快科技12月7日消息,日前NVIDIA正式推出了CUDA 13.1,官方将其定位为“自2006年CUDA平台诞生以来最大、最全面的升级”。 此次更新的核心亮点,是引入了革命性的CUDA Tile编程模型,标志着GPU编程范式迈入一个新的、更高抽象的阶段。 传统的GPU编程基于SIMT (单指令多 ...
你有没有过这样的经历? 明明费尽力气写出了一个 CUDA Kernel,逻辑没错,也能编译通过,但一跑起来,慢得像爬 😭。 而资深工程师调出来的 Kernel,往往只靠几个改动,就可以实现天差地别的效果。 这背后的问题是:CUDA 编程实在是太硬核了。编译通过、逻辑 ...
NVIDIA CUDA鼎鼎大名,不过,从一开始,该技术就为N卡独享。 尽管已经有一些工具能让CUDA为OpenCL环境所用,但即便先进如HIPCL也还是一款半自动化工具,需要开发者手动干预。 好消息是,名为ZLUDA的新工具诞生了,简单来说可依然配置Intel核显(6代酷睿Skylake及 ...
NVIDIA和苹果的关系一直很糟糕,十几年没有过合作,现在双方的最后一丝关系也破裂了。 NVIDIA今天公布了CUDA并行计算开发平台的更新规划说明,其中特别提到,CUDA 10.2(包括工具包和驱动)将是最后一个支持苹果macOS系统开发、运行CUDA程序的版本,未来CUDA将与 ...
国产AI芯片公司,包括国际上的一些AI芯片公司一般会采用“打不过就加入”的思路,即采用兼容CUDA软件生态,特别是走GPGPU路线的做法;另外一些AI芯片公司走的则是非CUDA路线,整体上呈现“小、散、弱”的局面。 近年来,国产AI芯片公司获得了高速发展 ...
DeepSeek-R1生成自定义CUDA内核,性能领先优化GPU编程。 【导读】斯坦福和普林斯顿研究者发现,DeepSeek-R1生成的自定义CUDA内核,完爆了o1和Claude 3.5 ...
差评X.PIN on MSN
顶尖大佬坦白局,只会聊天的大模型没戏了?
咱们都知道,英伟达在硬件上卖 GPU 算力,软件方面手握 CUDA 生态,都快把显卡和 GPU 计算这门 “给 AI 卖铲子” 的生意给垄断了。 可以说在 GPU 编程这件事上,CUDA 几乎就是 “版本答案”,以至于之前行业里形成了一 ...
当前正在显示可能无法访问的结果。
隐藏无法访问的结果