近日,PyTorch 官方分享了如何实现无 CUDA 计算,对各个内核进行了微基准测试比较,并讨论了未来如何进一步改进 Triton 内核以缩小与 CUDA 的差距。 在做大语言模型(LLM)的训练、微调和推理时,使用英伟达的 GPU 和 CUDA 是常见的做法。在更大的机器学习编程与 ...
·聚焦:人工智能、芯片等行业欢迎各位客官关注、转发前言:谷歌与Meta宣布深化合作,让PyTorch更好地原生支持Google ...
【新智元导读】用英伟达的GPU,但可以不用CUDA?PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA类似甚至更佳的性能。 试问,有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰? 又有多少开发者曾因为频频闪烁的警报「 ...
财联社12月18日讯(编辑 夏军雄) 据消息人士称,谷歌正在推进一项新计划,使其人工智能(AI)芯片在运行 PyTorch(全球使用最广泛的AI软件框架)方面表现更佳,此举旨在挑战英伟达长期以来在AI芯片领域的主导地位。
【导读】用英伟达的GPU,但可以不用CUDA?PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA类似甚至更佳的性能。 试问,有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰? 又有多少开发者曾因为频频闪烁的警报「CUDA版本 ...
据 AIbase 报道,为了撼动英伟达在 AI 芯片领域的统治地位,Alphabet(谷歌母公司)正在推进一项名为“ TorchTPU ”的战略计划。该计划旨在显著提升其张量处理单元(TPU)芯片对 PyTorch 框架的兼容性,从而降低开发者从英伟达 GPU 切换至谷歌 TPU 的技术门槛和迁移成本。
据AIbase报道,为挑战英伟达(NVIDIA)在AI芯片市场的统治地位,Alphabet(谷歌母公司)正在推进一项名为“TorchTPU”的战略计划。该计划旨在显著提高其张量处理器(Tensor Processing Unit, TPU)芯片与PyTorch框架的兼容性,从而降低开发者从英伟达GPU切换到谷歌TPU的技术壁垒和迁移成本。
【导读】Meta推出KernelLLM,这个基于Llama 3.1微调的8B模型,竟能将PyTorch代码自动转换为高效Triton GPU内核。实测数据显示,它的单次推理性能超越GPT-4o和DeepSeek V3,多次生成时得分飙升。
AI自动生成的苹果芯片Metal内核,比官方的还要好? Gimlet Labs的最新研究显示,在苹果设备上,AI不仅能自动生成Metal内核,还较基线内核实现了87%的PyTorch推理速度提升。 更惊人的是,AI生成的Metal内核还在测试的215个PyTorch模块上实现了平均1.87倍的加速,其中一些 ...
PyTorch,这一广受欢迎的开源机器学习框架,近期正式推出了其最新版本——2.8版。此次版本更新聚焦于提升量化大语言模型(LLM)在Intel CPU上的推理性能,吸引了众多开发者和研究人员的目光。 在PyTorch 2.8中,开发者团队通过算法优化和技术革新,显著提高了 ...
IT之家 12 月 18 日消息,据路透社报道,知情人士透露,Alphabet 旗下的谷歌正在推进一项新计划,旨在提升其人工智能芯片运行全球最主流 AI 软件框架 PyTorch 的性能,此举意在削弱英伟达在人工智能计算市场长期以来的霸主地位。