Megatron Mask - 搜索 News

4 天

小米 AI 新论文，雷军千万年薪要挖的 DeepSeek 罗福莉署名

10 月 14 日，小米和北京大学联合署名的论文发表于 arXiv，曾被曝获小米集团创始人兼 CEO 雷军以千万年薪招募的 DeepSeek“天才少女”罗福莉，出现在了这篇论文的通讯作者之列，但值得注意的是，论文作者中并没有标注罗福莉属于小米大模型团队。

GitHub

aotumanbiu/Pytorch-Mask-RCNN

如上图所示，Faster R-CNN的结构主要分为三大部分，第一部分是共享的卷积层-backbone，第二部分是候选区域生成网络-RPN，第三部分是对候选区域进行分类的网络-classifier。其中，RPN与classifier部分均对目标框有修正。classifier部分是原原本本继承的Fast R-CNN结构。

腾讯网

训练效率提升25%、成本降23%！上海期智研究院、算秩未来联合推出 ...

作者 | 算秩未来、上海期智研究院策划 | 蔡芳芳在万亿参数模型中，一个细节的优化能节省千卡 GPU，继而节省数十万的成本。在 WAIC 2025 世界人工智能大会上，上海期智研究院联合算秩未来正式发布重磅开源项目 MegatronApp。经过某大型金融行业实际训练数据 ...

新浪网

训练效率提升25%、成本降23%！上海期智研究院、算秩未来联合推出 ...

在万亿参数模型中，一个细节的优化能节省千卡 GPU，继而节省数十万的成本。在 WAIC 2025 世界人工智能大会上，上海期智研究院联合算秩未来正式发布重磅开源项目 MegatronApp。经过某大型金融行业实际训练数据显示，MegatronApp 通过慢节点精准识别、智能调度 ...

澎湃新闻

淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大 ...

过去几年，随着基于人类偏好的强化学习（Reinforcement Learning from Human Feedback，RLHF）的兴起，强化学习（Reinforcement Learning，RL）已成为大语言模型（Large Language Model，LLM）后训练阶段的关键技术。RL 不仅显著提升了模型的对齐能力，也拓展了其在推理增强、智能体 ...

51CTO

SFT loss计算的那些坑，完美避开！！！

SFT 可以说是 LLM 的基本操作了，如果只是想把 SFT 跑起来是非常简单的，只需要构造 input_ids 和 labels，然后就可以把训练跑起来。然而，这样的训练效率实际上非常低。无论是哪种方法，加速后都需要保证 loss 和原来是等价的。本文主要介绍这两种加速方法 ...

搜狐

如何正确填写子网掩码以确保网络连接正常

在网络配置中，子网掩码是一个重要的概念，它用于确定一个IP地址的网络部分和主机部分。正确填写子网掩码对于确保网络的正常运行至关重要。本文将详细探讨子网掩码的基本概念、如何选择和填写子网掩码，以及在实际应用中的一些注意事项。什么是子网 ...

51CTO

Sample Packing：长序列 LLM 训练的 Attention 问题及优化

之前看过部分 Megatron-LM 的源码，也详细分析过对应的 Dataset 和 DataLoader，想当然的认为在 LLM 预训练时会使用 Document Level 的 Mask，也就是常说的 Sample Packing 技术。最近我们在做长序列训练相关工作时发现并非如此，并且出现了一些很奇怪的性能问题，因此重新看 ...

腾讯网

淘天集团联合爱橙科技开源大模型训练框架Megatron-LLaMA

9 月 12 日，淘天集团联合爱橙科技正式对外开源大模型训练框架 ——Megatron-LLaMA，旨在让技术开发者们能够更方便的提升大语言模型训练性能，降低训练成本，并且保持和 LLaMA 社区的兼容性。测试显示，在 32 卡训练上，相比 HuggingFace 上直接获得的代码版本 ...

站长之家

开源大模型训练框架Megatron-LLaMA来了 32卡训练可加速176%

淘天集团联合爱橙科技正式对外开源大模型训练框架Megatron-LLaMA，以提高大语言模型训练性能，降低训练成本。测试显示，相比HuggingFace代码，Megatron-LLaMA在32卡训练上获得176%的加速;在大规模训练上表现出几乎线性的扩展性。 Megatron-LLaMA已在GitHub开源，将持续 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果