Megatron Mask - 搜索 News

1 天

小米最新大模型成果！罗福莉现身了

就在最近，小米AI团队携手北京大学联合发布了一篇聚焦MoE与强化学习的论文。而其中，因为更早之前在DeepSeek R1爆火前转会小米的罗福莉，也赫然在列，还是通讯作者。

智东西 on MSN

小米AI新论文！雷军千万年薪要挖的DeepSeek天才少女署名

智东西10月15日消息，10月14日，小米和北京大学联合署名的论文发表于arXiv，曾被曝获小米集团创始人兼CEO雷军以千万年薪招募的DeepSeek“天才少女”罗福莉，出现在了这篇论文的通讯作者之列，但值得注意的是， ...

2 天

小米 AI 新论文，雷军千万年薪要挖的 DeepSeek“天才少女”罗福莉署名

10 月 14 日，小米和北京大学联合署名的论文发表于 arXiv，曾被曝获小米集团创始人兼 CEO 雷军以千万年薪招募的 DeepSeek“天才少女”罗福莉，出现在了这篇论文的通讯作者之列，但值得注意的是， ...

17173游戏网

小米 AI 新论文，雷军千万年薪要挖的 DeepSeek“天才少女”罗福莉署名

小米和北京大学联合署名的论文发表于 arXiv，曾被曝获小米集团创始人兼 CEO 雷军以千万年薪招募的 DeepSeek“天才少女”罗福莉，出现在了这篇论文的通讯作者之列，但值得注意的是，论文作者中并没有标注罗福莉属于小米大模型团队。通讯作者中的罗福莉是 95 ...

头部财经

小米AI新论文！雷军千万年薪要挖的DeepSeek天才少女署名

智东西10月15日消息，10月14日，小米和北京大学联合署名的论文发表于arXiv，曾被曝获小米集团创始人兼CEO雷军以千万年薪招募的DeepSeek“天才少女”罗福莉，出现在了这篇论文的通讯作者之列，但值得注意的是，论文作者中并没有标注罗福莉属于小米大模型团队。

GitHub

output_dir: /data/testmllm/project/ROLL/models/${exp_name}

采用Qwen3-8B在4卡A800跑，之前也在H20上跑过，发现问题。当infer和train、reference放在相同的卡上面时。例如：都是list(range(0,4)。模型offload和reload的交换过程中会爆掉显存，引起ray的主动杀进程。但是讲train、reference等放在0～2卡，infer放在3卡，相同的配置完全可以正常运行。能不能优化模型切换中的 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果