hermes - 搜索 News

13 天

10人明星团队炼出首个微调Llama 3.1 405B，角色扮演一秒入戏，代码全开源

由于训练数据样本长度高度异质，这种样本打包极大地提高了SFT的效率。作者选择了8192作为目标序列长度，以匹配Llama 3.1的原生训练上下文窗口，并且整体打包效率达到96%，这意味着只有4%的token是填充token。

来自MSN

Hermes 4：机器深度思考的突破，开启AI新纪元

近日，由NousResearch团队开发的Hermes 4混合推理模型系列引发了广泛关注。该系列模型由Ryan Teknium领导，于2025年8月发布，详细论文可通过arXiv:2508.18255v1访问，而模型权重则已在Hugging Face平台上公开。 Hermes 4的问世标志着AI技术的一大进步，它不仅仅是一个反应迅速 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

10人明星团队炼出首个微调Llama 3.1 405B，角色扮演一秒入戏，代码全开源

Hermes 4：机器深度思考的突破，开启AI新纪元

今日热点