tree - 搜索 News

57 分钟

清华、快手提出AttnRL：让大模型用「注意力」探索

为此，来自清华和快手的研究团队提出了一种新框架 AttnRL，通过引入注意力机制作为探索的「指南针」，显著提升了过程监督强化学习的效率与性能。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果