为此,来自清华和快手的研究团队提出了一种新框架 AttnRL,通过引入注意力机制作为探索的「指南针」,显著提升了过程监督强化学习的效率与性能。