Bowflex Max Trainer M3 Elliptical

GRPO trainer 中的 max length 判断疑似存在逻辑漏洞

在当前 grpo_trainer.py 中当使用 _dynamic_sampling 重采样时没有再次对 max_length 做判断，如果 self.template.truncation_strategy == 'raise'，有概率采样到超长 inputs 并在 _prepare_inputs 中报错，应在 inputs = next ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

反馈

GRPO trainer 中的 max length 判断疑似存在逻辑漏洞

今日热点