3 小时
知乎 on MSNDeepSeek GRPO在简单控制系统上和PPO的对比DeepSeek 的深度强化学算法 GRPO,在LLM领域提升数学推理上的效果非常好,所以我前几天就想着能不能把GRPO用到机器人控制系统上。 最近几天春节,我抽空简单编程对比了一下,GRPO和PPO,在简单控制系统上的效果。(业余玩玩,请勿较真) 实验环境:env = gym.make('CartPole-v1', ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果一些您可能无法访问的结果已被隐去。
显示无法访问的结果