Gym - 搜索 News

知乎 on MSN3 小时

DeepSeek 的深度强化学算法 GRPO，在LLM领域提升数学推理上的效果非常好，所以我前几天就想着能不能把GRPO用到机器人控制系统上。最近几天春节，我抽空简单编程对比了一下，GRPO和PPO，在简单控制系统上的效果。（业余玩玩，请勿较真）实验环境：env = gym.make('CartPole-v1', ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点