Double Learning Q - 搜索 News

从DQN到Double DQN：分离动作选择与价值评估，解决强化学习中的Q值过 ...

2015年DQN在Atari游戏上取得突破性进展，从此以后强化学习终于能处理复杂环境了，但没多久研究者就注意到一些奇怪的现象： Q值会莫名其妙地增长到很大，智能体变得异常自信，坚信某些动作价值极高。实际跑起来却发现这些"黄金动作"根本靠不住，部分游戏的 ...

一些您可能无法访问的结果已被隐去。