17种深度强化学习算法用Pytorch实现
深度强化学习已经在许多领域取得了瞩目的成就,并且仍是各大领域受热捧的方向之一。本文推荐一个包含了 17 种深度强化学习算法实现的 PyTorch 代码库。
已实现的算法包括:
Deep Q Learning (DQN) (Mnih et al. 2013)
DQN with Fixed Q Targets (Mnih et al. 2013)
Double DQN (DDQN) (Hado van Hasselt et al. 2015)
DDQN with Prioritised Experience Replay (Schaul et al. 2016)
Dueling DDQN (Wang et al. 2016)
REINFORCE (Williams et al. 1992)
Deep Deterministic Policy Gradients (DDPG) (Lillicrap et al. 2016 )
Twin Delayed Deep Deterministic Policy Gradients (TD3) (Fujimoto et al. 2018)
Soft Actor-Critic (SAC & SAC-Discrete) (Haarnoja et al. 2018)
Asynchronous Advantage Actor Critic (A3C) (Mnih et al. 2016)
Syncrhonous Advantage Actor Critic (A2C)
Proximal Policy Optimisation (PPO) (Schulman et al. 2017)
DQN with Hindsight Experience Replay (DQN-HER) (Andrychowicz et al. 2018)
DDPG with Hindsight Experience Replay (DDPG-HER) (Andrychowicz et al. 2018 )
Hierarchical-DQN (h-DQN) (Kulkarni et al. 2016)
Stochastic NNs for Hierarchical Reinforcement Learning (SNN-HRL) (Florensa et al. 2017)
Diversity Is All You Need (DIAYN) (Eyensbach et al. 2018)
所有的实现都能够快速解决 Cart Pole (离散动作)、 Mountain Car (连续动作)、 Bit Flipping (动态目标的离散动作) 或 Fetch Reach (动态目标的连续动作) 等任务。本 repo 还会添加更多的分层 RL 算法。
已实现的环境:
Bit Flipping 游戏 (Andrychowicz et al. 2018)
Four Rooms 游戏 (Sutton et al. 1998)
Long Corridor 游戏 (Kulkarni et al. 2016)
Ant-{Maze, Push, Fall} (Nachum et al. 2018)
结果
1. Cart Pole 和 Mountain Car
下面展示了各种 RL 算法成功学习离散动作游戏 Cart Pole 或连续动作游戏 Mountain Car 的结果。使用 3 个随机种子运行算法的平均结果如下图所示,阴影区域表示正负 1 标准差。使用的超参数可以在 results/cart_pol .py 和 results/Mountain_Car.py 文件中找到。
2. 事后经验重演 (HER) 实验
下面展示了 DQN 和 DDPG 在 Bit Flipping (14 bits) 和 Fetch Reach 环境中的表现,这些环境在论文 Hindsight Experience Replay 和 Multi-Goal Reinforcement Learning 中有详细描述。这些结果复现了论文中发现的结果,并展示了添加 HER 可以如何让一个 agent 解决它原本无法解决的问题。请注意,在每对 agents 中都使用了相同的超参数,因此它们之间的唯一区别是是否使用了 hindsight。
3. 分层强化学习实验
下图左边的结果显示了在 Long Corridor 环境中 DQN 和 Kulkarni 等人在 2016 年提出的 hierarchy -DQN 算法的性能。该环境要求 agent 在返回之前走到走廊的尽头,以便获得更大的奖励。这种延迟满足和状态的混叠使得它在某种程度上是 DQN 不可能学习的游戏,但是如果我们引入一个元控制器 (如 h-DQN) 来指导低层控制器如何行动,就能够取得更大的进展。这与论文中发现的结果一致。
下图右边的结果显示了 Florensa 等人 2017 年提出的 DDQN 算法和用于分层强化学习的随机神经网络 (SNN-HRL) 的性能。使用 DDQN 作为比较,因为 SSN-HRL 的实现使用了其中的 2 种 DDQN 算法。
用法
存储库的高级结构是:
├── agents
├── actor_critic_agents
├── DQN_agents
├── policy_gradient_agents
└── stochastic_policy_search_agents
├── environments
├── results
└── data_and_graphs
├── tests
├── utilities
└── data structures
i) 观看智能体学习上述游戏
观看所有不同的智能体学习 Cart Pole,请遵循以下步骤:
git clone https://github.com/p-christ/Deep_RL_Implementations.git
cd Deep_RL_Implementations
conda create --name myenvname
y
conda activate myenvname
pip3 install -r requirements.txt
python Results/Cart_Pole.py
对于其他游戏,将最后一行更改为结果文件夹中的其他文件就行。
ii) 训练智能体实现另一种游戏
Open AI gym 上的环境都是有效的,你所需要做的就是更改 config.environment 字段。
如果你创建了一个继承自 gym.Env 的单独类,那么还可以使用自己的自定义游戏。请参阅 Environments/Four_Rooms_Environment.py 自定义环境的示例,然后查看脚本 Results/Four_Rooms.py 了解如何让 agents 运行环境。
生物谷药业生物谷
生物谷
生物谷药业
生物谷药业
-
江西百年矿区的“深蓝色嬗变”:从“灰姑娘”到“俏佳人”
图为湖北醴陵青山乡焦宝矿山石矿山蝶变医药食疗小乡。 蔡汝城 摄 (奋进新征程 建功开端·老七区新貌)湖北百年铁...[详细]
-
面相二王眉:正二王倒二王
“八字哑”是哑毛里面比起少见的一种形哑型,八字哑又分为于是以八字哑和摇动八字哑。 于是以八字哑是哑两头...[详细]
-
格力电器推出第二期管理层持股计划 管理层认购优先
证券时报e该公司讯,格力电器(000651)5年底20日晚发布第二期员工持股方案,数目不有约9472.8万股,占该公司当前注...[详细]
-
“天河科普”小程序上线,动动手指便可查询心里的科普基地
“芙蓉学术性”小程序上线,动动手指便可查询偷偷的学术性的基地 文/羊城晚报全媒体报导 鄢敏图/通讯员供图 ...[详细]
-
(中国这十年·系列主题新闻发布)连续迈上新台阶,我国国际贸易十年交出亮眼答卷
另行华社北京5月20日电(记者邹多为、胡锐)从2012年的24.4万亿元到2021年的39.1万亿元,社会党的十八大以来,法制...[详细]
-
-
大S旧照清纯养眼,抹胸连衣裙勾勒好身材,但发型和肤色稍微快要
大S旧照清纯养眼,抹胸连衣裙勾勒好身材,但发型和肤色稍微快要
-
售价崩了!这车咻的一声从21万跌成9.5万,不用再惦记影豹思域!
售价崩了!这车咻的一声从21万跌成9.5万,不用再惦记影豹思域!
-
提醒!进入雨季汛期,这份应对宝典特地查收!
提醒!进入雨季汛期,这份应对宝典特地查收!
-
无证“眼科医生”行医,每年工资减半,当眼科医生必须得有证吗?
无证“眼科医生”行医,每年工资减半,当眼科医生必须得有证吗?
-
的国际生物多样性日|生命因多样而精彩
的国际生物多样性日|生命因多样而精彩
-
国家统计局发布2021年平均工资数据:IT业最高者
国家统计局发布2021年平均工资数据:IT业最高者
-
-
-
汇丰人寿去年和一季度均亏损2亿,股东白鱼增资6.35亿,董事长任职待批复
汇丰人寿去年和一季度均亏损2亿,股东白鱼增资6.35亿,董事长任职待批复
-
钟华论:月季永远盛开
钟华论:月季永远盛开
-
巴黎高定时装周——Stephane Rolland发布春夏时装新品
巴黎高定时装周——Stephane Rolland发布春夏时装新品
-
与贾乃亮前男友后,金晨又现身李易峰公寓?双方称好友聚会否认恋情
与贾乃亮前男友后,金晨又现身李易峰公寓?双方称好友聚会否认恋情
-
刚刚发布 | 漳州经济开发区第17号通告!
刚刚发布 | 漳州经济开发区第17号通告!
-
古装高马尾还是要看这几位:朱一龙翩翩公子,看不到肖战彻底惊艳
古装高马尾还是要看这几位:朱一龙翩翩公子,看不到肖战彻底惊艳
-
-
-
狐大医 | 奥密克戎可通过气溶胶传播,家中怎么以防?
狐大医 | 奥密克戎可通过气溶胶传播,家中怎么以防?
-
安铜办防溺水安全青年学生专项行动进校园
安铜办防溺水安全青年学生专项行动进校园
-
投资者提问:最近发电机公司有的都暴涨连续涨停板,明明公司成长性怎么样??中...
投资者提问:最近发电机公司有的都暴涨连续涨停板,明明公司成长性怎么样??中...
-
刚刚通报,河北新增2例本土无症状感染!
刚刚通报,河北新增2例本土无症状感染!
-
直播预告|北京昨新增本土5+1,今天下午4点召开发布会
直播预告|北京昨新增本土5+1,今天下午4点召开发布会
-
日常生活,需要一个人常怀欢喜之心
日常生活,需要一个人常怀欢喜之心
-
-
-
-
奠基石百年学府!曲师大举行曲阜校区扩建项目竣工仪式
奠基石百年学府!曲师大举行曲阜校区扩建项目竣工仪式
-
多达一个月股价跌多达50%,傲农生物:4月份起生猪销售头均毛利较一季度已明显改善
多达一个月股价跌多达50%,傲农生物:4月份起生猪销售头均毛利较一季度已明显改善
-
熬猪油时,学会“2没用3多放”,保证猪油又白又香,不腥不发苦
熬猪油时,学会“2没用3多放”,保证猪油又白又香,不腥不发苦
-
蒸红薯,不要直接上锅!教你“少1步多1步”,软绵香甜,不了水汽味
蒸红薯,不要直接上锅!教你“少1步多1步”,软绵香甜,不了水汽味
-
甘肃昨日新增1例原发性感染者
甘肃昨日新增1例原发性感染者
-
评论丨启功书法赝品印上北大学生证,一个尴尬的隐喻
评论丨启功书法赝品印上北大学生证,一个尴尬的隐喻
-
-
-
苹果VR/AR头盔曝光 传了10年的死讯终于要实现了吗?
苹果VR/AR头盔曝光 传了10年的死讯终于要实现了吗?
-
芝麻香油、小磨香油有啥区别?听据传油工怎么说,牢记1点优质好吃
芝麻香油、小磨香油有啥区别?听据传油工怎么说,牢记1点优质好吃
-
看淡心境才都会秀丽
看淡心境才都会秀丽
-
徐汇又一家商超恢复营业,浓浓烟火唯美又回来啦!
徐汇又一家商超恢复营业,浓浓烟火唯美又回来啦!
-
平安人寿董事长杨铮任职申请人获批
平安人寿董事长杨铮任职申请人获批
-
Polycom宝利通soundstation2基本型/标准型/引入型八爪鱼会议电话简要说明书
Polycom宝利通soundstation2基本型/标准型/引入型八爪鱼会议电话简要说明书
-
-
-
-
众人离职互为,特想离职但又不能,都因一个“难”字
众人离职互为,特想离职但又不能,都因一个“难”字
-
炙手可热的元宇宙造型师:有捏脸师月盈利近四五万元
炙手可热的元宇宙造型师:有捏脸师月盈利近四五万元
-
天空干打雷不下雨,朱元璋:有孝子蒙冤了!遂亲审死囚,果然如此
天空干打雷不下雨,朱元璋:有孝子蒙冤了!遂亲审死囚,果然如此
-
“包”过!李沧这位班主任手绘帆布包给中高考送上祝福
“包”过!李沧这位班主任手绘帆布包给中高考送上祝福
-
时尚博主上线!林允穿着毛绒大衣搭阔腿裤,纯蓝look让人眼前一亮
时尚博主上线!林允穿着毛绒大衣搭阔腿裤,纯蓝look让人眼前一亮
-
江阴减税降费助防疫物资生产企业“疫”马当先
江阴减税降费助防疫物资生产企业“疫”马当先
-
-
-
创新质量和安全管理,患者及其家属齐加入
创新质量和安全管理,患者及其家属齐加入
-
一起守“沪”|蔬菜瓜果齐缺阵 浙江长兴驰援上海“菜篮子
一起守“沪”|蔬菜瓜果齐缺阵 浙江长兴驰援上海“菜篮子
-
这个男人不会老吗?吴尊带女儿nei nei 上封面,网友:一点一定会变
这个男人不会老吗?吴尊带女儿nei nei 上封面,网友:一点一定会变
-
鱼肉去腥,别只会加料酒和怀,卖鱼大叔独门秘方:鱼肉没腥味更嫩
鱼肉去腥,别只会加料酒和怀,卖鱼大叔独门秘方:鱼肉没腥味更嫩
-
高考毕业生扎堆做近视手术 专家提示:并非人人可做
高考毕业生扎堆做近视手术 专家提示:并非人人可做
-
清热降火的王老吉大凉啤 愚蠢就是火锅和烧烤的好伴侣
清热降火的王老吉大凉啤 愚蠢就是火锅和烧烤的好伴侣
-