深度强化学习[Deep Reinforcement Learning]相关工作

此处列下要阅读学习的论文,待后续逐步增添其内容。

【0】. 强化学习经典教材

贡献:非常系统地介绍了强化学习的常用算法,在第二版最后章节添加了强化学习与心理学和神经学研究的关联性。

Sutton R S, Barto A G. Reinforcement learning: An introduction[M]. Cambridge: MIT press, 1998.

【1】. 2013年DeepMind团队Mnih等人在NIPS workshop上提出了深度强化学习的开创性工作DQN,在视频游戏领域取得突破。此工作使得DeepMind公司一战成名。

贡献:首次提出DQN,引起谷歌公司的注意并以4亿美元被其收购,致力于解决AI问题。

Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with deep reinforcement learning[C]//Proceedings of the NIPS Workshop on Deep Learning, 2013.

Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.

【2】. 2014年密歇根大学研究团队提出DQN与MCTS结合的强化学习算法

Guo X, Singh S, Lee H, et al. Deep learning for real-time Atari game play using offline Monte-Carlo tree search planning[C]//Advances in neural information processing systems. 2014: 3338-3346.

【3】. 2015年DeepMind团队提出适用于DQN的大规模分布式架构:Gorila

Nair A, Srinivasan P, Blackwell S, et al. Massively parallel methods for deep reinforcement learning[C] //Proceedings of the ICML Workshop on Deep Learning, 2015.

【4】. 2015年麻省理工大学研究团队将DQN和LSTM结合,解决基于文本的游戏,其中LSTM主要是编码功能,该工作发表在EMNLP2015

Narasimhan K, Kulkarni T, Barzilay R. Language understanding for text-based games using deep reinforcement learning[C]//Proceedings of the EMNLP, 2015.

【5】. 2015年DeepMind团队提出双重深度Q学习网络,该工作发表在AAAI2016

van Hasselt H, Guez A, Silver D. Deep Reinforcement Learning with Double Q-Learning[C]//Thirtieth AAAI Conference on Artificial Intelligence. 2016.

【6】. 2015年德克萨斯大学奥斯汀分校团队在AAAI秋季研讨会上提出结合长短时记忆网络(LSTM)的深度递归Q学习网络模型(DRQN)

贡献:在原有DeepMind的DQN工作中引入了RNN进行长时记忆,在部分特征可见场景下要优于CNN编码固定帧数的问题

Hausknecht M, Stone P. Deep Recurrent Q-Learning for Partially Observable MDPs[C]//2015 AAAI Fall Symposium Series. 2015.

【7】. 2015年DeepHack.Game团队结合基于注意力机制的神经网络模型提出了深度注意力递归Q网络,该工作发表在NIPS2015 Workshop

Sorokin I, Seleznev A, Pavlov M, et al. Deep Attention Recurrent Q-Network[C] //Proceedings of the NIPSWorkshop on Deep Reinforcement Learning, 2015.

【8】. 2015年加拿大国家研究院团队利用DQN和LSTM结合,进行文本生成,其中LSTM进行编解码。该工作发表在NIPS2015 Workshop

Guo H. Generating Text with Deep Reinforcement Learning[C]//Proceedings of the NIPSWorkshop on Deep Reinforcement Learning, 2015.

【9】. 2015年英国赫瑞瓦特大学研究团队利用深度强化学习进行对话管理,该工作发表在NIPS2015 Workshop

Cuayáhuitl H, Keizer S, Lemon O. Strategic Dialogue Management via Deep Reinforcement Learning[C]//Proceedings of the NIPSWorkshop on Deep Reinforcement Learning, 2015.

【10】. 2015年英国赫瑞瓦特大学研究团队利用一个简单基于深度强化学习的对话系统,该工作发表在IWSDS2016

Cuayáhuitl H. SimpleDS: A Simple Deep Reinforcement Learning Dialogue System[C]// International Workshop on Spoken Dialogue Systems (IWSDS), 2016.

【11】. 2016年DeepMind团队在《Nature》杂志上发表了基于深度强化学习的AlphaGo计算机围棋系统介绍

贡献:最大的贡献是向世人展示了AI的强大力量,技术并不难,想法和设计在细节上比较精巧。

Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.

【12】. 2016年剑桥大学团队研究用于口语对话系统策略优化的在线自动奖励学习的工作获得ACL Outstanding论文

Su P H, Gasic M, Mrksic N, et al. On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems[C]//Proceedings of the ACL, 2016.

【13】. 2016年微软研究院团队提出深度强化相关网络Deep Reinforcement Relevance Network (DRRN),解决基于文本的游戏,该工作发表在ACL2016

He J, Chen J, He X, et al. Deep Reinforcement Learning with a Natural Language Action Space[C]//Proceedings of the ACL, 2016.

【14】. 2016年微软研究院团队利用DNQ进行对话策略学习

Lipton Z C, Gao J, Li L, et al. Efficient Exploration for Dialog Policy Learning with Deep BBQ Networks\ & Replay Buffer Spiking[J]. arXiv preprint arXiv:1608.05081, 2016.

【15】. 2016年Maluuba公司研究团队提出两阶段策略网络学习方法的对话系统,该工作发表在 SIGDial 2016

Fatemi M, Asri L E, Schulz H, et al. Policy Networks with Two-Stage Training for Dialogue Systems[C]//SIGDial 2016.

【16】. 2016年斯坦福大学团队研究Deep Reinforcement Learning和Seq2Seq模型结合,增强对话系统的表达能力,发表在EMNLP2016

Li J, Monroe W, Ritter A, et al. Deep Reinforcement Learning for Dialogue Generation[C]//Proceedings of the EMNLP, 2016.

【17】. 2016年DeepMind团队在机器学习国际会议ICML2016上介绍关于深度强化学习的Tutorial.

David Silver. Deep Reinforcement Learning//ICML, 2016.

【18】. 2016年密西根大学研究团队将DQN和MemNN相结合,提出MQN及其变种,该工作发表在ICML2016上。

贡献:是之前DRQN工作的一个推进,引入MemNN表现出更优于RNN的长时记忆特性。

Oh J, Chockalingam V, Singh S, et al. Control of Memory, Active Perception, and Action in Minecraft[C]//Proceedings of the ICML, 2016.

【19】. 2016年麻省理工大学研究团队提出层次化DQN模型,其代码采用Keras实现并开源[code],该工作发表在NIPS2016上。

贡献:将特定任务分解为大目标和子目标,个人感觉虽然效果比DQN效果好很多,但是端到端模型被弱化。

Kulkarni T D, Narasimhan K R, Saeedi A, et al. Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation[J]. arXiv preprint arXiv:1604.06057, 2016.

【20】. 2016年卡耐基梅隆大学研究团队利用深度强化学习进行对话状态追踪和管理

Zhao T, Eskenazi M. Towards End-to-End Learning for Dialog State Tracking and Management using Deep Reinforcement Learning[J]. arXiv preprint arXiv:1606.02560, 2016.

【21】. 2016年微软的研究工作利用端到端强化学习完成智能电影推荐对话系统

Bhuwan Dhingra, Lihong Li, Xiujun Li, et al. End to End Reinforcement Learning of Dialogue Agents for Information Access[J]. arXiv preprint arXiv:1609.00777

深度强化学习[Deep Reinforcement Learning]相关工作》上有 1 条评论

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>