强化学习的历史

强化学习（Reinforcement Learning）是近年来十分火热的一种机器学习研究领域。随着DeepMind（谷歌旗下的研究机构）的AlphaGo在围棋界战胜人类之后，这类方法开始被人们广泛关注。但是，强化学习并不是突然出现，也不是DeepMind的首创，在很久之前，这种方法已经开始发展，但是近年来，随着AI相关的软硬件能力的提升，强化学习的实用价值也开始显现。本文不涉及强化学习本身的技术细节，仅仅记录这种方法的历史由来。

一、强化学习名词来源

强化学习这个词最早在20世纪60年代开始出现在工程文献中，其中明斯基（Marvin Minsky，参考：Marvin Minsky - Wikipedia）于1961年发表的论文《Steps Toward Artificial Intelligence》中提出的强化学习一词影响最大。明斯基毕业于普林斯顿大学。1954年，他的博士论文《Theory of neural-analog reinforcement systems and its application to the brain-model problem》发表，其核心内容就是提出了一种解决“brain-model”的新方法（也就是模仿人脑的工作方式来设计计算机算法问题）。在这篇论文中，明斯基提到了“reinforcement operator”、“reinforcement process”、“reinforcement system”等概念以及试错学习等。1961的论文发表之后，强化学习这个词开始被广泛使用。

二、强化学习方法历史

尽管强化学习是由明斯基于1961年的论文中首次提出，但是这种试错学习在此之前已经开始发展。目前，大家认为强化学习的来源与两个领域密切相关：即心理学中的动物学习和最优控制的优化理论。

后续还有一些学者陆续提出了其它试错系统来解决这个问题，都是这个方向的强化学习研究。

一、强化学习名词来源

二、强化学习方法历史

DataLearner 官方微信

2.1、心理学的动物学习

2.2、最优控制

三、强化学习的后续发展

热门博客