强化学习的历史
强化学习(Reinforcement Learning)是近年来十分火热的一种机器学习研究领域。随着DeepMind(谷歌旗下的研究机构)的AlphaGo在围棋界战胜人类之后,这类方法开始被人们广泛关注。但是,强化学习并不是突然出现,也不是DeepMind的首创,在很久之前,这种方法已经开始发展,但是近年来,随着AI相关的软硬件能力的提升,强化学习的实用价值也开始显现。本文不涉及强化学习本身的技术细节,仅仅记录这种方法的历史由来。

一、强化学习名词来源
强化学习这个词最早在20世纪60年代开始出现在工程文献中,其中明斯基(Marvin Minsky,参考:Marvin Minsky - Wikipedia)于1961年发表的论文《Steps Toward Artificial Intelligence》中提出的强化学习一词影响最大。明斯基毕业于普林斯顿大学。1954年,他的博士论文《Theory of neural-analog reinforcement systems and its application to the brain-model problem》发表,其核心内容就是提出了一种解决“brain-model”的新方法(也就是模仿人脑的工作方式来设计计算机算法问题)。在这篇论文中,明斯基提到了“reinforcement operator”、“reinforcement process”、“reinforcement system”等概念以及试错学习等。1961的论文发表之后,强化学习这个词开始被广泛使用。
二、强化学习方法历史
尽管强化学习是由明斯基于1961年的论文中首次提出,但是这种试错学习在此之前已经开始发展。目前,大家认为强化学习的来源与两个领域密切相关:即心理学中的动物学习和最优控制的优化理论。
后续还有一些学者陆续提出了其它试错系统来解决这个问题,都是这个方向的强化学习研究。
