
两位开创性的计算机科学家因其在强化学习领域的工作而荣获2024年图灵奖,这是一种机器通过基于奖励的试错方法学习的学科,让它们能够在受限或动态环境中自适应。
安德鲁·G·巴托(Andrew G. Barto)是麻省大学阿默斯特分校的终身教授,理查德·S·萨顿(Richard S. Sutton)是艾伯塔大学的教授,他们通过从上世纪80年代开始一系列开创性的论文开发了关键的算法和理论。这包括针对一种叫做时间差异学习的强化技术的工作;这对组合后来出版了名为《强化学习:一种引论》的学术教材。
尊敬的数学家艾伦·图灵(如上图)是图灵奖的名字来源,他在上世纪50年代发表了一篇名为《计算机与智能》的论文,质疑计算机是否能够思考,并涉及类似的关于通过经验学习的概念。
近年来,强化学习在谷歌DeepMind使用该技术打败全球最顶尖AlphaGo选手之后,受到了更多关注。在过去几个月中,中国人工智能新秀DeepSeek凭借更加具有成本效益的R1推理模型登上了头条,该模型大量采用了强化学习来创建更具实用性的基础模型。
‘计算机界的诺贝尔奖’
由计算机协会(ACM)颁发的图灵奖通常被誉为“计算机界的诺贝尔奖”。然而,诺贝尔奖本身已经开始渗透到计算领域,尤其是围绕人工智能;去年,Geoff Hinton和John Hopfield因其在基础人工智能领域的工作荣获了诺贝尔物理学奖。紧随其后,DeepMind的Demis Hassabis和John Jumper因其在AlphaFold上的工作而获得了诺贝尔化学奖。
ACM主席Yannis Ioannidis在新闻稿中表示:“从认知科学和心理学到神经科学,直接或间接启发了强化学习的发展。它为人工智能的一些重要进展奠定了基础,使我们更深入地了解大脑的工作原理。”Barto和Sutton的工作不仅是我们已经迈出的一块踏脚石。强化学习不断发展,并为计算和许多其他学科的进一步进展提供了巨大潜力。授予他们我们领域中最负盛名的奖项是再合适不过了。”
其他著名的人工智能先驱也曾获得图灵奖,包括Meta的首席人工智能科学家Yann LeCun,他和Geoff Hinton和Yoshua Bengio于2018年因其在深度神经网络上的工作而获奖。
Barto和Sutton将分享100万美元的现金奖励,该奖励获得了来自谷歌的支持。