11月26日,加拿大阿尔伯塔大学计算机科学教授,2024年图灵奖得主,“强化学习之父”理查德·萨顿(Richard Sutton)到访心理与认知科学系。

交流活动现场


萨顿参观心理系系馆和实验室
萨顿围绕“AI的未来:体验时代与设计纪元”的主题与师生进行互动,该环节由刘嘉主持。萨顿指出,经典条件反射(预测)和操作条件反射(控制)共同构成了强化学习的基础框架;而智能的核心在于“目标”,这一目标不应被限定为“更好地模仿人类”,而应着眼于主体通过与环境互动积累经验,进而习得关于世界的通用知识。他强调,当前大语言模型的发展主要关注语言模仿与安全对齐,但迈向通用人工智能的可行路径或许在于持续监督学习与持续强化学习的结合,让系统不断与环境互动并自我进化。萨顿表示,他对强化学习方法的未来充满信心,并认为当下迫切需要在一些关键的深度学习方向上取得突破,例如人工神经网络的持续学习能力。
谈及自身经历,萨顿分享了他从心理学本科转向计算机科学研究、最终成为强化学习与控制理论核心人物的跨学科之路。他表示,心理学对生物学习机制的理解是他的“秘密武器(secret weapon)”,并鼓励青年学者勇于在跨学科领域探索,在非共识问题上保持开放与创新。

萨顿分享科研经历


提问互动
开放思维研究所执行主席、Finalytix公司联合创始人奥马尔·拉纳(Omar Rana),华为战略研究院首席架构师罗军,欧亚系统科学研究会副秘书长陈怀远,心理系党委书记李颍、副主任伍珍,计算机系博世AI教授、人工智能研究院副院长朱军,交叉信息研究院助理教授许华哲,猿编程创始人李翊等也出席了交流活动。
理查德·萨顿作为强化学习领域奠基人,他提出时间差分学习、策略梯度方法等核心理论,成果广泛应用于AlphaGo、ChatGPT的RLHF技术等突破性系统。此次萨顿与心理系师生的交流,不仅加深了大家对当下人工智能技术发展趋势的理解,也为心理学与人工智能交叉研究启发了新的思考方向,也进一步促进了心理系在“AI×认知科学”领域的国际学术交流。本次访问对于拓展师生视野、激发科研灵感、推动学科融合都具有重要意义。