强化学习的数学基础 Lecture 0: Introduction

Jun 28, 2023

西湖大学赵世钰老师《强化学习的数学原理》笔记整理：课程介绍（P2-P3）。

rl_map

这节课不涉及技术，主要讨论：

1. 为什么开这门课程

目前，关于强化学习有很多资料可供选择，如以下两本经典书籍：

还有一些控制论领域的专家写的书，理论性强，需要控制类的专业背景，不适合初学者。

RL的特点：

\[\mathrm{Math} \Rightarrow \mathrm{Intuition}\] \[\mathrm{Math} \nLeftarrow \mathrm{Intuition}\]

本课已经在西湖大学讲授三次，书稿也已在Github上开源。本课程特点：

2015年AlphaGo第一次战胜围棋2段选手；
2016年3月AlphaGo以4:1战胜李世石（9段）（AlphaGo输的这局是最后一次人类战胜AI）；
2016年12月，Master（AlphaGo马甲）在中国线上创造了60:0的记录；
2017年5月，AlphaGo 3:0战胜柯洁；
2017年10月，AlphaGo Zero以100:0战胜AlphaGo（Zero不再使用人类知识，Nature: Mastering the game of go without human knowledge）

改变了很多人的想法：

RL分类：（分界线：Deep Q-Learning）

Q-Learning：广泛使用的算法，1989年一篇博士论文中被提出。被认为是一种特殊的时序差分算法（temporal-differencing algorithm, 1988年由sutton提出, 1997收敛性得到分析证明)

DP：1957年提出动态规划，用于最优控制、强化学习等。

范畴：

AI
- ML
  - Supervised Learning
  - Unsupervised Learning
  - RL（既不是监督学习、也不是非监督学习）

领域交叉

线上课程同学可跳过这部分。