RL
基本概念
一、数学知识
1)随机变量(Random Variable)

统计学中往往用字母的大小写来区分随机变量和观测值,例如X表示随机变量,x表示观测值
2)概率密度函数(Probability Density Function)

概率密度函数(Probability Density Function)有这样的性质:

3)期望(Expectation)
简单来说,对某一随机变量求期望就是在求它的平均。有微积分基础的可以理解:对于连续的随机变量可以采用求某一段积分来获得期望;而对于离散的随机变量只需求和公式即可。
期望(Expectation)有如下性质:

4)随机抽样(Random Sampling)
举个例子,对于某一随机变量X,可能X产生的值有['R', 'G', 'B'],那么随机抽样的过程就是在X可能产生的值['R', 'G', 'B']抽取的过程
二、专业术语(Terminology)
1)状态和动作(State and Action)
状态(State s)
Agent(智能体)在某一时刻t所处的状态,即为State s,常常记为

动作(Action a)
Agent(智能体)在某一时刻t进入状态,做出相应的动作,即为Action a ,常常即为

2)策略(Policy )
在数学上,策略是一个概率密度函数(Probability Density Function),在某一状态时,策略控制Agent做出动作,这里做出的动作是随机抽样得到的。

3)奖励(Reward)
Agent在某一状态中做出一个动作,就会获得一个奖励

4)状态转移(State Transition)
一个状态转移到另一个状态的过程叫做状态转移

5)智能体环境交互过程

6)强化学习中的两种随机性
策略对动作进行随机抽样,状态转移函数对状态进行随机抽样

7)强化学习的训练过程(一个trajectory)

8)回报(Return)
定义为:未来奖励的总和(Cumulative Future Reward),记作,由于每一步我们并不知道的大小,因此是随机变量

由于未来奖励的不确定性,因此强化学习中往往采用折扣回报
定义为:折扣性未来奖励的总和(Cumulative Discounted Future Reward)

回报的随机性(Randomness in Returns)
由于回报取决于奖励,而奖励又是由Agent所进入的状态和做出的动作进行打分而得到的,上文已经提到了在强化学习中状态和动作均具有随机性,因此回报(Return)也具有随机性。
