RL
基本概念
一、数学知识
1)随机变量(Random Variable)
统计学中往往用字母的大小写来区分随机变量和观测值,例如X表示随机变量,x表示观测值
2)概率密度函数(Probability Density Function)
概率密度函数(Probability Density Function)有这样的性质:
3)期望(Expectation)
简单来说,对某一随机变量求期望就是在求它的平均。有微积分基础的可以理解:对于连续的随机变量可以采用求某一段积分来获得期望;而对于离散的随机变量只需求和公式即可。
期望(Expectation)有如下性质:
4)随机抽样(Random Sampling)
举个例子,对于某一随机变量X,可能X产生的值有['R', 'G', 'B']
,那么随机抽样的过程就是在X可能产生的值['R', 'G', 'B']
抽取的过程
二、专业术语(Terminology)
1)状态和动作(State and Action)
状态(State s)
Agent(智能体)在某一时刻t所处的状态,即为State s,常常记为
动作(Action a)
Agent(智能体)在某一时刻t进入状态,做出相应的动作,即为Action a ,常常即为
2)策略(Policy )
在数学上,策略是一个概率密度函数(Probability Density Function),在某一状态时,策略控制Agent做出动作,这里做出的动作是随机抽样得到的。
3)奖励(Reward)
Agent在某一状态中做出一个动作,就会获得一个奖励
4)状态转移(State Transition)
一个状态转移到另一个状态的过程叫做状态转移
5)智能体环境交互过程
6)强化学习中的两种随机性
策略对动作进行随机抽样,状态转移函数对状态进行随机抽样
7)强化学习的训练过程(一个trajectory)
8)回报(Return)
定义为:未来奖励的总和(Cumulative Future Reward),记作,由于每一步我们并不知道的大小,因此是随机变量
由于未来奖励的不确定性,因此强化学习中往往采用折扣回报
定义为:折扣性未来奖励的总和(Cumulative Discounted Future Reward)
回报的随机性(Randomness in Returns)
由于回报取决于奖励,而奖励又是由Agent所进入的状态和做出的动作进行打分而得到的,上文已经提到了在强化学习中状态和动作均具有随机性,因此回报(Return)也具有随机性。
9)动作价值函数(Action-Value Function)
上面讲到了,是一个随机变量,依赖于未来所有的动作A和状态S,因此为了无法评估当前形势。故引入动作价值函数,用对求期望,用积分将随机性积掉,这样就能得到一个实数,用于评估形势。
期望的求取方法:将当成未来所有状态A和S的一个函数,所以除了当前的动作和状态,其余所有的状态和动作都被积掉了,因此这里的对于策略的动作价值函数只取决于当前的动作和状态的观测值
最优动作价值函数(Optimal Action-Value Function):能让动作价值函数最大化的那个
,这里与无关
对于动作状态价值函数的理解