基本概念
数学知识
随机变量(Random Variable)

统计学中往往用字母的大小写来区分随机变量和观测值,例如 X 表示随机变量,x 表示观测值
概率密度函数(Probability Density Function)

概率密度函数(Probability Density Function)有这样的性质:

期望(Expectation)
简单来说,对某一随机变量求期望就是在求它的平均。有微积分基础的可以理解:对于连续的随机变量可以采用求某一段积分来获得期望;而对于离散的随机变 量只需求和公式即可。
期望(Expectation)有如下性质:

随机抽样(Random Sampling)
举个例子,对于某一随机变量 X,可能 X 产生的值有 ['R', 'G', 'B'],那么随机抽样的过程就是在 X 可能产生的值 ['R', 'G', 'B'] 抽取的过程
专业术语(Terminology)
状态和动作(State and Action)
状态(State s)
Agent(智能体)在某一时刻 t 所处的状态,即为 State s,常常记为

动作(Action a)
Agent(智能体)在某一时刻 t 进入状态,做出相应的动作,即为 Action a ,常常即为

策略(Policy )
在数学上,策略是一个概率密度函数(Probability Density Function),在某一状态时,策略控制 Agent 做出动作,这里做出的动作是随机抽样得到的。

奖励(Reward)
Agent 在某一状态中做出一个动作,就会获得一个奖励

状态转移(State Transition)
一个状态转移到另一个状态的过程叫做状态转移

智能体环境交互过程
