散度

KL (Kullback-Leibler) Divergence

KL散度又称相对熵，为信息散度（增益），是两个概率分布P和Q之间差别的非对称的度量，即度量使用基于Q的编码方式对P进行编码所需的额外bits数，P表示数据的真实分布，则Q表示P的近似分布。

D_{K L} (P ∥ Q) = x \in X \sum P (x) lo g \frac{1}{Q ( x )} - x \in X \sum P (x) lo g \frac{1}{P ( x )} = x \in X \sum P (x) lo g \frac{P ( x )}{Q ( x )}

KL散度性质：

KL散度局限性：

当两个分布距离很远，完全没有重叠时，KL散度值失去意义。

单变量高斯分布概率密度：

N (x ∣ μ, σ^{2}) = \frac{1}{2 π σ ^{2}} e^{- \frac{1}{2 σ ^{2}} (x - μ)^{2}}

多变量高斯分布概率密度，其中Σ为协方差矩阵：

N (x ∣ μ, Σ) = \frac{1}{( 2 π ) ^{n /2} ∣Σ ∣ ^{1/2}} e^{- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)}

JS散度是基于KL散度的变形，度量两个概率分布的相似度，解决了KL散度非对称的问题，一般是对称的，取值在0到1之间。

D_{J S} (P ‖ Q) = \frac{1}{2} D_{K L} (P ‖ \frac{P + Q}{2}) + \frac{1}{2} D_{K L} (Q ‖ \frac{P + Q}{2})

JS散度性质：

JS散度局限性：

当两个分布距离很远，完全没有重叠时，JS散度为一个常数，在学习算法中也就意味着这一点的梯度为0，即梯度消失。

TV散度是另一种用于衡量概率分布之间差异的指标，定义为：

D_{T V} (P, Q) = \frac{1}{2} x \sum ∣ P (x) - Q (x) ∣

TV散度的特点包括：