KL 散度是一种衡量两个概率分布的匹配程度的指标,两个分布差异越大,KL散度越大。
定义如下:(公式建议Edge浏览器)
$D_{KL}(p||q)=\sum_{i=1}^Np(x_i)log(\frac{p(x_i)}{q(x_i)})$
其中 p(x) 是目标分布,q(x)是去匹配的分布,如果两个分布完全匹配,那么
$D_{KL}(p||q)=0$
KL 散度又叫相对熵,在信息论中,描述的是q去拟合p的产品的信息损耗。
KL 散度是非对称,即 D(p||q) 不一定等于 D(q||p) 。
KL 散度经常作为优化的目标。
参考链接:https://www.jianshu.com/p/7b7c0777f74d