交叉熵 Cross Entropy

重新学习 & 记录一下概率论、信息论、交叉熵的概念

独立事件

独立事件的充要条件是：两个事件的联合概率等于它们各自的概率的乘积。也就是说，事件A和事件B是独立的，当且仅当满足以下条件：

P (A \cap B) = P (A) \cdot P (B)

其中， $P (A \cap B)$ 表示事件A和事件B同时发生的概率， $P (A)$ 和 $P (B)$ 分别表示事件A和事件B单独发生的概率。如果上述条件成立，则称事件A和事件B是独立的。

Infomation Theory

香农的信息理论基于下面的 Assumption:

一个事件的概率越低，那么人们就会越感到惊讶，其中蕴含的信息量就会越大。
如果一个事件概率 = 100%，那么其中没有任何信息（说了一句废话）
两个独立事件的信息和应该等于分开计算的信息和。

比如，我们假设事件 $x$ 服从 $P$ ，事件 $x$ 的信息定义为 $I (x)$ , 事件 y 的信息定义为 $I (y)$
$x \cap y) = I (x) + I (y)$

不考虑事件的内容，只考虑事件的分布，该如何衡量事件的信息 $I$ 呢？结合上面两个公式，我们可以发现 $l o g$ 函数完美符合要求，为了让信息量为正数，我们在前面添一个符号，即

I (x) := - l o g [P r (x)] := - l o g (P)

这里 I(x) 是 I_X(x) 的略写，X指随机变量。I(x) 不是指整个事件的信息量，而是指随机变量的信息和。

熵

熵的定义如下：

H (X) = - i = 1 \sum n P (x_{i}) lo g_{?} P (x_{i})

其中， $X$ 是一个离散型随机变量， $P (x_{i})$ 是随机变量 $X$ 取值为 $x_{i}$ 的概率， $n$ 是随机变量 $X$ 的取值个数。熵 $H (X)$ 表示随机变量 $X$ 的不确定性，单位是比特（bit）或纳特（nat），取决于使用的对数底数。当底数为2时，单位是比特；当底数为自然对数 $e$ 时，单位是纳特。

理解熵：

熵对随机变量的信息量按照概率分布做了求和，得到平均信息量 / 信息量的期望
不确定性：不确定越大，概率越小，信息量约大，熵也就越大

KL 散度（Kullback–Leibler divergence）（相对熵）

KL散度，有时候也叫KL距离，一般被用于计算两个分布之间的不同。