机器学习06:指数族分布(ExponentialFamilyDistribution)

我们需要先补充一些概率论知识。

指数族是一类分布,包括高斯分布、伯努利分布、二项分布、泊松分布、Beta 分布、Dirichlet 分布、Gamma 分布等一系列分布。指数族分布可以写为统一的形式: 其中, 是参数向量, 是对数配分函数(log partition function)(归一化因子),

在这个式子中, 叫做充分统计量,包含样本集合所有的信息,例如高斯分布中的均值和方差。充分统计量在在线学习中有应用,对于一个数据集,只需要记录样本的充分统计量即可。

对于一个模型分布假设(似然),那么我们在求解中,常常需要寻找一个共轭先验,使得先验与后验的形式相同,例如选取似然是二项分布,可取先验是 Beta 分布,那么后验也是 Beta 分布。指数族分布常常具有共轭的性质,于是我们在模型选择以及推断具有很大的便利。

共轭先验的性质便于计算,同时,指数族分布满足最大熵的思想(无信息先验),也就是说对于经验分布利用最大熵原理导出的分布就是指数族分布。

观察到指数族分布的表达式类似线性模型,事实上,指数族分布很自然地导出广义线性模型: 在更复杂的概率图模型中,例如在无向图模型中如受限玻尔兹曼机中,指数族分布也扮演着重要作用。

在推断的算法中,例如变分推断中,指数族分布也会大大简化计算。

一维高斯分布

一维高斯分布可以写成: 将这个式子改写: 所以: 于是

充分统计量和对数配分函数的关系

对概率密度函数求积分: 两边对参数求导: 类似的: 由于方差为正,于是 一定是凸函数。

充分统计量和极大似然估计

对于独立全同采样得到的数据集 。 $$ $$ 由此可以看到,为了估算参数,只需要知道充分统计量就可以了。

最大熵

信息熵记为:

一般地,对于完全随机的变量(等可能),信息熵最大。

我们的假设为最大熵原则,假设数据是离散分布的, 个特征的概率分别为 ,最大熵原理可以表述为: 利用 Lagrange 乘子法: 于是可得: 因此等可能的情况熵最大。

一个数据集 ,在这个数据集上的经验分布为 ,实际不可能满足所有的经验概率相同,于是在上面的最大熵原理中还需要加入这个经验分布的约束。

对任意一个函数,经验分布的经验期望可以求得为: 于是: Lagrange 函数为: 求导得到: 由于数据集是任意的,对数据集求和也意味着求和项里面的每一项都是0: 这就是指数族分布。