机器学习06:指数族分布(ExponentialFamilyDistribution)
我们需要先补充一些概率论知识。
指数族是一类分布,包括高斯分布、伯努利分布、二项分布、泊松分布、Beta 分布、Dirichlet 分布、Gamma 分布等一系列分布。指数族分布可以写为统一的形式:
在这个式子中,
对于一个模型分布假设(似然),那么我们在求解中,常常需要寻找一个共轭先验,使得先验与后验的形式相同,例如选取似然是二项分布,可取先验是 Beta 分布,那么后验也是 Beta 分布。指数族分布常常具有共轭的性质,于是我们在模型选择以及推断具有很大的便利。
共轭先验的性质便于计算,同时,指数族分布满足最大熵的思想(无信息先验),也就是说对于经验分布利用最大熵原理导出的分布就是指数族分布。
观察到指数族分布的表达式类似线性模型,事实上,指数族分布很自然地导出广义线性模型:
在推断的算法中,例如变分推断中,指数族分布也会大大简化计算。
一维高斯分布
一维高斯分布可以写成:
充分统计量和对数配分函数的关系
对概率密度函数求积分:
充分统计量和极大似然估计
对于独立全同采样得到的数据集
最大熵
信息熵记为:
一般地,对于完全随机的变量(等可能),信息熵最大。
我们的假设为最大熵原则,假设数据是离散分布的,
个特征的概率分别为 ,最大熵原理可以表述为: 利用 Lagrange 乘子法: 于是可得: 因此等可能的情况熵最大。
一个数据集
对任意一个函数,经验分布的经验期望可以求得为: