机器学习07:概率图模型(PGM)1

先总结了随机变量分布的一些规则,接着介绍了有向图/贝叶斯网络和无向图/马尔可夫随机场。

概率知识

概率图模型使用图的方式表示概率分布。为了在图中添加各种概率,首先总结一下随机变量分布的一些规则: 可以看到,在链式法则中,如果数据维度特别高,那么的采样和计算非常困难,我们需要在一定程度上作出简化,在朴素贝叶斯中,作出了条件独立性假设。在 Markov 假设中,给定数据的维度是以时间顺序出现的,给定当前时间的维度,那么下一个维度与之前的维度独立。在 HMM 中,采用了齐次 Markov 假设。在 Markov 假设之上,更一般的,加入条件独立性假设,对维度划分集合 ,使得

有向图-贝叶斯网络

已知联合分布中,各个随机变量之间的依赖关系,那么可以通过拓扑排序(根据依赖关系)可以获得一个有向图。而如果已知一个图,也可以直接得到联合概率分布的因子分解: 那么实际的图中条件独立性是如何体现的呢?在局部任何三个节点,可以有三种结构:

  1. head to tail

       graph TB;
     A((A))-->B((B));
     B-->C((C));

  2. tail to tail

       graph TB;
     B((B))-->A((A));
     B-->C((C));

  3. head to head

       graph TB;
     A((A))-->B((B));
     C((C))-->B

    对这种结构, 不与 条件独立。

从整体的图来看,可以引入 D 划分的概念。对于类似上面图 1和图 2的关系,引入集合A,B,那么满足 集合中的点与 中的点的关系都满足图 1,2,满足图3 关系的点都不在 中。

更加详细的说,对于集合,当满足下面两条划分规则的时候,可以得到

  1. ,若,使得满足上面head to tail的情况,则
  2. ,若,使得满足上面head to head的情况,则,且B的后继、后继的后继……都不属于集合

这一结论也被称为全局Markov性

D 划分应用在贝叶斯定理中: 可以发现,上下部分可以分为两部分,一部分是和 相关的,另一部分是和 无关的,而这个无关的部分可以相互约掉。于是计算只涉及和 相关的部分。

相关的部分可以写成: 这些相关的部分又叫做 Markov 毯(Markov blanket)。

无向图-马尔可夫网络(马尔可夫随机场)

无向图没有了类似有向图的局部不同结构,在马尔可夫网络中,也存在 D 划分的概念。直接将条件独立的集合 划分为三个集合。这个也叫全局 Markov。对局部的节点,。这也叫局部 Markov。对于成对的节点:,其中 不能相邻。这也叫成对 Markov。事实上上面三个点局部全局成对是相互等价的。

有了这个条件独立性的划分,还需要因子分解来实际计算。引入团的概念:

团,最大团:图中节点的集合,集合中的节点之间相互都是直接连接的叫做团,如果一个团不能再添加节点,那么叫最大团。

利用这个定义进行的 所有维度的联合概率分布的因子分解如下:

对于变量集合,所有的团构成的集合为,与团对应的变量集合为,则联合概率

其中 就是对所有可能取值求和(归一化因子)

其中 叫做势函数,它必须是一个正值,用于对团中的变量关系进行建模,可以记为: 这个分布叫做 Gibbs 分布(玻尔兹曼分布)。于是也可以记为:。这个分解和条件独立性等价(Hammesley-Clifford 定理),这个分布的形式也和指数族分布形式上相同,于是满足最大熵原理。