机器学习07：概率图模型(PGM)1

Posted on 2024-03-03 Edited on 2024-08-07 In 机器学习笔记 Views:

先总结了随机变量分布的一些规则，接着介绍了有向图/贝叶斯网络和无向图/马尔可夫随机场。

概率知识

概率图模型使用图的方式表示概率分布。为了在图中添加各种概率，首先总结一下随机变量分布的一些规则：可以看到，在链式法则中，如果数据维度特别高，那么的采样和计算非常困难，我们需要在一定程度上作出简化，在朴素贝叶斯中，作出了条件独立性假设。在 Markov 假设中，给定数据的维度是以时间顺序出现的，给定当前时间的维度，那么下一个维度与之前的维度独立。在 HMM 中，采用了齐次 Markov 假设。在 Markov 假设之上，更一般的，加入条件独立性假设，对维度划分集合，使得。

有向图-贝叶斯网络

已知联合分布中，各个随机变量之间的依赖关系，那么可以通过拓扑排序（根据依赖关系）可以获得一个有向图。而如果已知一个图，也可以直接得到联合概率分布的因子分解：那么实际的图中条件独立性是如何体现的呢？在局部任何三个节点，可以有三种结构：

head to tail

   graph TB;
 A((A))-->B((B));
 B-->C((C));

tail to tail

   graph TB;
 B((B))-->A((A));
 B-->C((C));

head to head
```
   graph TB;
 A((A))-->B((B));
 C((C))-->B
```
对这种结构，不与条件独立。

从整体的图来看，可以引入 D 划分的概念。对于类似上面图 1和图 2的关系，引入集合A，B，那么满足的集合中的点与中的点的关系都满足图 1，2，满足图3 关系的点都不在中。

更加详细的说，对于集合，当满足下面两条划分规则的时候，可以得到

，若，使得 $、、$ 满足上面head to tail的情况，则
，若，使得 $、、$ 满足上面head to head的情况，则，且B的后继、后继的后继……都不属于集合

这一结论也被称为全局Markov性

D 划分应用在贝叶斯定理中：可以发现，上下部分可以分为两部分，一部分是和相关的，另一部分是和无关的，而这个无关的部分可以相互约掉。于是计算只涉及和相关的部分。

与相关的部分可以写成：这些相关的部分又叫做 Markov 毯(Markov blanket)。

无向图-马尔可夫网络（马尔可夫随机场）

无向图没有了类似有向图的局部不同结构，在马尔可夫网络中，也存在 D 划分的概念。直接将条件独立的集合划分为三个集合。这个也叫全局 Markov。对局部的节点，。这也叫局部 Markov。对于成对的节点：，其中不能相邻。这也叫成对 Markov。事实上上面三个点局部全局成对是相互等价的。

有了这个条件独立性的划分，还需要因子分解来实际计算。引入团的概念：

团，最大团：图中节点的集合，集合中的节点之间相互都是直接连接的叫做团，如果一个团不能再添加节点，那么叫最大团。

利用这个定义进行的所有维度的联合概率分布的因子分解如下：

对于变量集合，所有的团构成的集合为，与团对应的变量集合为，则联合概率

其中就是对所有可能取值求和（归一化因子）

其中叫做势函数，它必须是一个正值，用于对团中的变量关系进行建模，可以记为：这个分布叫做 Gibbs 分布（玻尔兹曼分布）。于是也可以记为：。这个分解和条件独立性等价（Hammesley-Clifford 定理），这个分布的形式也和指数族分布形式上相同，于是满足最大熵原理。