数据挖掘 - 贝叶斯分类
贝叶斯分类基于贝叶斯定理。 贝叶斯分类器是统计分类器。 贝叶斯分类器可以预测类成员概率,例如给定元组属于特定类的概率。
贝叶斯定理
贝叶斯定理以托马斯·贝叶斯的名字命名。 概率有两种类型 −
- 后验概率 [P(H/X)]
- 先验概率 [P(H)]
其中 X 是数据元组,H 是一些假设。
根据贝叶斯定理,
贝叶斯信念网络
贝叶斯置信网络指定联合条件概率分布。 它们也称为信念网络、贝叶斯网络或概率网络。
信念网络允许在变量子集之间定义类条件独立性。
它提供了可以进行学习的因果关系的图形模型。
我们可以使用经过训练的贝叶斯网络进行分类。
定义贝叶斯信念网络有两个组件 −
- 有向无环图
- 一组条件概率表
有向无环图
- 有向无环图中的每个节点都代表一个随机变量。
- 这些变量可以是离散值或连续值。
- 这些变量可能与数据中给出的实际属性相对应。
有向无环图表示
下图显示了六个布尔变量的有向无环图。
图中的弧线可以表示因果知识。 例如,肺癌是否受一个人的肺癌家族史以及该人是否吸烟的影响。 值得注意的是,变量 PositiveXray 与患者是否有肺癌家族史或患者是否吸烟无关,因为我们知道患者患有肺癌。
条件概率表
变量 LungCancer (LC) 值的条件概率表显示其父节点、FamilyHistory (FH) 和 Smoker (S) 值的每种可能组合,如下 −