统计学习(4)--朴素贝叶斯法

摘要

朴素贝叶斯法是基于贝叶斯定理与特征独立假设的分类方法,假设出数据集的输入输出的联合概率分布,然后基于此模型利用贝叶斯定理求出给定的输入x对应的后验概率最大的输出y。

1.贝叶斯定理

贝叶斯学派认为概率是客观事实的可信度,事件A发生存在一个先验概率\(P(A)\)

在事件A条件下事件B发生的概率记为\(P(B|A)\),称为似然概率

相反的,在知道事件B条件下事件A发生的概率为\(P(A|B)\),称为后验概率

他们之间存在关系

\[ P(A \mid B)=P(A) \frac{P(B \mid A)}{P(B)} \]

2.朴素贝叶斯法

以分类问题为例,假设要判别的数据\(Y\)是事件A,已知新实例的特征\(X\)为事件B,则先验概率为

\[ P\left(Y=c_{k}\right), \quad k=1,2, \cdots, K \]

其中c是分类的类别一共有K种。先验概率由主观可能性认定。

在已知新实例特征的情况下,该实例为类别\(c_k\)的可能性为后验概率\(P(Y=c_k \mid X = x)\)

根据贝叶斯公式上式可以等价于

\[ P\left(Y=c_{k} \mid X=x\right)=\frac{P\left(X=x \mid Y=c_{k}\right) P\left(Y=c_{k}\right)}{\sum_{k} P\left(X=x \mid Y=c_{k}\right) P\left(Y=c_{k}\right)} \]

显然后验概率最大的最有可能是这个实例的正确分类。

朴素贝叶斯之所以前面有个朴素,是因为它假设了所有实例特征之间相互独立,根据概率论的知识,独立的事件同时发生的概率就是它们的乘积。

所以上式又可以改写为

\[ y=f(x)=\arg \max _{c_{i}} \frac{P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} \mid Y=c_{k}\right)}{\sum_{k} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} \mid Y=c_{k}\right)} \]

由于上式中的分母都是相同的,而且只要求最大值而不是准确值,所以还可以进一步简化为

\[ y=\arg \max _{c_{k}} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} \mid Y=c_{k}\right) \]

值得一提的是,后验概率最大化等价于期望风险最小化。

3.极大似然估计法

我们现在只要知道先验概率和条件概率,就可以估计出新实例是属于哪一类的了。

某一类别的先验概率可以用训练集中该类的数量占总数量的比例来似然估计,即

\[ P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}, k=1,2, \cdots, K \]

其中N是样本总量,I是判别函数。

同理条件概率也可以同个数数获得,当第j个特征\(x^{(j)}\)的可能取值为\({a_{j1},a_{j2},...,a_{js}}\)

\[ P\left(X^{(j)}=a_{j l} \mid Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)} \]

4.贝叶斯估计

极大似然估计符合人类对样本的直观感受,但可能会因为数据集的问题出现要估计的概率值为0的情况,这可能会影响到后面的计算结果。

为此引入贝叶斯估计,条件概率的贝叶斯估计是

\[ P_{\lambda}\left(X^{(j)}=a_{j l} \mid Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+S_{j} \lambda} \]

其中\(\lambda \ge 0\)等价于在随机变量的各个取值中都赋予一个正数,为1时,称为拉普拉斯平滑。\(S_{j} \lambda\)是为了加上分子中\(\lambda\)后使概率和仍为1.