统计学习(6)--逻辑斯谛回归

发表于 2022-12-26 更新于 2022-12-30 分类于学习笔记，计算机本文字数： 2.2k 阅读时长 ≈ 2 分钟

摘要

逻辑斯谛回归模型利用了逻辑斯谛方程的对数特性，将特征参数映射到[0，1]之间，将问题转换为概率预测，从而实现判别。

1.逻辑斯谛方程

学过数学建模的应该都知道，逻辑斯谛方程最早提出是用于人口增长模型。下面进行一个简单的推导。

假设人口随时间的函数是\(W(t)\)，人口增长率为\(\beta\)，则人口增长的微分方程为

\[ \frac{\mathrm{d} W(t)}{\mathrm{d} t} = \beta W(t) \]

解得

\[ W(t) = \exp （\beta t + C） \]

这种指数爆炸型增长是不太可能发生的，毕竟资源是有限的，所以人口增长应该还要和生物容量\(K\)有关，再重新写出微分方程,这里的\(\beta\)和上面的可能存在数值上的差异。

\[ \frac{\mathrm{d} W(t)}{\mathrm{d} t} = \beta W(t) (K-W(t)) \]

这就是逻辑斯谛方程的微分形式，其实这个方程虽然是推猜出来的，但其蕴含了一定的自然规律，所以他从人口模型应用到了其他各个领域，这点和傅里叶变换不谋而合。

2.逻辑斯谛分布

现在我不关心数量了，我更想知道现在的人口占总容量的多少，记比例为\(P(t)\)我们有\(P(t)=W(t)/K\)

对于P(t)有

\[ \begin{align} \frac{\mathrm{d} P(t)}{\mathrm{d} t} &= \frac{\mathrm{d} (W(t)/K)}{\mathrm{d} t} \\ &= \frac{\beta}{K}W(t)(K-W(t)) \\ &= K\beta P(t)[1-P(t)] \end{align} \]

等式就变成了微分方程 \[ \frac{1}{P[1-P]} P \mathrm{d} P = C * \mathrm{d} t \] 其中C是常数

解方程得

\[ P = \frac{\exp{(\alpha+\beta t)}}{1+\exp{(\alpha+\beta t)}}\tag{式1} \]

其中\(\alpha\)和\(\beta\)是常数，令\(x = \alpha+\beta t\)

将上式函数绘制出来就如下图

P的物理意义是占比，也就是说它的取值范围在\([0-1]\)之间，这和概率不谋而合，将这个函数视作概率密度函数，可以得到逻辑斯谛分布函数方程和图如下

\[ F(x)=P(X \leqslant x)=\frac{1}{1+\mathrm{e}^{-(x-\mu) / \gamma}} \]

\[ f(x)=F^{\prime}(x)=\frac{\mathrm{e}^{-(x-\mu) / \gamma}}{\gamma\left(1+\mathrm{e}^{-(x-\mu) / \gamma}\right)^{2}} \]

其中\(\mu\)为位置参数，\(\gamma>0\)是形状参数。

3.二项逻辑斯谛回归模型

对于二分类问题，使用统计学习中常用的\(w\)和\(b\)来代替式1的\(\beta\)和\(\alpha\),可以得到

\[ P = \frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)} \]

我们人为假定这个P是实例x在参数\(w\)和\(b\)条件下分类为1的概率，毕竟参数是可以训练的，那么有

\[ P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x+b)} \]

两者的和为1，使用训练集训练数据后，对于新实例，只需要计算两者的概率让后进行归类即可。

模型的参数可以使用极大似然估计法来得到，设

\[ P(Y=1 \mid x)=\pi(x), \quad P(Y=0 \mid x)=1-\pi(x) \]

似然函数为

\[ \prod_{i=1}^{N}\left[\pi\left(x_{i}\right)\right]^{y_{i}}\left[1-\pi\left(x_{i}\right)\right]^{1-y_{i}} \]

对数似然函数为

\[ \begin{aligned} L(w) & =\sum_{i=1}^{N}\left[y_{i} \log \pi\left(x_{i}\right)+\left(1-y_{i}\right) \log \left(1-\pi\left(x_{i}\right)\right)\right] \\ & =\sum_{i=1}^{N}\left[y_{i} \log \frac{\pi\left(x_{i}\right)}{1-\pi\left(x_{i}\right)}+\log \left(1-\pi\left(x_{i}\right)\right)\right] \\ & =\sum_{i=1}^{N}\left[y_{i}\left(w \cdot x_{i}\right)-\log \left(1+\exp \left(w \cdot x_{i}\right)\right]\right. \end{aligned} \]

对\(L(w)\)用梯度下降法求极大值即可得到估计值。

最后给出多项逻辑斯谛回归的公式

\[ P(Y=k \mid x)=\frac{\exp \left(w_{k} \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)}, \quad k=1,2, \cdots, K-1 \]

参考资料

[1] 《统计学习方法》李航