【逻辑回归】Logistic Regression逻辑回归模型学习笔记

文章目录

- - 序言
  - 1. 线性回归
  - 2. 逻辑回归
  - - 2.1 引入逻辑回归的原因
    - 2.2 逻辑回归
    - 2.3 逻辑回归的应用
  - 3. 逻辑函数
  - - 3.1 sigmoid函数
    - 3.2 sigmoid函数的性质
    - 3.3 决策边界
    - 3.4 对数几率
  - 4. 损失函数
  - - 4.1 为什么说逻辑回归时概率类模型
    - 4.2 为什么要进行极大似然估计
    - 4.3 利用MLE如何推导出损失函数
    - 4.4 损失函数/代价函数/目标函数
  - 5. 最优化问题
  - 6. sigmoid和softmax
  - 7. LR模型的性质和优缺点
  - - 7.1 逻辑回归与线性回归的联系与区别
    - 7.2 逻辑回归的优缺点
  - 8. LR模型实例
  - - 8.1 sklearn导入LR模型实现鸢尾花分类
    - 8.2 单层线性网络实现LR的鸢尾花分类
  - 9. 疑问厘清

序言

总结逻辑回归模型，LR模型实例

1. 线性回归

一元线性回归： $y = a + b x$
多元线性回归： $z = h(x) = w_{0}x_{0} + w_{1}x_{1}+ w_{2}x_{2} +...+w_{n}x_{n} = W^{T} X$
- 每个样本 $n$ 个特征，每个特征 $x_{i}$ 都有对应的权值 $w_{i}$
- $x_{0} = 1$ ， $w_{0}$ 其实是偏置量，为了公式简洁和方便计算
不管是一元线性回归分析还是多元线性回归分析，都是线性回归分析

2. 逻辑回归

2.1 引入逻辑回归的原因

在一些特别的情况下, 线性回归可以用于分类问题, 找到分类的阈值, 但是一旦样本点出现分布不均匀, 会导致线性方程的参数产生偏移, 造成严重的误差
另一方面, 我们希望分类模型的输出是0,1即可, 线性回归的值域在 $(-\infty , +\infty )$ , 是连续的, 不满足我们的要求

2.2 逻辑回归

逻辑回归与线性回归都是广义线性模型, 线性回归假设Y|X服从高斯分布, 逻辑回归假设Y|X服从伯努利分布
逻辑回归以线性回归为理论支持, 通过逻辑函数(Sigmoid函数)引入非线性因素。逻辑回归的思路就是将线性回归的结果z通过逻辑函数g(z)从 $(-\infty , +\infty )$ 映射到(0,1), 再通过决策边界建立与分类的概率联系
逻辑回归虽然带有"回归"二字, 但却是一种分类模型, 最常见的是用于处理二分类问题
逻辑回归假设数据服从伯努利分布(二项分布，0-1分布)，通过极大似然估计的方法，运用梯度下降法求解参数，来达到将数据二分类的目的

2.3 逻辑回归的应用

逻辑回归模型广泛用于各个领域，包括机器学习，大多数医学领域和社会科学
逻辑回归模型也用于预测在给定的过程中，系统或产品的故障的可能性
逻辑回归模型现在同样是很多分类算法的基础组件，其模型清晰有对应的概率学理论基础，是理解数据的好工具

3. 逻辑函数

3.1 sigmoid函数

$\frac{1}{1+e^{-z} }$

sigmoid函数图像

3.2 sigmoid函数的性质

任意输入压缩到0-1之间
任意阶可导, 函数在z = 0处的导数最大
函数满足关系： $g (- z) = 1 - g (z)$
导函数满足关系： $\frac{\partial g(z)}{\partial z} = g(z)(1-g(z))$
函数两边梯度趋于饱和, 容易导致梯度消失
- z=5时，g(z)已经在0.99以上

3.3 决策边界

将线性回归结果带入g(z)函数, 得到0~1之间的概率值, 如果认为p > 0.5属于一类, 否则是另一类, 那么0.5就是决策边界

3.4 对数几率

逻辑函数做如下抓换

$\frac{1}{1+e^{-z} } \Rightarrow g(z)*(1+e^{-z} )=1 \Rightarrow e^{-z} = \frac{1}{g(z)}-1 \Rightarrow -z=ln(\frac{1-g(z)}{g(z)} ) \Rightarrow z=ln(\frac{g(z)}{1-g(z)} )$

上式中， $\theta ^{T} X = W^{T}X$
如果将逻辑回归结果 $g (z)$ 看成某个事件发生的概率，事件不发生的概率就是 $1 - g (z)$ ，两者比值称之为几率odds
令 $g (z) = p$ ，得到如下公式

$\theta ^{T} X=ln(\frac{g(z)}{1-g(z)})=ln(\frac{p}{1-p} )=ln(几率)=ln(odds)$

也就是说，线性回归的结果（即 $z=\theta ^{T} X$ ）等于对数几率。所以逻辑回归模型也叫对率回归模型

4. 损失函数

逻辑回归的假设有两个
- 假设数据服从伯努利分布
- 假设模型的输出值是样本为正例的概率
基于这两个假设，可以分别得到类别为正例1和反例0的后验概率估计：

$p(y=1|x,\theta )=h_{\theta } (x)=\frac{1}{1+e^{-x\theta } }$

$p(y=0|x,\theta )=1- h_{\theta } (x)=\frac{e^{-x\theta } }{1+e^{-x\theta } }$

4.1 为什么说逻辑回归时概率类模型

直接建模了目标变量0-1的条件概率, 如上, 通过逻辑函数sigmoid将线性回归模型的输出转换为概率值，从而预测给定输入特征下目标变量取某个值(0或1)的概率
在实际应用中, 可以根据逻辑回归模型输出的概率值来做出决策(决策边界)
逻辑回归输出的概率值有明确的概率解释

4.2 为什么要进行极大似然估计

首先模型训练的目的是找到最能描述观测到的结果的模型, 在逻辑回归中, 意味着找到一组参数, 使得在给定输入特征下, 模型预测的结果与观测到的结果最为接近
如果使用线性回归的损失函数如MSE等来评估模型的训练过程, 由于所得函数非凸, 而且有很多局部极小值, 不利于求解。如下图所示

结合上面所述, 逻辑回归是概率模型, 可以通过似然估计来推导其损失函数

4.3 利用MLE如何推导出损失函数

逻辑回归的交叉熵损失函数是通过最大似然估计出来的
什么是极大似然估计
- 极大似然估计是建立在极大似然原理的基础上的一个统计方法，是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计
（1）以上通过基本假设得到了1和0两类的后验概率，现在将两个概率合并可得到

$p(y|x,\theta )=h_{\theta }(x)^{y} (1-h_{\theta }(x))^{1-y} , y\in {0,1}$
$\qquad$ $\qquad$ 当 $y = 1$ 时，上式为类别1的后验概率；当 $y = 0$ 时，上式为类别0的后验概率

（2）我们假定样本数据都是独立同分布的（是逻辑回归的基本假设->联合分布可用乘法），使用极大似然估计来根据给定的训练数据集估计出模型参数，讲n个训练样本的概率相乘得到
$L(\theta )=\prod_{i=1}^{n} p(y^{(i)} |x^{(i)} ,\theta )=\prod_{i=1}^{n} h_{\theta }(x^{(i)} )^{y^{(i)} } (1-h_{\theta }(x^{(i)} ))^{1-y^{(i)} }$
（3）似然函数是相乘的模型，可以通过取对数将右边变为相加的模型，然后将指数提前便于求解。变换后如下
$l(\theta )=ln(L(\theta ))=\sum_{i=1}^{n} y^{(i)}ln[h_{\theta }(x^{(i)} )] +(1-y^{(i)} )ln[1-h_{\theta }(x^{(i)} )]$
$\qquad$ 引入不改变函数单调性的对数函数ln，把连乘变成加法。使用对数似然函数，不仅仅把连乘变成加法，便于求解，而且对数似然函数对应的损失函数是关于未知参数 $\theta$ 的高阶连续可导的凸函数，便于求解全局最优解
（4）如果取整个数据集上的平均对数似然损失，可以得到
$J(\theta )=-\frac{1}{n} l(\theta )=-\frac{1}{n} ln(L(\theta ))$
$\qquad$ 如上公式的 $J(\theta)$ 为对数损失函数（二元交叉损失熵），由对数似然函数添加负号取平均得到，即在逻辑回归模型中，最大化似然函数与最小化损失函数实际上是等价的，即求最大化似然函数的参数 $\theta$ 与求最小化平均对数似然损失函数对应的参数 $\theta$ 是一致的，那么有
$\max ln(L(\theta ))\Leftrightarrow \min J(\theta)$
$\qquad$ 之所以要加负号，是因为机器学习的目标是最小化损失函数，而极大似然估计法的目标是最大化似然函数。加个负号，正好使二者等价
（5）我们将对数损失函数最小化，如此得到参数的最大似然估计。对数损失函数的公式：
$J(\theta )=-\frac{1}{n} \left [ \sum_{i=1}^{n} y^{(i)}ln[h_{\theta }(x^{(i)} )] +(1-y^{(i)} )ln[1-h_{\theta }(x^{(i)} )] \right ]$
$\qquad$ 其中 $y^{(i)}$ 表示样本取值，正样本时取值为1，负样本时取值为0。我们分两种情况来分析
$Cost(h_{\theta }(x),y)=\begin{cases} -ln(h_{\theta }(x)) & \text{ if } y=1 \\ -ln(1-h_{\theta }(x)) & \text{ if } y=0 \end{cases}$

$\qquad$ 当 $y = 1$ ，正样本，若 $h_{\theta }(x^{(i)} )$ 结果接近0，即预测为负样本，那么 $-ln(h_{\theta }(x))$ 就会很大，如下图，损失就大得到的惩罚就大

$\qquad$ 当 $y = 0$ ，负样本，若 $h_{\theta }(x^{(i)} )$ 结果接近1，即预测为正样本，那么 $h_{\theta }(x))$ 就会很大，如下图，损失就大得到的惩罚就大

$\qquad$ 这种惩罚的存在，模型会倾向于让预测输出更接近于真实样本标签 $y$

（6）如何求得损失函数最小对应的参数呢，使用梯度下降法，损失函数对特征 $j$ 求偏导， $i$ 表示样本

$\qquad$ 至此，我们找到了梯度下降的方向，只要给定一个步长就可以用迭代的方式来求待求参数，迭代的公式为：

$\theta _{j}^{(k+1)} =\theta _{j}^{(k)} -\alpha F$
$\qquad$ 其中 $\alpha$ 为学习率，是一个大于零的数，控制沿着某个方向走多长一段距离， $F$ 为下降方向
$F=\frac{\partial J(\theta )}{\partial \theta _{j} }$
$\qquad$ 所以参数迭代公式可写为：
$\theta _{j}^{(k+1)} =\theta _{j}^{(k)} -\alpha *\frac{1}{n} \sum_{i=1}^{n} [h(\theta ^{T}x^{(i)} )-y^{(i)}] *x_{j}^{(i)}$
$\qquad$ 当迭代到一定次数或学习曲线小于某个阈值时，停止迭代。

4.4 损失函数/代价函数/目标函数

损失函数：Loss Function，直接作用于单个样本，用来表达样本的误差
代价函数：Cost Function，整个样本集的平均误差，对所有损失函数的平均
- 经过上面公式的推导可知，一个好的代价函数需要满足两个基本的要求：能评价模型的准确性，对参数 $\theta$ 可微
目标函数：Object Function，是我们最终要优化的函数

5. 最优化问题

按照章节4中的推导，我们的目标就是最小化损失函数
$J(\theta )=-\frac{1}{n} \left [ \sum_{i=1}^{n} y^{(i)}ln[h_{\theta }(x^{(i)} )] +(1-y^{(i)} )ln[1-h_{\theta }(x^{(i)} )] \right ]$
通过梯度下降法求解，参数迭代公式

$\theta _{j}^{(k+1)} =\theta _{j}^{(k)} -\alpha *\frac{1}{n} \sum_{i=1}^{n} [h(\theta ^{T}x^{(i)} )-y^{(i)}] *x_{j}^{(i)}$

6. sigmoid和softmax

sigmoid用于二分类问题
softmax用于多分类问题, softmax函数的定义
$softmax(z_{i} )=\frac{exp(z_{i} )}{ {\textstyle \sum_{j=1}^{K}}exp(z_{j} ) } ,1 \le i\le K$
与 sigmoid 一样，softmax 也具有将异常值压向 0 或 1 的特性
多分类问题使用softmax, 使用sigmoid通过One_vs_Rest为每个类别训练一个LR模型也能达成多分类目的

7. LR模型的性质和优缺点

7.1 逻辑回归与线性回归的联系与区别

区别
- 线性回归假设因变量(回归结果)服从正态分布，逻辑回归假设因变量(分类结果)服从伯努利分布(0-1分布，二项分布)
- 线性回归的损失函数是均方差MSE，而逻辑回归的损失函数是似然函数(最大化)/对数损失函数(最小化)
- 线性回归要求自变量和因变量呈线性关系，而逻辑回归没有要求
- 线性回归分析的是因变量与自变量的关系，逻辑回归无法表达变量之间的关系，辑回归研究的是因变量取值的概率与自变量的概率
- 线性回归处理的是回归问题，逻辑回归处理的是分类问题
- 线性回归要求自变量是连续数值变量，逻辑回归要求因变量是离散的变量
- 线性回归取值范围实数域，逻辑回归取值范围0-1
联系
- 两个都是线性模型。线性回归是普通线性模型，逻辑回归是广义线性模型
- 表达形式上，逻辑回归是线性回归的结果套上一个sigmoid函数

7.2 逻辑回归的优缺点

优点
- 无需假设数据分布，直接对分类的可能性建模，避免对数据分布假设不准确带来的问题
- 不仅能预测出类别，还能得到类别的概率，输出值在0-1之间，有概率意义
- 对率函数是任意阶可导的凸函数，可直接用于求解最优解
- 原理简单，模型清晰，操作高效，容易使用和解释，计算代价低，速度很快，存储资源低
- 可进行在线算法实现，用较小资源处理较大数据
- 对数据中小噪声鲁棒性好
- 结果是概率，可用作排序模型
- 求出来的参数代表每个特征对输出的影响，可解释性强
- 解决过拟合方法很多，如L1/L2正则化，L2正则化可以解决多重共线性问题
缺点
- 对数据依赖强，很多时候需要做特征工程
- 主要用来解决线性可分问题，对于非线性特征需要进行转换
- 由于它是一个线性的分类器，处理不好特征相关的情况。比如两个高度相关特征放入模型，可能导致较弱自变量的符号不符合预期，符号相反
- 从sigmoid函数也能看出，在两端的变化率微乎其微，导致很多区间的变量变化对目标概率的影响没有区分度，很难确定阈值
- 容易欠拟合，分类精度不高
- 数据特征有缺失或者特征空间很大时效果不好，不能很好处理大量多类特征或变量

8. LR模型实例

8.1 sklearn导入LR模型实现鸢尾花分类

代码

# 1. 导入包
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 2. 导入数据
from sklearn.datasets import load_iris  # sklearn中自带的iris数据
data = load_iris()          #得到数据特征
iris_target = data.target   #得到数据对应的标签
iris_features = pd.DataFrame(data=data.data, columns=data.feature_names) #利用Pandas转化为DataFrame格式

# 3. 查看数据信息
iris_features.info()        # 利用.info()查看数据的整体信息
iris_features.describe()    # 对于特征进行一些统计描述

# 4. 数据可视化
iris_all = iris_features.copy()     # 进行浅拷贝，防止对于原始数据的修改
iris_all['target'] = iris_target    # 合并标签和特征信息

# 特征与标签组合的散点可视化
sns.pairplot(data=iris_all, diag_kind='hist', hue='target')
plt.show()

# 箱线图: 显示数据的中心和散布范围, 中位数和离群值
for col in iris_features.columns:
    sns.boxplot(x='target', y=col, saturation=0.5, palette='pastel', data=iris_all)
    plt.title(col)
    plt.show()

# 5. 模型训练与预测
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.linear_model import LogisticRegression # 从sklearn中导入逻辑回归模型

## 选择其类别为0和1的样本（不包括类别为2的样本）
iris_features_part = iris_features.iloc[:100]
iris_target_part = iris_target[:100]

## 训练集:测试集 = 7:3
x_train, x_test, y_train, y_test = train_test_split(iris_features_part, iris_target_part, test_size=0.3, random_state=2020)

## 定义逻辑回归模型: lbfgs为算法内部定义的优化方法,类似optimizer
clf = LogisticRegression(random_state=0, solver='lbfgs')
clf.fit(x_train, y_train)

## 在训练集和测试集上分布利用训练好的模型进行预测
train_predict = clf.predict(x_train)
test_predict = clf.predict(x_test)

# 6. 模型评估
## 利用accuracy【预测正确的样本数目占总预测样本数目的比例】评估模型效果
print('The train-accuracy of the Logistic Regression is:', metrics.accuracy_score(y_train, train_predict))
print('The test-accuracy of the Logistic Regression is:', metrics.accuracy_score(y_test, test_predict))

## 查看混淆矩阵
confusion_matrix_result = metrics.confusion_matrix(test_predict, y_test)
print('The confusion matrix result:\n', confusion_matrix_result)

补充1：数据可视化
补充2：箱线图反映数据的分布, 中位数和离群值, 如sepal宽度的箱线图, 用于连续变量的数据分布. 点为离群值, 中心线偏上或偏下,表示数据分布是偏态的

补充3：训练结果, 用acc来评估模型效果, 打印混淆矩阵
补充4：逻辑回归使用.fit方法而不是epochs来训练模型
- 使用.fit方法训练模型,这个方法会接收输入和输出矩阵,使用内部定义的优化方法来找到最佳参数,以最小化损失函数
- 不使用epochs进行训练,epoch是深度学习中的概念,传统机器学习中使用.fit来进行拟合
- 也就是说在神经网络中通常不会用单层线性网络Linear来实现逻辑回归, 因为逻辑回归本身就是一个简单的线性模型加上一个sigmoid激活函数来将输出映射到0~1之间, 可以被视为一个简单的神经网络

接下来就用单层线性网络加sigmoid激活函数来实现逻辑回归

8.2 单层线性网络实现LR的鸢尾花分类

代码

# 1. 导入包
import matplotlib.pyplot as plt
import numpy as np
from io import BytesIO
import torch

# 2. 数据集获取与划分
ds = np.lib.DataSource()
fp = ds.open('http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data')

## 从文本文件中加载数据,使用','做分隔符
x = np.genfromtxt(BytesIO(fp.read().encode()), delimiter=',', usecols=range(2), max_rows=100)
y = np.zeros(100)
y[50:] = 1  # 一半为1一半为0

## 数据打乱后手动划分训练集和测试集7:3, 可以使用 sklearn.model_selection.train_test_split
np.random.seed(1)
idx = np.arange(y.shape[0])
np.random.shuffle(idx)
X_test, y_test = x[idx[:30]], y[idx[:30]]
X_train, y_train = x[idx[30:]], y[idx[30:]]

## 数据手动标准化, 可以使用sklearn.preprocessing.StandardScaler
mu, std = np.mean(X_train, axis=0), np.std(X_train, axis=0)
X_train, X_test = (X_train - mu) / std, (X_test - mu) / std

# 3. 数据可视化
fig, ax = plt.subplots(1, 2, figsize=(7, 2.5))
ax[0].scatter(X_train[y_train == 1, 0], X_train[y_train == 1, 1])
ax[0].scatter(X_train[y_train == 0, 0], X_train[y_train == 0, 1])
ax[1].scatter(X_test[y_test == 1, 0], X_test[y_test == 1, 1])
ax[1].scatter(X_test[y_test == 0, 0], X_test[y_test == 0, 1])
plt.show()

# 4. 模型定义
class LogisticRegression(torch.nn.Module):

    def __init__(self, num_features):
        super(LogisticRegression, self).__init__()  # 调用父类的构造函数
        self.linear = torch.nn.Linear(num_features, 1)  # 输入维度num_features, 输出维度1

        self.linear.weight.detach().zero_()     # 权值 初始化为0
        self.linear.bias.detach().zero_()       # 偏置 初始化为0

    def forward(self, x):
        logits = self.linear(x)
        prob = torch.sigmoid(logits)            # 线性回归的输出经过sigmoid函数得到概率
        return prob

# 4. 模型初始化
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = LogisticRegression(num_features=2).to(device)
cost_fn = torch.nn.BCELoss(reduction='sum')
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

## 概率值转换为label, 分类阈值为0.5
def prob_to_label(cond, x_1, x_2):
    return (cond * x_1) + ((1 - cond) * x_2)

## 计算准确率acc
def compute_accuracy(label_var, pred_prob):
    pred_labels = prob_to_label((pred_prob > 0.5).float(), 1, 0).view(-1)
    acc = torch.sum(pred_labels == label_var.view(-1)).float() / label_var.size(0)
    return acc

# 5. 模型训练
num_epochs = 10 # 10轮训练

X_train_tensor = torch.tensor(X_train, dtype=torch.float32, device=device)
y_train_tensor = torch.tensor(y_train, dtype=torch.float32, device=device).view(-1, 1)

for epoch in range(num_epochs):
    #### Compute outputs ####
    out = model(X_train_tensor)

    #### Compute gradients ####
    cost = cost_fn(out, y_train_tensor)
    optimizer.zero_grad()
    cost.backward()

    #### Update weights ####
    optimizer.step()

    #### Logging ####
    pred_prob = model(X_train_tensor)
    acc = compute_accuracy(y_train_tensor, pred_prob)
    print('Epoch: %03d' % (epoch + 1), end="")
    print(' | Train ACC: %.3f' % acc, end="")
    print(' | Cost: %.3f' % cost_fn(pred_prob, y_train_tensor))

print('\nModel parameters:')
print(' Weights: %s' % model.linear.weight)
print(' Bias: %s' % model.linear.bias)

# 6. 模型评估
X_test_tensor = torch.tensor(X_test, dtype=torch.float32, device=device)
y_test_tensor = torch.tensor(y_test, dtype=torch.float32, device=device)

pred_prob = model(X_test_tensor)
test_acc = compute_accuracy(y_test_tensor, pred_prob)

print('Test set accuracy: %.2f%%' % (test_acc*100))

补充1：训练和测试数据的分布

在这里插入图片描述

补充2：得到的模型参数

9. 疑问厘清

逻辑回归假设的是结果服从伯努利分布，而不是每个特征服从伯努利分布
逻辑回归对特征的分布类型没有要求，模型学习的是输入特征与目标变量之间的关系，不对特征的具体分布做假设，可以是正太、泊松、均匀分布等等
逻辑回归假设的是样本之间独立同分布，而不是特征之间独立同分布
- 特征之间可能是高度相关的，当然这可能会导致模型性能下降或不稳定
- 假设所有样本都是从相同概率分布中抽取，意味着训练集和测试集都来自相同分布，这也是模型能够泛化的原因。所以独立同分布指的是样本的独立同分布
高度相关的特征对LR模型有影响，怎么处理：
- 移除一个特征或合并特征：两个特征高度相关，它们可能为模型提供相似信息。合并特征指的是取平均/加权平均/最大最小值等组合
- 使用正则化：正则化可以惩罚高度相关的特征的权重，有助于降低多重共线性对模型的影响
- PCA降维：将原始特征转换为一系列线性不相关的主成分，从而消除多重共线性的影响
- 应用特征选择算法：如之前文章介绍，可以使用递归特征消除法等帮助识别并移除无关或冗余特征，包括与其他特征高度相关的特征

创作不易，如有帮助，请 点赞收藏 支持

[参考文章]
[1]. 为什么要引入逻辑回归
[2]. LR模型简介
[3]. 公式推导主要参考
[4]. 损失函数的理解
[5]. 损失函数的直观理解
[6]. LR公式画图
[7]. 伯努利分布假设和损失函数推导
[8]. LR应用实例
[9]. 箱线图
[10]. 鸢尾花LR分类实例
[11]. 鸢尾花LR模型分类实践

created by shuaixio, 2024.05.28