逻辑回归(纯理论)

1.什么是逻辑回归？

逻辑回归是一种常用的统计学习方法，主要用于解决分类问题。尽管名字中包含"回归"，但它实际上是一种分类算法

2.为什么机器学习需要使用逻辑回归

1.二元分类

这是逻辑回归最基本和常见的用途。它可以预测某个事件是否会发生,输出结果为是或否

例如：

预测用户是否会点击广告
判断邮件是否为垃圾邮件
诊断患者是否患有某种疾病

这些例子都有一个共同的特征，就是只有两个结果，真(1)和假(0)

2.多类别分类

通过一对多(One-vs-Rest)或softmax等方法,逻辑回归可以扩展到多类别分类问题

例如:

图像识别中的物体分类
文本分类(新闻分类、情感分析等)

这些例子都有一个共同的特征，就是同一种对象有多个可能的结果，类似于咱们常见的单选题，选项有多个，但是最符合答案的选项只有一个

3.概率预测

逻辑回归不仅给出分类结果,还能输出概率值,这在很多场景下非常有用

例如:

预测客户购买某产品的概率
评估贷款申请人的违约风险概率

这些例子都有一个共同的特征，那就是预测，即用已知的结果去推出未知的结果

如果你还没有听懂逻辑回归的作用，没关系，我再给你举个通俗易懂的例子

想象你是一个医生,需要判断病人是否患有某种疾病。逻辑回归就像一个智能助手,帮你做这个判断。就像医生会看病人的各项体检指标一样,逻辑回归会考虑多个相关因素(我们称之为特征)。有些指标可能比其他指标更重要。逻辑回归会给每个因素分配一个"权重",反映其重要性。最后,它不会简单地说"是"或"否",而是给出一个概率。比如"这个病人患病的可能性是70%"。你可以设定一个标准,比如超过50%就认为是"是",否则就是"否"。逻辑回归通过大量的已知案例来"学习"。就像医生通过大量病例积累经验一样。

当然，逻辑回归的作用远不止于此，限于篇幅(~~其实是我自己想偷懒~~)，就不多做介绍了

3.OK，接下来我们来引入逻辑回归的公式

我个人不喜欢啰里啰唆的给你一大堆数学公式，然后告诉你底层原理就是这些数学公式，让你自己慢慢去领悟。我希望的是能把几个核心的公式给刨析出来，为什么需要用这几个公式就够了，这是我希望能够在我的文章里讲明白的事情

1.线性回归公式

y = b0 + b1x1 + b2x2 + ... + bn*xn

y 是因变量，即我们要预测的值。
b0 是截距，表示当所有自变量都为 0 时，因变量的值
b1, b2, ..., bn 是回归系数，表示每个自变量对因变量的影响程度
x1, x2, ..., xn 是自变量，即用来预测因变量的值

这里举出一个线性回归的样例

代码看不懂没关系，看图就行了

import matplotlib.pyplot as plt
import numpy as np
import matplotlib.font_manager as fm

# Generate some simulated house data
np.random.seed(0)
area = np.random.rand(100) * 200 + 50  # House area (square meters)
price = 2 * area + 5000 + np.random.randn(100) * 500  # House price (ten thousand yuan)

# Fit the data using linear regression
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(area.reshape(-1, 1), price)

# Get the regression coefficients
b0 = model.intercept_
b1 = model.coef_[0]

# Plot the scatter plot
plt.scatter(area, price, label="House Data")

# Plot the regression line
plt.plot(area, b0 + b1*area, color="red", label="Linear Regression")

# Set the plot title and axis labels
plt.title("Linear Regression of House Area and Price")

# Set the font to SimSun (楷体)
font_prop = fm.FontProperties(fname=r"C:\Windows\Fonts\simkai.ttf", size=12)  # Replace with your SimSun font path

plt.xlabel("House Area (Square Meters)", fontproperties=font_prop)
plt.ylabel("House Price (Ten Thousand Yuan)", fontproperties=font_prop)

# Add legend
plt.legend()

# Show the plot
plt.show()

1.生成100个房屋模拟数据

np.random.seed(0)
area = np.random.rand(100) * 200 + 50
price = 2 * area + 5000 + np.random.randn(100) * 500

2.使用线性回归拟合数据

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(area.reshape(-1, 1), price)

3.获取回归系数(b0 ~ bn)

b0 = model.intercept_
b1 = model.coef_[0]

4.绘制散点图

plt.scatter(area, price, label="House Data")

5.绘制回归线

plt.plot(area, b0 + b1*area, color="red", label="Linear Regression")

6.设置文章标题

plt.title("Linear Regression of House Area and Price")

7. 设置字体为楷体&&字体大小(如果有的话)

font_prop = fm.FontProperties(fname=r"C:\Windows\Fonts\simkai.ttf", size=12)
plt.xlabel("House Area (Square Meters)", fontproperties=font_prop)
plt.ylabel("House Price (Ten Thousand Yuan)", fontproperties=font_prop)

8. 添加图例