【机器学习】逻辑回归的梯度下降以及在一变量数据集、两变量数据集下探索优化的梯度下降算法

news2024/11/15 22:51:24

引言

在机器学习中,逻辑回归是一种用于二分类问题的方法。它使用逻辑函数(也称为sigmoid函数)来预测属于某个类别的概率。逻辑回归的损失函数通常是交叉熵损失,用于衡量预测值与真实值之间的差异

文章目录

  • 引言
  • 一、逻辑回归的梯度下降
    • 1.1 逻辑回归的梯度下降算法的Python代码示例
    • 1.2 代码解释
    • 1.3 代码注意点
  • 二、逻辑回归的梯度下降
    • 2.1 导入第三方库
    • 2.2 数据集
    • 2.3 逻辑梯度下降
    • 2.4 梯度下降实现
    • 2.5 计算梯度的代码描述
    • 2.6 梯度下降法代码
    • 2.7 另一个数据集
    • 2.8 总结

一、逻辑回归的梯度下降

1.1 逻辑回归的梯度下降算法的Python代码示例

这段代码将展示如何计算损失函数的梯度,并更新模型参数

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2024/8/2 22:31
# @Software: PyCharm
# @Author  : xialiwei
# @Email   : xxxxlw198031@163.com

import numpy as np
# sigmoid函数,用于逻辑回归的预测
def sigmoid(z):
    return 1 / (1 + np.exp(-z))
# 逻辑回归的损失函数
def log_loss(h, y):
    return (-y * np.log(h) - (1 - y) * np.log(1 - h)).mean()
# 计算梯度
def compute_gradient(X, y, w, b):
    m = len(y)
    z = np.dot(X, w) + b
    h = sigmoid(z)
    error = h - y
    dw = (1/m) * np.dot(X.T, error)
    db = (1/m) * np.sum(error)
    return dw, db
# 梯度下降算法
def gradient_descent(X, y, w_init, b_init, learning_rate, num_iterations):
    w = w_init
    b = b_init
    for i in range(num_iterations):
        dw, db = compute_gradient(X, y, w, b)
        w -= learning_rate * dw
        b -= learning_rate * db
        # 可选:打印损失值,以便观察收敛情况
        if i % 100 == 0:
            z = np.dot(X, w) + b
            h = sigmoid(z)
            loss = log_loss(h, y)
            print(f"Iteration {i}: Loss {loss}")
    return w, b
# 示例数据(这里需要你自己准备数据集X和标签y)
# X = ... # 特征矩阵,形状为 (num_samples, num_features)
# y = ... # 标签向量,形状为 (num_samples,)
X_train = np.array([[0.5, 1.5], [1,1], [1.5, 0.5], [3, 0.5], [2, 2], [1, 2.5]])
y_train = np.array([0, 0, 0, 1, 1, 1])
# 初始化参数
w_init = np.zeros(X_train.shape[1])
b_init = 0
# 设置学习率和迭代次数
learning_rate = 0.01
num_iterations = 9000
# 执行梯度下降
w_final, b_final = gradient_descent(X_train, y_train, w_init, b_init, learning_rate, num_iterations)

1.2 代码解释

在这个代码中:

  • sigmoid 函数用于计算逻辑回归的预测值
  • log_loss 函数用于计算损失
  • compute_gradient 函数用于计算损失函数关于模型参数的梯度
  • 最后gradient_descent 函数实现了梯度下降算法,通过迭代更新模型参数

1.3 代码注意点

  • 这段代码是一个简化的示例,实际应用中可能需要对数据进行预处理,比如特征缩放,并且可能需要添加正则化项来防止过拟合
  • 学习率、迭代次数和其他超参数可能需要根据具体问题进行调整

二、逻辑回归的梯度下降

2.1 导入第三方库

import copy, math
import numpy as np
%matplotlib widget
import matplotlib.pyplot as plt
from lab_utils_common import  dlc, plot_data, plt_tumor_data, sigmoid, compute_cost_logistic
from plt_quad_logistic import plt_quad_logistic, plt_prob
plt.style.use('./deeplearning.mplstyle')

2.2 数据集

从决策边界实验中使用的同一个双特征数据集开始

X_train = np.array([[0.5, 1.5], [1,1], [1.5, 0.5], [3, 0.5], [2, 2], [1, 2.5]])
y_train = np.array([0, 0, 0, 1, 1, 1])

像之前一样,我们将使用一个辅助函数来绘制这些数据。标签为𝑦=1的数据点用红色十字表示,而标签为𝑦=0的数据点用蓝色圆圈表示。

fig,ax = plt.subplots(1,1,figsize=(4,4))
plot_data(X_train, y_train, ax)
​
ax.axis([0, 4, 0, 3.5])
ax.set_ylabel('$x_1$', fontsize=12)
ax.set_xlabel('$x_0$', fontsize=12)
plt.show()

输出结果:
在这里插入图片描述

2.3 逻辑梯度下降

回忆一下,梯度下降算法利用梯度计算:
重复直到收敛:
repeat until convergence:    {        w j = w j − α ∂ J ( w , b ) ∂ w j    for j := 0..n-1            b = b − α ∂ J ( w , b ) ∂ b } \begin{align*} &\text{repeat until convergence:} \; \lbrace \\ & \; \; \;w_j = w_j - \alpha \frac{\partial J(\mathbf{w},b)}{\partial w_j} \tag{1} \; & \text{for j := 0..n-1} \\ & \; \; \; \; \;b = b - \alpha \frac{\partial J(\mathbf{w},b)}{\partial b} \\ &\rbrace \end{align*} repeat until convergence:{wj=wjαwjJ(w,b)b=bαbJ(w,b)}for j := 0..n-1(1)

每次迭代都对所有的𝑤𝑗执行同时更新,其中
∂ J ( w , b ) ∂ w j = 1 m ∑ i = 0 m − 1 ( f w , b ( x ( i ) ) − y ( i ) ) x j ( i ) ∂ J ( w , b ) ∂ b = 1 m ∑ i = 0 m − 1 ( f w , b ( x ( i ) ) − y ( i ) ) \begin{align*} \frac{\partial J(\mathbf{w},b)}{\partial w_j} &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)})x_{j}^{(i)} \tag{2} \\ \frac{\partial J(\mathbf{w},b)}{\partial b} &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)}) \tag{3} \end{align*} wjJ(w,b)bJ(w,b)=m1i=0m1(fw,b(x(i))y(i))xj(i)=m1i=0m1(fw,b(x(i))y(i))(2)(3)

  • m m m是数据集中的训练示例数量
  • f w , b ( x ( i ) ) f_{\mathbf{w},b}(x^{(i)}) fw,b(x(i))是模型的预测,而 y ( i ) y^{(i)} y(i)是目标值
  • 对于逻辑回归模型
    z = w ⋅ x + b z = \mathbf{w} \cdot \mathbf{x} + b z=wx+b
    f w , b ( x ) = g ( z ) f_{\mathbf{w},b}(x) = g(z) fw,b(x)=g(z)
    – 其中𝑔(𝑧)是sigmoid函数: g ( z ) = 1 1 + e − z g(z) = \frac{1}{1+e^{-z}} g(z)=1+ez1

2.4 梯度下降实现

梯度下降算法实现包含两个部分:

  • 实现上述方程(1)的循环。这是下面的gradient_descent,通常在可选和实践实验中提供给您
  • 计算当前梯度,上述方程(2,3)。这是compute_gradient_logistic。这周您将在实践实验中实现这个

2.5 计算梯度的代码描述

实现上述方程(2,3)对于所有的𝑤𝑗和𝑏。有很多种实现方式。下面是其中一种:
初始化变量以累积dj_dw和dj_db,对于每个示例,计算该示例的错误𝑔(𝐰⋅𝐱(𝑖)+𝑏)−𝐲(𝑖),对于该示例中的每个输入值𝑥(𝑖)𝑗,,将错误乘以输入𝑥(𝑖)𝑗,并加到dj_dw的对应元素上。(方程2)将错误加到dj_db上(方程3)将dj_db和dj_dw除以示例总数(m)

注意,在numpy中𝐱(𝑖)是X[i,:]或X[i],而𝑥(𝑖)𝑗是X[i,j]

def compute_gradient_logistic(X, y, w, b): 
    """
    Computes the gradient for linear regression 
 
    Args:
      X (ndarray (m,n): Data, m examples with n features
      y (ndarray (m,)): target values
      w (ndarray (n,)): model parameters  
      b (scalar)      : model parameter
    Returns
      dj_dw (ndarray (n,)): The gradient of the cost w.r.t. the parameters w. 
      dj_db (scalar)      : The gradient of the cost w.r.t. the parameter b. 
    """
    m,n = X.shape
    dj_dw = np.zeros((n,))                           #(n,)
    dj_db = 0.

    for i in range(m):
        f_wb_i = sigmoid(np.dot(X[i],w) + b)          #(n,)(n,)=scalar
        err_i  = f_wb_i  - y[i]                       #scalar
        for j in range(n):
            dj_dw[j] = dj_dw[j] + err_i * X[i,j]      #scalar
        dj_db = dj_db + err_i
    dj_dw = dj_dw/m                                   #(n,)
    dj_db = dj_db/m                                   #scalar
        
    return dj_db, dj_dw  

检查以下代码中梯度函数的实现

X_tmp = np.array([[0.5, 1.5], [1,1], [1.5, 0.5], [3, 0.5], [2, 2], [1, 2.5]])
y_tmp = np.array([0, 0, 0, 1, 1, 1])
w_tmp = np.array([2.,3.])
b_tmp = 1.
dj_db_tmp, dj_dw_tmp = compute_gradient_logistic(X_tmp, y_tmp, w_tmp, b_tmp)
print(f"dj_db: {dj_db_tmp}" )
print(f"dj_dw: {dj_dw_tmp.tolist()}" )

输出结果:
在这里插入图片描述
预期结果:
dj_db: 0.49861806546328574
dj_dw: [0.498333393278696, 0.49883942983996693]

结论:输出结果与预期结果一致

2.6 梯度下降法代码

下面是实现上述方程(1)的代码。
将程序中的函数与上面的方程进行比较。

def gradient_descent(X, y, w_in, b_in, alpha, num_iters): 
    """
    Performs batch gradient descent
    
    Args:
      X (ndarray (m,n)   : Data, m examples with n features
      y (ndarray (m,))   : target values
      w_in (ndarray (n,)): Initial values of model parameters  
      b_in (scalar)      : Initial values of model parameter
      alpha (float)      : Learning rate
      num_iters (scalar) : number of iterations to run gradient descent
      
    Returns:
      w (ndarray (n,))   : Updated values of parameters
      b (scalar)         : Updated value of parameter 
    """
    # An array to store cost J and w's at each iteration primarily for graphing later
    J_history = []
    w = copy.deepcopy(w_in)  #avoid modifying global w within function
    b = b_in
    
    for i in range(num_iters):
        # Calculate the gradient and update the parameters
        dj_db, dj_dw = compute_gradient_logistic(X, y, w, b)   

        # Update Parameters using w, b, alpha and gradient
        w = w - alpha * dj_dw               
        b = b - alpha * dj_db               
      
        # Save cost J at each iteration
        if i<100000:      # prevent resource exhaustion 
            J_history.append( compute_cost_logistic(X, y, w, b) )

        # Print cost every at intervals 10 times or as many iterations if < 10
        if i% math.ceil(num_iters / 10) == 0:
            print(f"Iteration {i:4d}: Cost {J_history[-1]}   ")
        
    return w, b, J_history         #return final w,b and J history for graphing

在我们的数据集上跑梯度下降的代码

w_tmp  = np.zeros_like(X_train[0])
b_tmp  = 0.
alph = 0.1
iters = 10000

w_out, b_out, _ = gradient_descent(X_train, y_train, w_tmp, b_tmp, alph, iters) 
print(f"\nupdated parameters: w:{w_out}, b:{b_out}")

输出结果:
在这里插入图片描述

绘制梯度下降结果的代码:

fig,ax = plt.subplots(1,1,figsize=(5,4))
# plot the probability 
plt_prob(ax, w_out, b_out)

# Plot the original data
ax.set_ylabel(r'$x_1$')
ax.set_xlabel(r'$x_0$')   
ax.axis([0, 4, 0, 3.5])
plot_data(X_train,y_train,ax)

# Plot the decision boundary
x0 = -b_out/w_out[1]
x1 = -b_out/w_out[0]
ax.plot([0,x0],[x1,0], c=dlc["dlblue"], lw=1)
plt.show()

绘制结果:
在这里插入图片描述
在上面的图中:

  • 着色反映了概率y=1(在决策边界之前的结果)
  • 决策边界是概率等于0.5的线

2.7 另一个数据集

让我们回到一个一变量数据集。只有两个参数,𝑤和𝑏,我们可以在等高线图中绘制成本函数,以更好地了解梯度下降在做什么。

x_train = np.array([0., 1, 2, 3, 4, 5])
y_train = np.array([0,  0, 0, 1, 1, 1])

我们将使用一个辅助函数来绘制这些数据。标签为𝑦=1的数据点用红色十字表示,而标签为𝑦=0的数据点用蓝色圆圈表示

fig,ax = plt.subplots(1,1,figsize=(4,3))
plt_tumor_data(x_train, y_train, ax)
plt.show()

绘制结果:
在这里插入图片描述

在下面的图中,尝试:

  • 通过点击上右角的等高线图来更改𝑤和𝑏
    – 更改可能需要一秒钟或两秒钟
    – 注意上左图中的成本值的变化
    – 注意成本是通过每个示例的损失累积的(垂直虚线)
  • 通过点击橙色按钮运行梯度下降
    – 注意成本稳步下降(等高线和成本图以对数成本显示)
    – 在等高线图中点击将重置模型以进行新的运行
    – 要重置图表,重新运行此单元格
w_range = np.array([-1, 7])
b_range = np.array([1, -14])
quad = plt_quad_logistic( x_train, y_train, w_range, b_range )

绘制结果:

  • 运行梯度下降前:
    在这里插入图片描述
  • 运行梯度下降后:
    在这里插入图片描述

2.8 总结

  • 检查了逻辑回归的梯度计算公式和实现,在这些例行程序中进行了探索一变量数据集、两变量数据集
  • 更新逻辑回归的梯度下降算法
  • 在一个熟悉的数据集上探索梯度下降

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1972359.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电机的伺服调试和pid调节有什么异同?

电机的伺服调试和PID调节在调节控制系统的精度和性能方面都是重要的&#xff0c;但它们有不同的侧重点和方法&#xff1a; 伺服调试 定义&#xff1a;伺服调试是指对伺服系统进行优化和调整&#xff0c;以确保其在控制对象&#xff08;如电机&#xff09;上的表现达到预期。伺…

《LeetCode热题100》---<5.②普通数组篇五道>

本篇博客讲解LeetCode热题100道普通数组篇中的六道题 第三道&#xff1a;轮转数组&#xff08;中等&#xff09; 第四道&#xff1a;除自身以外数组的乘积&#xff08;中等&#xff09; 第三道&#xff1a;轮转数组&#xff08;中等&#xff09; 方法一&#xff1a;使用额外的数…

KubeSphere 部署的 Kubernetes 集群使用 GlusterFS 存储实战入门

转载&#xff1a;KubeSphere 部署的 Kubernetes 集群使用 GlusterFS 存储实战入门 知识点 定级&#xff1a;入门级 GlusterFS 和 Heketi 简介 GlusterFS 安装部署 Heketi 安装部署 Kubernetes 命令行对接 GlusterFS 实战服务器配置(架构1:1复刻小规模生产环境&#xff0c;…

AI助力,轻松组建你的汽车梦之队!

咱汽车销售想增加目标客户&#xff0c;可不简单&#xff01;市场竞争那叫一个激烈&#xff0c;吸引客户注意力太难了&#xff01;不过别怕&#xff0c;咱有办法。我在 ai123.cn 这个平台上&#xff0c;找到了好多适合咱的 AI 工具和资源&#xff0c;这就跟大家分享分享。 比如说…

upload-labs漏洞靶场~文件上传漏洞

寻找测试网站的文件上传的模块&#xff0c;常见&#xff1a;头像上传&#xff0c;修改上传&#xff0c;文件编辑器中文件上传&#xff0c;图片上传、媒体上传等&#xff0c;通过抓包上传恶意的文件进行测试&#xff0c;上传后缀名 asp php aspx 等的动态语言脚本&#xff0c;查…

基于C语言从0开始手撸MQTT协议代码连接标准的MQTT服务器,完成数据上传和命令下发响应(华为云IOT服务器)

文章目录 一、前言二、搭建开发环境三、网络编程基础概念科普3.1 什么是网络编程3.2 TCP 和 UDP协议介绍3.3 TCP通信的实现过程 四、Windows下的网络编程相关API介绍4.1 常用的函数介绍4.2 函数参数介绍4.3 编写代码体验网络编程 五、访问华为云IOT服务器创建一个产品和设备5.2…

STM32ADC

ADC简介&#xff1a;有打moba游戏的别搞混了&#xff0c;这不是射手adc。在32中&#xff0c;ADC的全称为&#xff1a;Analog-to-Digital Converter&#xff0c;指模拟/数字转换器 也就是模拟-数字电路的转换器。其实通俗的来讲&#xff0c;它就是一个电压表。 目录 一.ADC原理…

六、5 TIM输入捕获介绍

1、基本知识介绍 &#xff08;1&#xff09; 注意&#xff1a; ①4个输入捕获和输出比较通道&#xff0c;共用4个CCR寄存器 ②CH1到CH4&#xff0c;四个通道的引脚也是共用的 ③同一个定时器输入捕获和输出比较&#xff0c;不能同时使用 &#xff08;2&#xff09;输入捕获…

4G/5G无线视频采集设备如何通过国标28181接入到视频监控接入平台(视频统一接入平台)

目录 一、国标GB/T 28181介绍 1、国标GB/T28181 2、内容和特点 二、4G/5G无线视频采集设备 1、定义 2、主要功能&#xff1a; 3、技术特点 4、应用场景 二、接入准备工作 1、确定网络环境 &#xff08;1&#xff09;公网接入 &#xff08;2&#xff09;专网传输 2、…

使用 Rough.js 创建动态水平条形图

本文由ScriptEcho平台提供技术支持 项目地址&#xff1a;传送门 使用 Rough.js 创建动态可视化网络图 应用场景 Rough.js 是一个 JavaScript 库&#xff0c;它允许开发人员使用毛边风格创建可视化效果。该库适用于各种应用程序&#xff0c;例如&#xff1a; 数据可视化地图…

【C++11】解锁C++11新纪元:深入探索Lambda表达式的奥秘

&#x1f4dd;个人主页&#x1f339;&#xff1a;Eternity._ ⏩收录专栏⏪&#xff1a;C “ 登神长阶 ” &#x1f921;往期回顾&#x1f921;&#xff1a;C11右值引用 &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; ❀C11 &#x1f4d2;1. 可变参数模板…

.net # 检查 带有pdf xss

1.解决pdf含javasprct脚本动作&#xff0c;这里是验证pdf内部事件。相关pdf文件下载&#xff1a; 测试pdf文件 相关包 iTextSharp 5.5.13.4 iTextSharp using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser;private Boolean IsPdfSafe(Stream stream){// PdfReader…

PyTorch+PyG实现图神经网络经典模型目录

前言 大家好&#xff0c;我是阿光。 本专栏整理了《图神经网络代码实战》&#xff0c;内包含了不同图神经网络的相关代码实现&#xff08;PyG以及自实现&#xff09;&#xff0c;理论与实践相结合&#xff0c;如GCN、GAT、GraphSAGE等经典图网络&#xff0c;每一个代码实例都…

洛谷 P1739 表达式括号匹配 题解

题目描述 假设一个表达式有英文字母&#xff08;小写&#xff09;、运算符&#xff08;、-、*、/&#xff09;和左右小&#xff08;圆&#xff09;括号构成&#xff0c;以 作为表达式的结束符。请编写一个程序检查表达式中的左右圆括号是否匹配&#xff0c;若匹配&#xff0c…

springboot农产品报价系统-计算机毕业设计源码37300

摘 要 本研究基于鸿蒙系统&#xff0c;设计开发了一款农产品报价系统小程序&#xff0c;旨在帮助商家与买家更便捷、高效地进行交易。该系统利用鸿蒙系统的优势&#xff0c;实现了跨平台应用程序的开发&#xff0c;同时利用定位技术和数据采集技术&#xff0c;为用户提供了个性…

RoboCom 2021 编程技能赛决赛 7-4 猛犸不上 Ban

7-4 猛犸不上 Ban 赛题 分数 30 作者 DAI, Longao 单位 杭州百腾教育科技有限公司 在一个名叫刀塔的国家里&#xff0c;有一只猛犸正在到处跑着&#xff0c;希望能够用它的长角抛物技能来撞飞别人。已知刀塔国有 N 座城市&#xff0c;城市之间由 M 条道路互相连接&#xff…

【C语言】【数据结构】冒泡排序及优化

一、算法思想 冒泡排序是一种简单的排序算法。一次从前往后地走访待排序的元素序列被称为一趟&#xff0c;每一趟都会把相邻的两个元素的错误顺序交换&#xff0c;将当前趟次中最大或者最小的元素像“冒泡泡”一样冒到最后面&#xff0c;反复地走访元素序列&#xff0c;直到所有…

Maven 安装-从下载、安装、配置以及检查是否安装成功,最详细安装教程

以下内容参考&#xff1a;https://juejin.cn/post/6844903543711907848 原文标题&#xff1a;Maven入门&#xff0c;读完这篇就够了 作者&#xff1a;嘟嘟MD 链接&#xff1a;https://juejin.cn/post/6844903543711907848 来源&#xff1a;稀土掘金 ----- 注&#xff1a;所有流…

计算机组成原理——运算器ALU,移位操作

一、组合逻辑电路和时序逻辑电路 组合逻辑电路&#xff1a;其输出仅取决于当前输入组合&#xff0c;不依赖先前输出&#xff0c;不具备存储状态的能力 时序逻辑电路&#xff1a;其输出不仅取决于当前输入&#xff0c;还取决于先前的输出&#xff0c;具备存储状态的能力。 AL…

多 NodeJS 环境管理

前言 对于某个项目依赖特定版本的 NodeJS&#xff0c;或几个项目的 NodeJS 版本冲突时&#xff0c;需要在系统中安装多个版本的 NodeJS&#xff0c;这时可以使用一些工具来进行多个 NodeJS 的管理。 有很多类似的 NodeJS 管理工具&#xff0c;如 nvm, nvs, n 等&#xff0c;接…