二、逻辑回归算法(LR,Logistic Regression)(有监督学习)

news2024/11/24 3:59:08

一、算法思路

逻辑回归本质就是基于多元线性回归,多元线性回归就是y=w0 + w1*x1 + w2*x2 + ... + wn*xn
多元函数的值域是(-∞,+∞),逻辑回归就是将值域映射到(0,1)之间,因为这样就可以变成一个概率值。常用的方法是将多元函数求解得到的值,带入sigmoid的函数中即可得到一个(0,1)区间的值;然后控制阈值,就可以进行二分类评定了。当然多分类任务只需要对数据集进行相应的处理,变成多个二分类任务即可。
因为之前写过相关博文,故这里就不再赘述,详情可参考博文:六、逻辑回归

二、官网API

官网API

class sklearn.linear_model.LogisticRegression(penalty='l2', *, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver='lbfgs', max_iter=100, multi_class='auto', verbose=0, warm_start=False, n_jobs=None, l1_ratio=None)

这里的参数还是比较多的,具体的参数使用,可以根据官网给的demo进行学习,多动手尝试;这里就以一些常用的参数进行说明。
导包:from sklearn.linear_model import LogisticRegression

①惩罚项penalty

惩罚项的选择,默认采用L2正则化;正则化说白了就是对损失函数的一种约束限制
在线性回归中,L1正则化也称为Lasso回归,可以产生稀疏模型
在线性回归中,L2正则化也称为Ridge回归,可以获得很小的参数,防止过拟合
None’:不添加惩罚项
l1’:添加L1正则化
l2’:添加L2正则化,默认
elasticnet’:L1和L2正则化都加

具体官网详情如下:
在这里插入图片描述

使用方式

LogisticRegression(penalty='l2')
这里的惩罚项并不是随便都可以选的,需要受到参数优化算法选择参数solver的约束,默认情况下solver采用lbfgs

②优化算法solver

优化算法选择参数solver,也就是逻辑回归的损失函数优化方法
lbfgs’:默认选择;可以选择l2正则化或None不使用惩罚项
liblinear’:可以选择l1正则化或l2正则化;小数据集优先考虑、支持多项式损失函数
newton-cg’:可以选择l2正则化或None不使用惩罚项;支持多项式损失函数
newton-cholesky’:可以选择l2正则化或None不使用惩罚项;训练样本数量远多于特征参数数量时使用
sag’:可以选择l2正则化或None不使用惩罚项;数据集较多时使用,训练较快
saga’:可以选择l1正则化或l2正则化或None不使用惩罚项;数据集较多时使用,训练较快

具体官网详情如下:
在这里插入图片描述

使用方式

LogisticRegression(penalty='l1',solver='liblinear')
LogisticRegression(penalty='l2',solver='newton-cg')

③正则化强度的倒数C

C:正则化强度的倒数;必须是正浮点数;数值越小,正则化强度越强;默认为1.0;

具体官网详情如下:
在这里插入图片描述

使用方式

LogisticRegression(C = 1.2)

④随机种子random_state

如果要是为了对比,需要控制变量的话,这里的随机种子最好设置为同一个整型数

具体官网详情如下:
在这里插入图片描述

使用方式

LogisticRegression(random_state = 42)

⑤二分类还是多分类任务multi_class

auto’:根据任务的具体情况自动设置,默认
ovr’:二分类任务;二分类任务或者solver选择了’liblinear’
multinomial’:多分类任务;其余情况使用
一般情况不填就行,使用默认的即可

具体官网详情如下:
在这里插入图片描述

⑥最终构建模型

LogisticRegression(penalty=‘l2’,solver=‘newton-cholesky’,C=0.8,random_state=42)

三、代码实现

①导包

这里需要评估、训练、保存和加载模型,以下是一些必要的包,若导入过程报错,pip安装即可

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import joblib
%matplotlib inline
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score

②加载数据集

数据集可以自己简单整个,csv格式即可,我这里使用的是6个自变量X和1个因变量Y
在这里插入图片描述

fiber = pd.read_csv("./fiber.csv")
fiber.head(5) #展示下头5条数据信息

在这里插入图片描述

③划分数据集

前六列是自变量X,最后一列是因变量Y

常用的划分数据集函数官网API:train_test_split
在这里插入图片描述
test_size:测试集数据所占比例
train_size:训练集数据所占比例
random_state:随机种子
shuffle:是否将数据进行打乱
因为我这里的数据集共48个,训练集0.75,测试集0.25,即训练集36个,测试集12个

X = fiber.drop(['Grade'], axis=1)
Y = fiber['Grade']

X_train, X_test, y_train, y_test = train_test_split(X,Y,train_size=0.75,test_size=0.25,random_state=42,shuffle=True)

print(X_train.shape) #(36,6)
print(y_train.shape) #(36,)
print(X_test.shape) #(12,6)
print(y_test.shape) #(12,)

④构建LR模型

参数可以自己去尝试设置调整

lr = LogisticRegression(penalty='l2',solver='newton-cholesky',C=0.8,random_state=42)

⑤模型训练

就这么简单,一个fit函数就可以实现模型训练

lr.fit(X_train,y_train)

⑥模型评估

把测试集扔进去,得到预测的测试结果

y_pred = lr.predict(X_test)

看看预测结果和实际测试集结果是否一致,一致为1否则为0,取个平均值就是准确率

accuracy = np.mean(y_pred==y_test)
print(accuracy) # 0.8333333333333333

也可以通过score得分进行评估,计算的结果和思路都是一样的,都是看所有的数据集中模型猜对的概率,只不过这个score函数已经封装好了,当然传入的参数也不一样,需要导入accuracy_score才行,from sklearn.metrics import accuracy_score

score = lr.score(X_test,y_test)#得分
print(score)

⑦模型测试

拿到一条数据,使用训练好的模型进行评估
这里是六个自变量,我这里随机整个test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
扔到模型里面得到预测结果,prediction = lr.predict(test)
看下预测结果是多少,是否和正确结果相同,print(prediction)

test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
prediction = lr.predict(test)
print(prediction) #[2]

⑧保存模型

lr是模型名称,需要对应一致
后面的参数是保存模型的路径

joblib.dump(lr, './lr.model')#保存模型

⑨加载和使用模型

lr_yy = joblib.load('./lr.model')

test = np.array([[11,99498,5369,9045.27,28.47,3827588.56]])#随便找的一条数据
prediction = lr_yy.predict(test)#带入数据,预测一下
print(prediction) #[4]

完整代码

模型训练和评估,不包含⑧⑨。

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
import joblib


fiber = pd.read_csv("./fiber.csv")
# 划分自变量和因变量
X = fiber.drop(['Grade'], axis=1)
Y = fiber['Grade']
#划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, Y, random_state=0)

lr = LogisticRegression(penalty='l2',solver='liblinear',C=0.8,random_state=42)
lr.fit(X_train,y_train)#模型拟合

y_pred = lr.predict(X_test)#模型预测结果
accuracy = np.mean(y_pred==y_test)#准确度
print(accuracy)
score = lr.score(X_test,y_test)#得分
print(score)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1036815.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vscode调试webpack项目的方法

vscode调试webpack项目的方法 首先安装vscode插件Javascript Debugger 这个插件的介绍也写清楚了: An extension for debugging Node.js programs and Chrome. 那就是用来调试Node.js和Chrome的vscode扩展插件,包括typescript. 然后按F5启动调试&…

【LeetCode-简单题】589. N 叉树的前序遍历

文章目录 题目方法一:单循环栈做法方法二:递归 题目 方法一:单循环栈做法 关键在于子节点的入栈顺序,决定了子节点的出栈顺序, 因为是前序遍历 所以压栈顺序先让右边的入栈 依次往左 这样左边的节点会在栈顶 这样下次…

Linux CentOS7 vim多文件编辑

使用vim编辑多个文件,十分常用的操作。本文从打开、显示、切换文件到退出,进行简单讨论。 一、打开文件 1.一次打开多个文件 vim还没有启动的时候,在终端里输入vim file1 file2 … filen便可以打开所有想要打开的文件。 执行命令 vim fil…

深入解析哈希表、哈希映射和并发哈希映射的区别,以及死锁的成因和解决方案

目录 死锁死锁产生条件解决方案 HashTableConcurrentHashMapHashMap 死锁 死锁是多线程编程中常见的问题,当两个或多个线程互相等待对方持有的资源而无法继续执行时,就会发生死锁。这种情况下,程序会陷入无法恢复的状态,造成程序…

215. 数组中的第K个最大元素+17.14. 最小K个数(优先级队列)

目录 一、第K个最大元素 二、代码 三、最小K个数 四、代码 一、第K个最大元素 215. 数组中的第K个最大元素 - 力扣&#xff08;LeetCode&#xff09; 二、代码 class Solution { public:int findKthLargest(vector<int>& nums, int k) {priority_queue data(nu…

MySQL数据库的存储引擎

目录 一、存储引擎概念 二、存储引擎 2.1MyISAM 2.11MyISAM的特点 2.12MyISAM表支持3种不同的存储格式&#xff1a; 2.2 InnoDB 2.21InnoDB特点介绍 三、InnoDB与MyISAM 区别 四、怎么样选择存储引擎 五、查看存储引擎 六、查看表使用的存储引擎 七、修改存储引擎 …

Leetocde 404. 左叶子之和

左叶子之和 给定二叉树的根节点 root &#xff0c;返回所有左叶子之和。 提示: 节点数在 [1, 1000] 范围内-1000 < Node.val < 1000 采用的是递归法 s1. 确定递归函数的参数和返回值 s2. 确定终止条件 if(root NULL)return 0;s3. 确定单层递归的逻辑 当遇到左叶…

华为云Stack的学习(七)

八、华为云Stack存储服务介绍 1.云硬盘EVS 云硬盘&#xff08;Elastic Volume Service&#xff0c;EVS&#xff09;&#xff0c;又名磁盘&#xff0c;是一种虚拟块存储服务&#xff0c;主要为ECS&#xff08;Elastic Cloud Server&#xff09;和BMS&#xff08;Bare Metal Se…

2023年苏工展丨合共软件诚邀您参观苏州工业制造展,全新一代制造运营管理平台RockPlus MOM即将亮相!

2023年09月25日至27日一场智能制造的盛宴将于苏州国际博览中心盛大召开&#xff0c;合共软件受邀参展&#xff0c;展位&#xff1a;D馆1区A06-8。此次展览中&#xff0c;我们将向参观者展示最新产品——RockPlus MOM&#xff0c;一种颠覆性的数字化智能制造解决方案。上海合共软…

东芝第一代20T MAMR HDD实现PB级存储方案

近日&#xff0c;荷兰国际广播电视技术展览会(IBC 2023&#xff09;上东芝展示出来基于20T MARM HDD MARM&#xff0c;该盘基于FC-MAMR新技术&#xff0c;不是传统的CMR。 该产品的SPEC信息&#xff1a; 东芝本次公布的解决方案涉及的系统硬件主要包括&#xff1a; 东芝企业20…

新手学习:ArcGIS 提取SHP 路网数据、节点

新手学习&#xff1a;ArcGIS 提取SHP 路网数据、节点 参考连接 OSM路网提取道路节点 ArcGIS&#xff1a;如何创建地理数据库、创建要素类数据集、导入要素类、表&#xff1f; 1. 导入开源路网SHP文件 2. 在交点处打断路网数据 未打断路网数据 有一些路径很长&#xff0c;…

FreeRTOS基础七:资源管理

简介 在多任务环境下&#xff0c;多个任务访问同一个资源会面临挑战。若不加防护机制&#xff0c;多个任务或者中断对同一个资源的访问可能会导致错误。 例如&#xff0c;任务A需要在屏幕显示“Hello world”&#xff0c;他向屏缓冲区幕写入字符串"Hello w"时被任务…

使用 Spring Security 实现安全认证的 Spring Boot 应用

使用 Spring Security 实现安全认证的 Spring Boot 应用 在开发Web应用程序时&#xff0c;保护用户的数据和应用程序是至关重要的。Spring Security是Spring生态系统的一部分&#xff0c;它提供了一种强大的方法来实现身份验证和授权。本文将详细介绍如何使用Spring Security来…

树莓派登录后运行PYTHON

网上记录的登录方式 通过服务 通过rd.local 通过 通过服务启动&#xff0c;可能会导致PYTHON代码部份未运行&#xff08;加SLEEP后可能也不行&#xff09; 注意完整路径 启动前先测试一下&#xff0c;否则可能启动后无效果 开机自启动脚本方法之一&#xff08;.Desktop文件…

uniapp iOS离线打包——原生工程配置

uniapp iOS离线打包&#xff0c;如何配置项目工程&#xff1f; 文章目录 uniapp iOS离线打包&#xff0c;如何配置项目工程&#xff1f;工程配置效果图DebugRelease 配置工程配置 Appkey应用图标模块及三方SDK配置未配置模块错误配置模块TIP: App iOS 离线打包 前提&#xff1a…

Javascript小案例-进度条(配置对象版)

gif演示图&#xff1a; 代码&#xff1a; 进度条(配置对象版).html <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"&…

一个关于IntroductionAdvisor的bug

一个关于IntroductionAdvisor的bug public class TestMain {public static void main(String[] args) {// 1. 准备被代理的目标对象People peo new People();// 2. 准备代理工厂ProxyFactory pf new ProxyFactory();// 3. 准备introduction advice,advice 持有需要额外添加的…

ps[001] 初学创建剪切蒙版

前置条件&#xff1a;PS2020版本 技能应用&#xff1a;ps 海报标题和图片结合 1、画布1300*1300像素&#xff0c;altdel设置背景为前景色 2、准备一张绿色的海报&#xff0c;可以百度宫崎骏&#xff0c;找张绿色的图片就可以了 3、拉个文字款&#xff0c;写个SUMMER英文体&a…

java面试题-集合类基础

导学 这次课程主要涉及到的是List和Map相关的面试题&#xff0c;比较高频就是 ArrayList LinkedList HashMap ConcurrentHashMap ArrayList底层实现是数组LinkedList底层实现是双向链表HashMap的底层实现使用了众多数据结构&#xff0c;包含了数组、链表、散列表、红黑树等…

机器学习笔记 - k-NN算法的数学表达

一、概述 所有的机器学习算法都是有假设前提的。k-NN算法的假设前提是相似的输入有相似的输出。其分类规则是对于测试输入x,在其k个最相似的训练输入中分配最常见的标签。 k-NN 的正式定义: 对于一个待测试数据。 将的个最近邻的集合表示为 。的正式定义为 ,并且。(意思就是…