通过逻辑回归和随机梯度下降法对乳腺癌数据集breastCancer和鸢尾花数据集iris进行线性分类

news2024/11/26 5:38:27

文章目录

  • 线性回归和逻辑回归
  • StandardScaler处理
  • 线性分类
    • 乳腺癌数据集breastCancer
    • 鸢尾花数据集iris


线性回归和逻辑回归

线性回归就是预测一个连续变量的值,线性回归假设因变量和自变量之间是线性关系的,线性回归要求因变量是连续性数值变量训练数据的特征作为自变量,训练数据所属于的类别作为因变量,假设在因变量和自变量之间存在线性函数关系式,通过大量的训练样本对模型进行训练,然后不断调整函数关系式中的权重也就是参数值,使得到的这个函数关系式能够针对每个训练样本给出符合预期的结果。在这个训练参数的过程中依据的是平方差也就是预测值和实际值之间的平方差作为cost函数,要使参数的值满足cost函数的值最小,通过不断的减少cost的值来不断的优化参数的值。这里求出的函数模型是一个连续函数,在二维空间中可以使用一条直线来表示,当数据的特征值增大的时候会是相应维数空间上的一个线性超平面。
逻辑回归一般用于分类,用来表示某件事情发生的可能性,因为它的输出值在[0, 1]之间可以看出是一种概率。在这里以二分类为例说明,假设因变量和自变量之间的关系是非线性,一般的输出的值在[0, 1]之间,也就是两个类别,一个是0,一个是1,在x<0的时候使y=0,当x=0时,y=0.5,当x>0的时候,y=1,但是这样的函数关系式不连续,所以使用sigmoid函数进行拟合,这样使因变量和自变量之间的函数关系式为非线性的并可以限制输出在[0, 1]之间。逻辑回归可以看成是在线性回归的基础上加了一个 Sigmoid 函数,逻辑回归使用对数函数作为cost函数。
线性回归一般解决回归问题,也就是预测连续的、具体的数值。应用在一些数据的拟合,用于预测一些值,将其按照之前训练好的模型预测出未出现的值。


StandardScaler处理

对数据集进行StandardScaler处理和MinMaxScaler处理有所区别

StandardScaler主要是用来去均值和方差归一化的,通过pycharm中查看源码显示Standardize features by removing the mean and scaling to unit variance。这个函数使用的计算方法为z = (x - u) / s,u is the mean of the training samples or zero if with_mean=False,and s is the standard deviation of the training samples or one if with_std=False.通过这个操作可以让数据都在0附近,方差为1,这样使数据更加集中更加聚集,还可以用训练集的参数也就是训练集的方差和均值来标准化测试集,将样本的特征值转换到同一量纲下,常用与基于正态分布的算法,比如回归。
MinMaxScaler主要是用来标准化数据集的特征到一个指定的范围,默认是[0, 1],通过pycharm中查看源码显示Transform features by scaling each feature to a given range.这个函数使用的计算方法为X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))。这种方法是对原始数据的线性变换,一般是将数据归一到[0,1],这种方法只适用于数据在一个范围内分布的情况,可以提升模型收敛速度,提升模型精度,常见用于神经网络。


# # 使用StandrdScaler预处理数据集,使其离差标准化
scaler = StandardScaler()
scaler.fit(X_train)
X_train_scaler = scaler.transform(X_train)
X_test_scaler = scaler.transform(X_test)

# # 使用MinMaxScaler预处理数据集,使其离差标准化
# scaler = MinMaxScaler().fit(X_train)
# X_train_scaler = scaler.transform(X_train)
# X_test_scaler = scaler.transform(X_test)

线性分类

代码分别使用了LogisticRegression和SGDClassifier两种分类方法(SGD,随机梯度下降,Stochastic Gradient Descent)

# 使用LogisticRegreeion分类器学习和测试
lr = LogisticRegression()
lr.fit(X_train_scaler, y_train)
y_pred_lr = lr.predict(X_test_scaler)

# 使用SGDClassifier分类器学习和测试
sgd = SGDClassifier()
sgd.fit(X_train_scaler, y_train)
y_pred_sgd = sgd.predict(X_test_scaler)

每次运行代码,线性分界面位置和分类准确率都不同,针对LogisticRegression创建的逻辑回归分类器,它使用的训练样本和测试样本是在之前使用train_test_split函数进行分类的,,其中有个random_state参数,相当于一个随机数种子,如果将这个参数设置为一个整数后就可以保证训练集和测试集的可重见性,所以在这个函数的参数设置之后,LogisticRegression分类器的准确率就会保持不变,但是SGDClassifier分类器的准确率还是会变化,因为SGDClassifier是随机梯度下降法分类器,每次迭代都随机从训练集中抽取出1个样本,所以可能就会在不是用到全部的训练数据就使cost函数的值在可接受范围之内,所以每次的准确率不一样。
并不代表分类器的性能是不稳定的,因为这个准确率可以保证在一定的范围内,可以有效的预防过拟合的现象发生。
可以使用模型的平均准确率来评判模型的性能,因为模型可能会受噪声点的影响,因为数据集在分割的时候如果噪声点的分类可能会造成过拟合或者是会造成模型判断的准确性降低。

乳腺癌数据集breastCancer

截取程序中准确率较高的结果如下,使用20和29维特征:

在这里插入图片描述

当使用第20和第25维特征的时候的分类准确率

在这里插入图片描述

鸢尾花数据集iris

使用第0维(‘sepal length (cm)’)和第2维(‘petal length (cm)’)特征的时候结果如下:

在这里插入图片描述

使用第0维(‘sepal length (cm)’)和第1维(‘sepal width (cm)’)特征的时候结果如下:

在这里插入图片描述

使用第1维(’ sepal width (cm)')和第2维(‘petal length (cm)’)特征的时候结果如下:

在这里插入图片描述

使用第2维(‘petal length (cm)’)和第3维(petal width (cm))特征的时候结果如下:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/13138.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

百果园再冲刺港交所上市:扩张靠加盟和放贷,余惠勇夫妇为实控人

11月16日&#xff0c;深圳百果园实业股份有限公司&#xff08;下称“百果园”&#xff09;再次在港交所递交上市申请材料。据贝多财经了解&#xff0c;这已经是百果园第二次递交招股书。相较于此前招股书&#xff0c;百果园补充披露了截至2022年6月30日的财务数据等信息。 据招…

Allegro模块镜像详细操作教程

Allegro模块镜像详细操作教程 Allegro支持模块镜像,以下面这个模块为例 Placement edit模式下,创建一个mdd文件 复用这个模块 复用后先别放下来,右击mirror 再放下来,模块内的孔,铜皮,线,器件都被镜像好了 This section is describe what the function allegro ha…

学校官网首页 2页网页设计(HTML+CSS+JavaScript)

⛵ 源码获取 文末联系 ✈ Web前端开发技术 描述 网页设计题材&#xff0c;DIVCSS 布局制作,HTMLCSS网页设计期末课程大作业 | 校园班级网页设计 | 我的班级网页 | 我的学校 | 校园社团 | 校园运动会 | 等网站的设计与制作 | HTML期末大学生网页设计作业&#xff0c;Web大学生网…

Tomcat 安装和简单介绍

目录 Tomcat是什么? Tomcat下载安装 Tomcat目录介绍 Tomcat 启动 在 Tomcat 上部署静态页面 1.部署单个 HTML 2.部署 HTML到单独的目录 Tomcat是什么? Tomcat 是一个HTTP服务器&#xff01; 我们在开发项目时&#xff0c;需要实现一个服务器来搭建网站的“后端部分”&a…

Js轮播图

效果图 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><style>*{m…

【Logback+Spring-Aop】实现全面生态化的全链路日志追踪系统服务插件「Logback-MDC篇」

日志追踪 日志追踪对于功能问题的排查和数据流转的路径分析时非常重要的&#xff0c;有了全链路日志追踪体系机制可以非常有效且快速的定位问题&#xff0c;但在多线程环境中&#xff0c;若没有相关成熟的框架的支持&#xff0c;想要实现日志追踪&#xff0c;就需要手动将主线…

流程表单初体验

文章目录1. 表单分类2. 动态表单3. 启动带表单的实例4. 查询任务上的表单5. 保存与完成有小伙伴在星球上催了好几次了&#xff0c;今天松哥就来和大家聊一聊流程中的表单。1. 表单分类 整体上来说&#xff0c;我们可以将表单分为三种不同的类型&#xff1a; 动态表单&#xf…

string的应用及模拟实现

目录 string的应用 insert函数 insert插入字符串 insert插入string对象 erase函数 erase的使用方法&#xff1a; assign函数 assign的第一种使用方法&#xff1a; assign的第二种使用方法&#xff1a; replac函数&#xff1a; replace的一种使用方法&#xff1a; find …

Java集合使用实验

1. 在HashSet集合中添加三个Person对象&#xff0c;把姓名相同的人当做同一个人&#xff0c;禁止重复添加。要求如下: Person类中定义name和age属性&#xff0c;重写hashCode()方法和equals()方法&#xff0c;针对Person类的name属性进行比较&#xff0c;如果name相同&#xf…

一行代码解决Scrollview和TextInput焦点获取问题

前言 业务开发中搜索框和列表的组合页面应该是比较常见的场景&#xff0c;那么有什么坑呢&#xff1f; 最近在开发过程就遇到了一个问题&#xff0c;输入搜索关键词查询接口返回数据后&#xff0c;点击列表项并返回上个页面时&#xff0c;发现需要两次点击&#xff0c;纳尼&a…

ConcurrentHashMap的transfer阅读

[TOC] 流程图 ConcurrenthashMap 的 transfer 主要是用于扩容重组阶段&#xff0c;当内部数组的容量值超过阈值时&#xff0c;将触发扩容重组&#xff0c; transfer 是该过程的主要实现。 相关概念 ConcurrentHashMap 中&#xff0c;使用一个字段复用了多种功能&#xff0c;…

Spring七天速成[精简版]:入门必看(一)收藏起来

“天生我材必有用&#xff0c;千金散尽还复来&#xff01;” ----------持续更新Spring入门系列知识点------------- 你的点赞、关注、评论、是我创作的动力&#xff01; -------希望我的文章对你有所帮助-------- 前言&#xff1a;其实学习编程从来没有捷径&#xff0c;只有…

传奇架设gom引擎常见问题

传奇架设gom引擎常见问题 M2出现服务器启动异常&#xff01;&#xff01;&#xff01;An error occurred while attempting to initialize the Borland Database Engine 解决方法&#xff1a;解决方法:打开C盘删除PDOXUSRS.NET文件,重启电脑即可,如果无效请用下面这个方法 开…

数组:矩阵快速转置 矩阵相加 三元组顺序表/三元矩阵 随机生成稀疏矩阵 压缩矩阵【C语言,数据结构】(内含源代码)

目录 题目&#xff1a; 题目分析&#xff1a; 概要设计&#xff1a; 二维矩阵数据结构&#xff1a; 三元数组\三元顺序表顺序表结构&#xff1a; 详细设计&#xff1a; 三元矩阵相加&#xff1a; 三元矩阵快速转置&#xff1a; 调试分析&#xff1a; 用户手册&#xff…

“互联网寒冬”来袭,软件测试人员该如何度过这次危机?

互联网寒冬对测试人的影响 去年还在全网声讨互联网企业996呢&#xff0c;今年突然没声音了&#xff0c;也不用讨论在哪个路灯上吊死互联网资本家了&#xff0c;因为都被裁了。 继教育培训领域大幅度裁员之后&#xff0c;大厂裁员消息也开始陆续传出&#xff0c;百度AIG,MEG多…

Linux进阶-用户管理与文件权限

目录 用户和用户组 三个核心文件 /etc/passwd /etc/group /etc/shadow 文件权限 用户和用户组 用户&#xff1a;Linux系统的使用者。包括了管理员、系统用户和普通用户。 用户组&#xff1a;由一个用户或多个用户组成。用户与用户组关系可以为一对一、一对多、多对一、多…

从零开始搭建一个微服务项目(一)

文章目录Nacos搭建一. 安装nacos二.创建项目导入依赖三. 进行配置四.引入Feign远程调用五.引入RIbbon负载均衡六.Nacos配置中心Nacos搭建 一. 安装nacos 我安装的是window版&#xff0c;可参照该教程nacos安装教程 二.创建项目导入依赖 首先我们先创建一个主工程。 引入如下…

透明窗体和控件

调用函数设置窗体透明度&#xff1a; setWindowOpacity(x); x(0-1)可以为小数 0.1 0.2 0.3等 x0 时完全透明k1时不透明setWindowOpacity(0.5); 当有控件时&#xff0c;控件也变透明&#xff0c;在ui界面中添加两个按钮 使窗体透明但控件不透明 setWindowFlag&#xff08;Qt:…

【MQ工作队列模式】

1、模式介绍 ⚫Work Queues&#xff1a;与入门程序的简单模式相比&#xff0c;多了一个或一些消费端&#xff0c; 多个消费端共同消费同一个队列中的消息。 ⚫ 应用场景&#xff1a;对于任务过重或任务较多情况使用工作队列可以提高任务处 理的速度。 小结: 1、在一个队列中如果…

初学Nodejs(3):http模块

初学Nodejs http模块 1、概念 什么是客户端与服务端 在网络节点中&#xff0c;负责消费资源的电脑&#xff0c;叫做客户端&#xff1b;负责对外提供网络资源的电脑叫做服务器 http模块是Nodejs官方提供的、用来创建web服务器的模块。通过http模块提供的http.createServe()方…