机器学习实战:Python基于LDA线性判别模型进行分类预测(五)

news2025/1/13 7:34:40

文章目录

    • 1 前言
      • 1.1 线性判别模型的介绍
      • 1.2 线性判别模型的应用
    • 2 demo数据演示
      • 2.1 导入函数
      • 2.2 训练模型
      • 2.3 预测模型
    • 3 LDA手写数字数据演示
      • 3.1 导入函数
      • 3.2 导入数据
      • 3.3 输出图像
      • 3.4 建立模型
      • 3.5 预测模型
    • 4 讨论

1 前言

1.1 线性判别模型的介绍

线性判别模型(Linear Discriminant Analysis,LDA)是一种经典的监督学习算法,它旨在通过学习输入特征和它们所属类别之间的线性关系来进行分类任务。线性判别模型通常可以被看作是一种分类器,可以用于二元分类和多元分类问题。

线性判别模型的主要思想是将输入特征空间中的样本投影到一条直线或者一个超平面上,从而实现对样本的分类。这个超平面的选择是通过最小化类内距离和最大化类间距离来完成的。类内距离指的是同一类别样本之间的距离,类间距离则指不同类别样本之间的距离。通过最小化类内距离和最大化类间距离,线性判别模型能够更好地区分不同类别的样本。

优点:

  • 线性判别模型是一种经典的监督学习算法,具有较高的可解释性和可理解性,能够提供直观的结果。

  • 线性判别模型具有较快的训练速度和较低的存储成本,适用于处理大型数据集。

  • 线性判别模型能够在高维数据中很好地工作,并且在特征选择方面具有很好的性能。

缺点:

  • 线性判别模型是一种线性模型,对于非线性分类问题的表现可能较差。

  • 线性判别模型对于噪声数据和异常值比较敏感,容易造成误分类。

  • 线性判别模型的分类效果受特征之间相关性的影响,如果存在高度相关的特征,分类效果可能较差。

1.2 线性判别模型的应用

线性判别模型广泛应用于数据分类、降维和特征提取等领域,在实际应用中有很多场景,例如:

  1. 信用评分:根据用户的个人信息和历史数据,对其信用评分进行分类,以决定是否批准贷款。

  2. 医学诊断:根据患者的生理指标和症状,将其分为健康和患病两类,以进行诊断和治疗。

  3. 人脸识别:根据人脸图像的特征向量,将其分为不同的人脸类别,以实现人脸识别和身份验证。

  4. 情感分析:根据文本内容中的关键词和情感指标,将其分为正面、负面和中性等不同的情感类别。

  5. 图像分类:根据图像的特征向量,将其分为不同的图像类别,以进行图像识别和分类等。

在生信领域还是常用于基因表达数据分析、蛋白结构预测、biomarker鉴定和药物设计,LDA可以用于分析分子结构和描述化学性质,从而优化药物设计和发现。

2 demo数据演示

2.1 导入函数

import numpy as np 
import matplotlib.pyplot as plt 
from mpl_toolkits.mplot3d import Axes3D
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.datasets import make_classification

2.2 训练模型

# 制作四个类别的数据,每个类别100个样本
X, y = make_classification(n_samples=1000, n_features=3, n_redundant=0,
                           n_classes=4, n_informative=2, n_clusters_per_class=1,
                           class_sep=3, random_state=10)
# 可视化分布
fig = plt.figure()
ax = Axes3D(fig, rect=[0, 0, 1, 1], elev=20, azim=20,auto_add_to_figure=False)
fig.add_axes(ax)
ax.scatter(X[:, 0], X[:, 1], X[:, 2], marker='o', c=y)
plt.show()

建模

# 建立 LDA 模型
lda = LinearDiscriminantAnalysis()
# 训练模型
lda.fit(X, y)
# 查看 LDA 模型的参数
lda.get_params()

2.3 预测模型

# 进行模型预测
X_new = lda.transform(X)
# 可视化预测数据
plt.scatter(X_new[:, 0], X_new[:, 1], marker='o', c=y)
plt.show()

用新数据测试

a = np.array([[-1, 0.1, 0.1]])
print(f"{a} 类别是: ", lda.predict(a))
print(f"{a} 类别概率分别是: ", lda.predict_proba(a))

a = np.array([[-12, -100, -91]])
print(f"{a} 类别是: ", lda.predict(a))
print(f"{a} 类别概率分别是: ", lda.predict_proba(a))

a = np.array([[-12, -0.1, -0.1]])
print(f"{a} 类别是: ", lda.predict(a))
print(f"{a} 类别概率分别是: ", lda.predict_proba(a))

a = np.array([[0.1, 90.1, 9.1]])
print(f"{a} 类别是: ", lda.predict(a))
print(f"{a} 类别概率分别是: ", lda.predict_proba(a))

3 LDA手写数字数据演示

3.1 导入函数

from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.metrics import classification_report, confusion_matrix
import seaborn as sns
import matplotlib

3.2 导入数据

# 导入MNIST数据集
mnist = load_digits()
# 查看数据集信息
print('The Mnist dataeset:\n',mnist)
# 分割数据为训练集和测试集,7/3分
x, test_x, y, test_y = train_test_split(mnist.data, mnist.target, test_size=0.3, random_state=2)

3.3 输出图像

images = range(0,9)
plt.figure(dpi=100)
for i in images:
    plt.subplot(330 + 1 + i)
    plt.imshow(x[i].reshape(8, 8), cmap = matplotlib.cm.binary,interpolation="nearest")
# show the plot

plt.show()

3.4 建立模型

# 建立 LDA 模型
m_lda = LinearDiscriminantAnalysis()
# 训练模型
m_lda.fit(x, y)
# 进行模型预测
x_new = m_lda.transform(x)
# 可视化预测数据
plt.scatter(x_new[:, 0], x_new[:, 1], marker='o', c=y)
plt.title('MNIST with LDA Model')
plt.show()

3.5 预测模型

y_test_pred = m_lda.predict(test_x)
print("测试集的真实标签:\n", test_y)
print("测试集的预测标签:\n", y_test_pred)

# 统计结果指标
print(classification_report(test_y, y_test_pred))

# 计算混淆矩阵
C2 = confusion_matrix(test_y, y_test_pred)
# 打混淆矩阵
print(C2)

# 将混淆矩阵以热力图的防线显示
sns.set()
f, ax = plt.subplots()
# 画热力图
sns.heatmap(C2, cmap="YlGnBu_r", annot=True, ax=ax)  
# 标题 
ax.set_title('confusion matrix')
# x轴为预测类别
ax.set_xlabel('predict')  
# y轴实际类别
ax.set_ylabel('true')  
plt.show()

4 讨论

LDA模型还是比较简明扼要的,主要是针对于线性可分数据,判别目的就是使同类别的距离相近,使不同类别的距离隔远。对于非线性可分数据需要特别留意实际情况。

LDA是一种监督学习的降维技术,且每个样本都是区分类别输出的;区别于PCA,PCA是不考虑样本类别的无监督降维技术,但是目的是一样的,都可以理解为将同类别的数据。相比于后者,LDA我认为最大的优势就是基于监督可以参考类别的先验经验,即可以不断“叠加”;然鹅很硬性的一个缺点就是不适合对非高斯分布样本进行降维,这个问题PCA也存在。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/436018.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue2使用sync修饰符父子组件的值双向绑定

1、使用场景 当我需要对一个 prop 进行“双向绑定的时候,通常用在封装弹窗组件的时候来进行使用,当然也会有其他的使用场景,只要涉及到父子组件之间需要传参的都可以使用,尽量不要使用watch监听来进行修改值,也不要尝试…

GCC编译器的使用

源文件需要经过编译才能生成可执行文件。GCC是一款强大的程序编译软件,能够在多个平台中使用。 1. GCC编译过程 主要分为四个过程:预处理、编译、汇编、链接。 1.1 预处理 主要处理源代码文件中以#开头的预编译指令。 处理规则有: &…

怎么使用midjourney?9个步骤教你学会AI创作

人工智能生成艺术作品的时代已经来临,互联网上到处都是试图创造完美提示的用户,以引导人工智能创造出正确的图像——有时甚至是错误的图像。听起来很有趣?Midjourney 是一种更常见的 AI 工具,人们用它只用几句话就能创造出梦幻般的…

【Linux系统编程】15.fcntl、lseek、truncate

目录 fcntl lseek 参数fd 参数offset 参数whence 返回值 应用场景 测试代码1 测试结果 测试代码2 测试结果 查看文件方式 truncate 参数path 参数length 测试代码3 测试结果 fcntl 获取文件属性、修改文件属性。 int flgsfcntl(fd,F_GETFL); //获取 flgs|…

微服务架构是什么?

一、微服务 1、什么是微服务? 微服务架构(通常简称为微服务)是指开发应用所用的一种架构形式。通过微服务,可将大型应用分解成多个独立的组件,其中每个组件都有各自的责任领域。在处理一个用户请求时,基于…

DOM事件流

DOM事件流 1. 常用事件绑定方式1.1 对象属性绑定1.2 addEventListener()绑定1.3 两种方式区别 2. 事件流2.1 概念2.2 事件顺序2.2.1 捕获阶段2.2.2 目标阶段2.2.3 冒泡阶段 3. 阻止事件冒泡3.1 event.stopPropagation()3.2 stopPropagation与stopImmediatePropagation区别 4. 事…

“科技助力财富增值 京华四季伴您一生”,北银理财深化线下线上客户交流互动

2023年4月12日,北银理财有限责任公司(以下简称“北银理财”)携手东方财富网启动北银理财财富号,首次采用线上直播及线下主题演讲相结合的方式,在上海举办以“科技助力财富增值,京华四季伴您一生”为主题的机…

6、springboot快速使用

文章目录 1、最佳实践1.1、引入场景依赖1.2、查看自动配置了哪些(选做)1.3、是否需要修改配置1、修改配置2、自定义加入或者替换组件3、自定义器 XXXXXCustomizer 2、开发小技巧2.1、Lombok1、引入坐标2、在IDEA中安装lombok插件(新版默认安装…

趣说数据结构 —— 前言

趣说数据结构 —— 前言 一次偶然的机会,翻到当初自己读大学的时候教材,看着自己当初的勾勾画画,一时感触良多。 很值得一提的是,我在封面后第一页,写着自己的专业和名字的地方下面,写着几行这样的字&…

leetcode刷题(6)

各位朋友们大家好,今天是我的leetcode刷题系列的第六篇。这篇文章将与队列方面的知识相关,因为这些知识用C语言实现较为复杂,所以我们就只使用Java来实现。 文章目录 设计循环队列题目要求用例输入提示做题思路代码实现 用栈实现队列题目要求…

Vue2-黑马(七)

目录: (1)router-路由嵌套 (2)router-路由跳转 (3)router-导航菜单 (1)router-路由嵌套 我们有这样的需求,我们已经显示了主页,但是主页里面有&…

SpringBoot数据库换源

文章目录 前言一. baomidou提供换源注解 DS二. 手动数据源切换三. AOP自动换源 前言 笔者知道有三种方式: baomidou提供的DS自定义AOP自动换源实现AbstractRoutingDataSource手动换源 一. baomidou提供换源注解 DS 注意 1.不能使用事务,否则数据源不会切换&…

云原生入门

云原生入门. 云原生是一种设计和构建应用程序的方法,它充分利用了云计算的优势,如弹性、可扩展性、自动化和敏捷性。云原生应用程序不仅可以在云中运行,而且是为云而生的,它们采用了一些新式的技术和架构模式,使得应用…

零基础入门python好学么

python对于零基础的小伙伴算是非常友好的了~ python以简单易学著称~ Python简洁,高效的特点,大大提升了程序员的编码速度,极大的提高了程序员的办公效率,比如用其他编程语言5、6行代码才能整明白的,用Python可能1-2行就…

不应使用Excel进行项目资源规划的 7 个原因

项目资源规划早期仅限于基本分配和调度。因此,企业使用自制工具或excel表来执行这一简单功能。然而,随着技术和业务流程的发展,资源规划变得复杂,并包括其他组成部分,如预测和容量规划,优化等。 由于传统…

1.BootstrapTable组件

1.先在页面声明一个表格对象 <table id"table" class"table table-striped"></table> 2.生成表格JS代码如下 var url /log/;var columns [{checkbox: true,visible: true //是否显示复选框},{field: id,title: 序号,width…

若依框架—基于AmazonS3实现OSS对象存储服务

若依框架—基于AmazonS3实现OSS对象存储&#xff0c;其他也适用 文章目录 若依框架—基于AmazonS3实现OSS对象存储&#xff0c;其他也适用上一篇[若依mybatis升级mybatis-plus&#xff0c;其他也适用](https://blog.csdn.net/omnipotent_wang/article/details/128635654?spm10…

MYSQL:查询数据

一、学习目标 了解基本查询语句掌握表单查询的方法掌握如何使用几何函数的查询掌握连接查询的方法掌握如何使用子查询熟悉合并查询结果熟悉如何为表和字段取别名掌握如何使用正则表达式查询掌握数据表的查询操作技巧和方法 二、实验内容 根据不同条件对表进行查询操作&#…

Unity Game FrameWork—模块使用—对象池使用

使用对象池&#xff0c;需继承ObjectBase。首先创建一个OPGame的类&#xff0c;继承于ObjectBase&#xff0c;我们暂且把它叫做OP对象&#xff0c;如下图 OP对象有两个地方可以存储成员对象或变量&#xff0c;一个是在OP对象内部如模型ID&#xff1a;m_ModelID。另一个则是对…

【LeetCode训练营02】两个非空链表相加 详解

目录 题目 解题思路的分享 解题源码的分享 题目 给你两个 非空 的链表&#xff0c;表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的&#xff0c;并且每个节点只能存储 一位 数字。 请你将两个数相加&#xff0c;并以相同形式返回一个表示和的链表。 你可以…