数据可视化实验二:回归分析、判别分析与聚类分析

news2024/10/5 14:27:57

目录

一、使用回归分析方法分析某病毒是否与温度呈线性关系

1.1 代码实现

1.2 线性回归结果

1.3 相关系数验证

二、使用判别分析方法预测某病毒在一定的温度下是否可以存活,分别使用三种判别方法,包括Fish判别、贝叶斯判别、LDA

2.1 数据集展示:实验二2-2.csv

2.2 代码实现

2.3 判别结果

三、使用聚类分析方法分析病毒与温度、湿度的关系

3.1 代码实现

3.2 聚类分析结果

未完待续-----


一、使用回归分析方法分析某病毒是否与温度呈线性关系

数据集:实验三2-1.xls

T

COUNT

5

1000

10

950

12

943

14

923

20

910

21

900

25

889

27

879

30

870

32

832

33

827

35

801

38

783

40

620

 

采用线性回归分析方法

1.1 代码实现


import pandas as pd
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
# 中文字体调整
plt.rcParams['font.family'] = ['Arial Unicode Ms']

# 读取 Excel 文件并创建数据框
file_path = '实验三3-1.xls'
data = pd.read_excel(file_path)

# 定义自变量和因变量
X = data[['T']]
y = data['COUNT']

# 创建并拟合线性回归模型
model = LinearRegression()
model.fit(X, y)

# 获取回归系数和截距
slope = model.coef_[0]
intercept = model.intercept_

# 打印回归方程
print(f"回归方程: 病毒存活数 = {intercept:.2f} + {slope:.2f} * 温度")

# 绘制散点图和回归线
plt.scatter(X, y, color='blue', label='实际数据')
plt.plot(X, model.predict(X), color='red', linewidth=2, label='拟合回归线')
# 主题
plt.title('病毒存活数量与温度的线性关系')
plt.xlabel('温度(℃)')  # x 轴标签添加属性和单位
plt.ylabel('病毒存活数量(个)')  # y 轴标签添加属性和单位
plt.legend()
plt.show()

1.2 线性回归结果

回归方程如下

将线性回归结果绘制成如下图形

可以看出,除了40摄氏度下的病毒存活数量偏低,其他点都很好的符合回归方程: 病毒存活数 = 1048.50 + -7.46 * 温度。

1.3 相关系数验证

(1)代码如下

import pandas as pd

# 读取 Excel 文件并创建数据框
file_path = '实验三3-1.xls'
data = pd.read_excel(file_path)

# 计算 Pearson 相关系数
pearson_corr = data['T'].corr(data['COUNT'], method='pearson')

# 计算 Spearman 相关系数
spearman_corr = data['T'].corr(data['COUNT'], method='spearman')

print(f"Pearson 相关系数: {pearson_corr:.2f}")
print(f"Spearman 相关系数: {spearman_corr:.2f}")

(2)根据数据集计算出的相关系数结果如下

根据计算结果可以得出结论:温度与病毒数量之间呈现出较强的负相关关系。

Pearson相关系数为-0.89,表明温度与病毒数量之间存在着高度负相关关系。即随着温度的升高,病毒数量呈现下降的趋势;反之,温度降低时,病毒数量则可能增加。Spearman相关系数为-1.00,说明温度与病毒数量之间存在着完全的负相关关系,即它们的关系是单调递减的,温度每上升一个单位,病毒数量就会减少一个单位。

综合以上分析,可以得出结论:温度与病毒数量之间呈现出明显的负相关关系,即温度的变化对病毒数量有着显著的影响,通常情况下温度升高会导致病毒数量减少,而温度降低则可能导致病毒数量增加。

二、使用判别分析方法预测某病毒在一定的温度下是否可以存活,分别使用三种判别方法,包括Fish判别、贝叶斯判别、LDA

2.1 数据集展示:实验二2-2.csv

temperature

humidity

class

5.127

74.978

1

-9.274

96.247

1

-21.371

79.613

1

-37.5

85.109

1

-51.325

69.282

1

-52.477

80.49

0

-39.804

71.718

1

-30.588

60.388

1

1.671

69.788

1

13.191

78.306

1

38.537

60.747

1

52.938

65.94

1

53.882

73.829

0

23.675

60.753

1

2.2 代码实现

import pandas as pd

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
import numpy as np

# 生成包含极端数据的随机数据
np.random.seed(42)
random_temperatures = np.array([-70.0, 45.0, 23.0, 9.0, -50.0, -50.0, 50.0, 36.0, 10.0, 20.0])
random_humidity = np.array([10.0, 98.0, 93.0, 68.0, 5.0, 100.0, 95.0, 80.0, 77.0, 70.0])

new_data = pd.DataFrame({'temperature': random_temperatures, 'humidity': random_humidity})

# 读取 Excel 文件并创建数据框
file_path = '实验三3-2.csv'
data = pd.read_excel(file_path)
df = pd.DataFrame(data)

X = df[['temperature', 'humidity']]
y = df['class']

# Fisher判别
lda = LinearDiscriminantAnalysis()
lda.fit(X, y)

# 贝叶斯判别
nb = GaussianNB()
nb.fit(X, y)

# LDA
qda = QuadraticDiscriminantAnalysis()
qda.fit(X, y)

# 新数据预测
fisher_pred = lda.predict(new_data)
bayes_pred = nb.predict(new_data)
lda_pred = qda.predict(new_data)

# 输出结果
result_map = {0: '不可以存活', 1: '可以存活'}
fisher_pred_label = [result_map[pred] for pred in fisher_pred]
bayes_pred_label = [result_map[pred] for pred in bayes_pred]
lda_pred_label = [result_map[pred] for pred in lda_pred]

output_data = pd.DataFrame({
    'temperature': random_temperatures,
    'humidity': random_humidity,
    'Fisher判别预测结果': fisher_pred_label,
    '贝叶斯判别预测结果': bayes_pred_label,
    'LDA预测结果': lda_pred_label
})

print("随机生成的10组数据及其三种判别结果:")
print(output_data)

2.3 判别结果

三、使用聚类分析方法分析病毒与温度、湿度的关系

数据集与上题相同,此处不作呈现;

另外采用三种聚类分析方法,包括要求的k-均值聚类、层次聚类,还使用了高斯混合模型(GMM)聚类。

3.1 代码实现

import pandas as pd
import numpy as np
from sklearn.cluster import KMeans, AgglomerativeClustering
from sklearn.mixture import GaussianMixture
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = ['Arial Unicode Ms']

# 读取 Excel 文件并创建数据框
file_path = '实验三3-2.csv'
data = pd.read_excel(file_path)
df = pd.DataFrame(data)

# k-均值聚类
kmeans = KMeans(n_clusters=2)
df['kmeans_cluster'] = kmeans.fit_predict(df[['temperature', 'humidity']])

# 层次聚类
agg = AgglomerativeClustering(n_clusters=2)
df['agg_cluster'] = agg.fit_predict(df[['temperature', 'humidity']])

# 高斯混合模型聚类
gmm = GaussianMixture(n_components=3)
df['gmm_cluster'] = gmm.fit_predict(df[['temperature', 'humidity']])

# 定义红绿蓝颜色列表,熟悉的颜色,可视化效果会更好
colors_rgb = [(1, 0, 0), (0, 1, 0), (0, 0, 1)]

# 可视化结果
plt.figure(figsize=(18, 6))
plt.subplot(131)
plt.scatter(df['temperature'], df['humidity'], c=[colors_rgb[i] for i in df['kmeans_cluster']])
plt.title('K-Means聚类分析结果')
plt.xlabel('温度')
plt.ylabel('湿度')

plt.subplot(132)
plt.scatter(df['temperature'], df['humidity'], c=[colors_rgb[i] for i in df['agg_cluster']])
plt.title('层次聚类分析结果')
plt.xlabel('温度')
plt.ylabel('湿度')


plt.subplot(133)
plt.scatter(df['temperature'], df['humidity'], c=[colors_rgb[i] for i in df['gmm_cluster']])
plt.title('高斯混合模型聚类分析结果')
plt.xlabel('温度')
plt.ylabel('湿度')


plt.show()

3.2 聚类分析结果

首先是对每种聚类分析方法中蔟数量的设置,在k-均值聚类方法和层次聚类方法中,蔟设置为2种;高斯混合模型聚类种,蔟设置为3种。

通过观察绘出的图像,可以观察到在高温高湿的条件下形成一类簇,而在低温低湿的条件下形成另一类簇。在低温低湿的条件更为密集,因此低温低湿更适合病毒的生存。

未完待续-----

        其实我本以为最终上岸一定是很激动的,但却出奇的平静,但却又那么符合常理。出奇的是自己当初焦虑到做梦都是相关场景,理应非常激动,而不出奇的是与之前打比赛时的经历不谋而合,付出得越多反而越平静。此时的平静自许为成熟的平静,是对于一切结果的坦然,以及聚焦于当下道路的注意力,表现出来的就是当下没有多余的心情让我消费在结果上面,因为我认为人在与环境交互的过程中,总是需要学会接受一切正面和负面的反馈,并且使之不对自己当下的步伐产生负面影响,而这我认为是最大化我们目标的重要学习策略之一。

                                                                                                                              -------------ypp  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1831276.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

超越中心化:Web3如何塑造未来数字生态

随着技术的不断发展,人们对于网络和数字生态的期望也在不断提升。传统的中心化互联网模式虽然带来了便利,但也暴露出了诸多问题,比如数据滥用、信息泄露、权力集中等。在这样的背景下,Web3技术应运而生,旨在打破传统中…

帕金森运动小贴士,壁纸里的健康密码

🌟 在这个快节奏的时代,我们越来越关注身体的健康。今天,我想和大家分享一份特别的小贴士,它藏在一张精致的小红书壁纸里,是关于帕金森病的运动建议。帕金森病是一种常见的神经系统疾病,适当的运动对于缓解…

Excel 常用技巧(六)

Microsoft Excel 是微软为 Windows、macOS、Android 和 iOS 开发的电子表格软件,可以用来制作电子表格、完成许多复杂的数据运算,进行数据的分析和预测,并且具有强大的制作图表的功能。由于 Excel 具有十分友好的人机界面和强大的计算功能&am…

Oracle--服务器结构详解

一、Oracle服务器主要组成 实例(系统全局区SGA、后台进程)数据库程序全局区(PGA)前台进程 二、系统全局区SGA 1.高速数据缓冲区 用来存放Oracle系统最近访问过的数据块,经常或者最近被访问的数据块会被放置到高速数据…

【Win】识别Hyper-V虚拟机第一代与第二代及其差异

Hyper-V作为微软强大的虚拟化平台,允许用户创建虚拟机并安装各种操作系统。但您是否知道Hyper-V虚拟机分为第一代和第二代,并且它们之间存在一些关键差异?本文将指导您如何识别您的虚拟机属于哪一代,并详细解释两者之间的主要区别…

C#结合JS 修改解决 KindEditor 弹出层问题

目录 问题现象 原因分析 范例运行环境 解决问题 修改 kindeditor.js C# 服务端更新 小结 问题现象 KindEditor 是一款出色的富文本HTML在线编辑器,关于编辑器的详细介绍可参考我的文章《C# 将 TextBox 绑定为 KindEditor 富文本》,这里我们讲述在…

cad怎么转成pdf文件?方法很简单!

cad怎么转成pdf文件?在数字化时代,CAD图纸的转换与共享已成为日常工作中的常态。无论是建筑设计师、工程师还是学生,都可能遇到需要将CAD文件转换为PDF格式的需求。本文将为您推荐三款高效的CAD转PDF软件,让您轻松实现文件格式的转…

GPRS抄表技术是什么?

1.GPRS抄表技术概述 GPRS(GeneralPacketRadioService)抄表是一种基于移动通信网络的远程抄表技术,它利用GPRS网络进行数据传输,实现了对水、电、气等公用事业表计的实时、远程读取。这项技术的出现,极大地提升了公用事业管理的效率和准确性&…

apollo配置中心入门实践

说明: (如果微服务开发没有严格统一的代码开发规范,不建议采用apollo,否则只会更浪费时间在一堆配置上) 通常情况下,我们无论是但模块开发,还是微服务多模块开发,都采用springboot…

想要做好短视频?这5大关键点你知道吗?沈阳短视频剪辑培训

在新媒体运营中,短视频已成为抓住观众注意力的重要工具。制作成功的短视频需要细心规划和精确执行。今天小编就围绕做好短视频的五大关键点,为大家进行详细解析,帮助您提升视频的吸引力和效果。 做好短视频的5大关键点 01内容策划&#xff1…

docker通过容器id查看运行命令;Portainer监控管理docker容器

1、docker通过容器id查看运行命令 参考:https://blog.csdn.net/a772304419/article/details/138732138 docker inspect 运行镜像id“Cmd”: [ “–model”, “/qwen-7b”, “–port”, “10860”, “–max-model-len”, “4096”, “–trust-remote-code”, “–t…

【CMU 15-445】Proj3 Query Execution

Query Execution 通关记录Task1 Access Method ExecutorsSeqScanInsertUpdateDeleteIndexScanOptimizing SeqScan to IndexScan Task2 Aggregation & Join ExecutorsAggregationNextedLoopJoin Task3 HashJoin Executor and OptimizationHashJoinOptimizing NestedLoopJoin…

两台电脑如何建立局域网?三种简便方法推荐

方法一:使用网线直接连接 1、准备一根网线,长度不宜过长(建议不要超过80米,否则信号会衰减),确保两台电脑相邻或距离较近。 2、将网线的一头插入一台电脑的网口,另一头插入另一台电脑的网口。 …

MATLAB直方图有关函数的关系

histogram Histogram plot画直方图 histcounts 直方图 bin 计数 histcounts是histogram的主要计算函数。 discretize 将数据划分为 bin 或类别 histogram2 画二元直方图 histcounts2 二元直方图 bin 计数 hist和histc过时了。替换不建议使用的 hist 和 histc 实例 hist → \r…

26. 一个反射远照相物镜的设计

导论: 反摄远照相物镜是一类照相物镜的统称,他们的共同特点是有一个负光焦度的前组,和一个正光焦度的后组,至于前组和后组的具体结构,种类繁多。 反摄远物镜能同时实现大视场和大相对孔径,这类系统的长度…

工厂方法模式实战之某商场一次促销活动

目录 1.5.1、前言1.5.2、实战场景简介1.5.3、开发环境1.5.4、用传统的if-else语句实现1.5.4.1、工程结构1.5.4.2、if-else需求实现1.5.4.3、测试验证 1.5.5、工厂模式优化代码1.5.5.1、工程结构1.5.5.2、代码实现1.5.5.2.1、定义各种商品发放接口及接口实现1.5.5.2.2、定义工厂…

数据库管理-第205期 换个角度看23ai(20240617)

数据库管理205期 2024-06-17 数据库管理-第205期 换个角度看23ai(20240617)1 规范应用开发2 融合总结 数据库管理-第205期 换个角度看23ai(20240617) 作者:胖头鱼的鱼缸(尹海文) Oracle ACE Pro…

MES管理系统中的质量管理活动是什么

在制造业的广阔天地中,质量管理如同航船的指南针,指引着产品品质的航行方向。而随着科技的日新月异,MES管理系统在质量管理领域扮演着越来越重要的角色。MES管理系统不仅连接了企业的管理层与车间生产现场,更在质量管理的各个环节…

开源项目大合集(热门)

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…

如何让AI 帮你生成 git 提交信息

在协同开发的项目中,我们肯定避免不了使用git提交代码,所以经常会看到了一些描述不清的提交信息。当遇到种情况时,我们也不必为此责怪开发人员,因为我们确实很难记住你在 git 提交时刚刚做了什么。 Nutlope / aicommits 一个使用 …