透过历史的琉璃之窗:古代玻璃制品成分解析--2022年国赛C题获奖论文思考

news2024/11/17 5:50:08

问题一:数据预处理------>剔除处理无效数据

转化完美成分数据----定和为1

中心化对数比变换------消除定和限制对后续分析的影响

类别量化分析相关性

第1小问------对超过20%的比例期望计数小于5的组别---------Pearson卡方检验法

对不满足卡方前提的组别-------->建立Yates校正卡方检验法

stats.chi2_contingency(data,correction=True)

第2小问----分析统计规律------

均值,最大值,最小值,标准差,变异系数,偏度系数,峰度系数

箱线图------多组连续型数据分布的散布范围及中心位置

第3小问----聚类使得数据呈现 时序关系

建立回归方程--------建立化学成分趋势变换模型

问题二

第1小问------监督学习------>决策树法

  决策树算法的核心如何选择最优划分属性。

精准率,召回率,准确率,F1系数

查准率=正确结果数/识别总数量
  查全率=正确结果数/正确结果的总数

from sklearn.metrics import precision_score    #引入精准率

from sklearn.metrics import confusion_matrix   #引入混淆矩阵

from sklearn.metrics import classification_report    #分类指标的文本报告

#precision精准度/查准率/准确率   recall召回率  f1-sorce F1系数  support为每个标签的出现次数

#avg / total行为各列的均值(support列为总和)

y_true = [1, 0, 1, 1, 0]    #样本实际值

y_pred = [1, 0, 1, 0, 0]    #模型预测值

res = precision_score(y_true,y_pred, average=None)    #求查准率/准确率=TP / ( TP + FP )

res1 = confusion_matrix(y_true,y_pred)             #得出混淆矩阵

res2 = classification_report(y_true,y_pred)       #得到文本报告

print(res)

print(res1)

print(res2)

第2小问----亚类分类

R型聚类法得到----->特征变量------进行Q型聚类

Q型聚类(Qualitative Clustering),也称为硬聚类(Hard Clustering),属于一种将样本划分为簇的聚类方法。该方法的特点是每个样本只能划分到一个簇中,且每个簇之间没有交集。Q型聚类通常采用距离作为相似性度量标准,具体而言,根据不同的相似性度量标准可以分为以下几种:

1. K-Means聚类算法

K-Means聚类是一种基于质心的聚类算法,其过程如下:

首先随机选取k个点作为质心;

然后对于每个点,计算其到k个质心的距离,将该点归为距离最近的质心所在的簇;

接着重新计算每个簇的质心;

重复以上两步操作,直到质心不再发生变化或达到最大迭代次数。

K-Means聚类算法的优点是计算简单、速度较快,但其缺点是对初始质心的选择较为敏感,容易陷入局部最优解的问题。

2. 层次聚类算法

层次聚类算法是一种自底向上(Bottom-up)或自顶向下(Top-down)的聚类方法,其过程如下:

对于每个样本,将其视为一个独立的簇;

计算两两样本之间的相似度或距离,根据相似度或距离构建一个树形结构,即聚类树(Dendrogram);

不断合并聚类树中距离最小的两个簇,直至所有样本被合并为一个簇或达到某个预设的簇的数量。

层次聚类算法的优点是不需要事先确定聚类的数目,且可视化效果好,但其缺点是计算复杂度高,适用于样本量较小的情况。

问题三:决策树分类+Q型聚类法-----交叉检验

敏感度分析

问题四:建立灰色关联分析模型-----关联度值

成分数据

原数据/原数据之和

 中心化对数比变换

量化处理

空缺数据处理

补0处理

卡方检验

卡方分析是一种利用样本数据的实际值与理论值的符合度来判断接受还是拒绝原假设的方法,常用于分析两个分类变量之间的相关性

1.期望计数

皮尔逊卡方

释然比

线性关联

2.Pearson卡方检验

本文对“ ”组采用Pearson卡方检验。检验步骤如下:

Step1)提出假设

原假设H0:相互独立不相关

备择假设H1:有关联。

Step2)构造卡方检验统计量x2

针对类型和表面风化的分析,如下:

分析流程
算法配置
算法: Pearson卡方检验
变量: 分组变量X:{类型};变量Y:{表面风化}
分析结果
Pearson卡方检验是分析两分类变量是否存在显著性差异:显著性P值为0.009***,水平上呈现显著性,拒绝原假设,因此类型和表面风化数据存在显著性差异。

分析步骤
1. 根据列联表的数据情况,分析Pearson卡方检验是否呈现显著性(P<0.05,呈现显著性,拒绝原假设,则说明分类变量X与分类变量Y之间存在显著性差异)。
2. 若Pearson卡方检验呈现显著性,可接着根据效应指标对差异进行深入量化分析。

详细结论

输出结果1:Pearson卡方检验结果

题目

名称

类型

合计

P

铅钡

高钾

表面风化

1

12

12

24

6.88

0.009***

2

28

6

34

合计

40

18

58

注:***、**、*分别代表1%、5%、10%的显著性水平


图表说明:

上表展示了Pearson卡方检验的结果,包括数据的频数、卡方值、显著性P值。
● 若P<0.05,呈现显著性,拒绝原假设,则说明分类变量X与分类变量Y之间存在显著性差异。
● 若P>0.05,不呈现显著性,不拒绝原假设,不存在显著性差异。


智能分析:

Pearson卡方检验分析的结果显示,显著性P值为0.009***,水平上呈现显著性,拒绝原假设,因此类型和表面风化数据存在显著性差异。


输出结果2:交叉列联表热力图


图表说明:

上图展示了热力图的形式展示了交叉列联表的值,主要通过颜色深浅去表示值的大小。


输出结果3:效应量化分析

字段名/分析项

Phi

Crammer‘s V

列联系数

lambda

表面风化-类型

0.344

0.344

0.326

0.25


图表说明:

上表展示了效应量化分析的结果,包括phi、Crammer's V、列联系数、lambda ,用于分析样本的相关程度。
1. 当呈现出显著性差异(前提),结合分析效应量指标对差异性进行量化分析。
2. 效应量化指标反映的是变量之间的相关程度。
3. 根据交叉类型的不同,可以选用不同的效应量指标(交叉类型表示:交叉表横向格子数×纵向格子数)。
4. phi系数:phi相关系数的大小,表示两样本之间的关联程度。当phi系数小于0.3时,表示相关较弱;当phi系数大于0.6时,表示相关较强(用于2×2交叉类型表)。
5. Cramer's V:与phi系数作用相似,但Cramer's V系数的作用范围较广。当两个变量相互独立时,V=0,当数据中只有2个二分类变量时,Cramer's V系数的结果与phi相同(若m≠n,建议使用Cramer's V )。
6. 列联系数:简称C系数,用于3×3或4×4交叉表,但其受行列数的影响,随着R和C 的增大而增大。因此根据不同的行列和计算的列联系数不便于比较,除非两个列联表中行数和列数一致。
7. lambda:用于反应自变量对因变量的预测效果,一般情况下,其值为1时表示自变量预测因变量效果较好,为0时表明自变量预测因变量较差(X或Y有定序数据时,建议使用lambda)。

智能分析:

效应量化分析的结果显示,分析项:表面风化Cramer's V值为0.344,因此类型和表面风化的差异程度为中等程度差异。

参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2] 陆运清. 用 Pearson's 卡方统计量进行统计检验时应注意的问题[J]. 统计与决策, 2009 (15): 32-33.

3.Yates校正卡方检验

 针对问题一第二小问

 描述统计量

(1)变异系数

(2)偏度系数

(3)峰度系数

Excel快捷处理:

通过计算结果可知:偏度系数小(大)于零,说明落在均值左(右)侧的数据均偏多; 成分指标的峰度系数大(小)于零说明指标分布相比于正态分布顶部更加尖锐(平坦)或者尾部更加粗(细)

 箱线图

箱线图可反映多组连续性数据分布的散布范围以及中心位置,其中连续性变量为在一定区间范围内可随意取值的变量,且箱线图中箱子的宽度在一定程度上可以反映样本数据的波动程度,因此本文通过箱线图来统计各个化学成分指标的数据值分布特征。

箱线图绘图步骤如下:

Step1)对N个样本数据X1X2 ,...,Xn由小到大排序

Step2)根据排序后的样本数据,找出其中位数X 。中位数为箱子中间的一条线,可反映整体数据分布的平均水平。

Step3)分别计算上四分数Q1和下四分数Q2 

Step4)计算向箱体的长度Q1-Q2

Step5)分别计算出上限及下限。其中箱子的下限为下四分位数,上限为上四分位数。

Step6)绘制出上下限,须触线,箱体,并标明上下四分数以及中位数,最后绘出箱线图。

超过箱子上下方的数据为异常值数据

 针对问题一第三小问

        聚类-----时序关系

         确定风化点

(1)Q型聚类分析

Q型聚类采用离差平方和法,若分类效果好,则同类文物采样点的离差平方和应当较小,各类别之间的离差平方和应当较大。

(2)2类聚类

风化点+非风化点筛选

 建立时序关系

高钾玻璃时序------时段:未风化、轻度风化、中度风化、严重风化

铅钡玻璃时序------时段:未风化、轻度风化、中度风化、严重风化

 基于中心化对数比变换的成分数据预测建模

(1)提取中心元素

平均数是统计学中最常用的统计量,可以用以表明数据的相对集中较多的中心位置,即反映了现象总体的集中趋势

(2)回归方程

拟合算法步骤(重点)

①确认拟合曲线的类型:曲线要满足一定的趋势同时尽可能简单。

使用最小二乘法求出使得曲线误差最小时对应的曲线参数。该步骤可以通过Matlab中的曲线拟合工具箱进行实现,并导出所绘制的曲线图。

拟合优度R2

(3)预测风化点未风化时的化学含量方法

假设回归方程------对拟合曲线平移-----反向预测出未分化前数据

(4)中心化对数比逆变换

使预测值v1,v2,...,vp转化成相应的成分数据x1,x2,....,xp

  1. 预测结果

  2. 结果分析与验证

在主观分析层面

在客观分析层面

  • 问题二模型的建立与求解

 针对问题二第一小问

根据题目分析应对策略,考虑全面周到

 决策树

决策树是一种用于数据分类的方法,它有如流程图一样的树状结构,其中每个内部节点表示在一个属性上的测试,每一个分支节点表示一个测试输出,每个叶子节点表示一类或者类分布。决策树本质是一种自顶向下的逐步构造方法,它在构造的过程中一般采用信息增益度量。信息增益最大表明了数据集在分类过程中能够最大化减小其不确定性,因此ID3在构建算法的过程中所挑选的特征具有更好的分类效果。信息熵(H)以及信息增益(G)可定义如下:

其中P表示随机变量的概率,A表示特征,D代表数据集,H(D)定义为经验熵, H(Y|X)定义为条件熵,H(D|A)表示特征A在数据集D的条件下的经验条件熵。

 决策树分类结果

(1)针对未风化点数据

针对特定数据集,取70%数据为训练集,30%数据为测试集

  1. 针对风化点数据

 R型聚类分析

相似度量

  1. 相关系数

两变量xj和xk的样本相关系数作为他们的相似性度量

  1. 相关系数矩阵求解

皮尔逊相关系数矩阵

相关系数-----度量变量间的相似性

  1. 最短距离法

(4)R型聚类分析结果

(5)Q型聚类分析结果

 针对问题二第三小问

 合理性假设

划分亚类------R型聚类----了解个别变量之间的关系的亲疏程度,也可以了解各个变量组合之间的亲疏程度

敏感性分析

敏感性分析需要从定量分析的角度研究有关因素发生某种变化对某一个或一组关键指标影响程度的一种不确定分析技术。

扰动范围

  • 问题三模型的建立与求解

 针对问题三第一小问

 鉴别属性

决策树分类

 交叉验证

Q型聚类方法

针对问题三第二小问

 敏感性分析

  • 问题四模型的建立与求解

针对问题四第一小问

 灰色关联分析

对于两个系统之间的因素,其随时间或不同对象而变化的关联性大小的量度,称为关联度。在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之,则较低。因此,灰色关联分析方法,是根据因素之间发展趋势的相似或相异程度,亦即“灰色关联度”,作为衡量因素间关联程度的一种方法。

通常可以运用此方法来分析各个因素对于结果的影响程度,也可以运用此方法解决随时间变化的综合评价类问题。

模型的求解:

由于关联度值介于区间[0,1]上,且关联度值越大表示与母序列的相关性越强,关联度越高,意味着子序列与母序列之间的关联性越高,反之越低

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1377504.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据分析师面试必备,数据分析面试题集锦(六)

经常会被问到&#xff0c;“数据分析需要学习什么技能&#xff1f;”&#xff0c;“针对实际的业务场景&#xff0c;如何使用数据分析工具去分析&#xff1f;”基于此作者总结数据分析面试常用的问题&#xff0c;面试内容包括技能应用篇&#xff1a;EXCEL、SQL、Python、BI工具…

Maven_下载_安装_配置

文章参考&#xff1a;https://zhuanlan.zhihu.com/p/615382243 Maven简介 Maven 是 Apache 软件基金会的一个开源项目,是一个优秀的项目构建工具,它用来帮助开发者管理项目中的 jar,以及 jar 之间的依赖关系、完成项目的编译、测试、打包和发布等工作。 maven优点&#xff1a;…

外卖骑手与行人之间的非零和博弈

一、背景 自2013年成立以来&#xff0c;美团外卖一直保持着高速增长&#xff0c;通过提供便捷、高效的外卖服务&#xff0c;满足了大量消费者的需求。美团外卖的服务不仅限于基础的送餐服务&#xff0c;还涵盖了多种生活服务&#xff0c;如超市便利、药品配送等&#xff0c;满…

数据库和表的操作

文章目录 前言一、库的操作创建数据库字符集和校验规则操纵数据库查看数据库显示创建语句修改数据库删除数据库备份和恢复数据库还原查看连接情况 二、表的操作创建表查看表结构修改表修改表名添加一列修改某一列属性删除某一列 删除表 前言 一、库的操作 创建数据库 语法&am…

基于springboot+vue的个人健康管理系统(有文档、Java毕业设计)

大家好&#xff0c;我是DeBug&#xff0c;很高兴你能来阅读&#xff01;作为一名热爱编程的程序员&#xff0c;我希望通过这些教学笔记与大家分享我的编程经验和知识。在这里&#xff0c;我将会结合实际项目经验&#xff0c;分享编程技巧、最佳实践以及解决问题的方法。无论你是…

大创项目推荐 深度学习猫狗分类 - python opencv cnn

文章目录 0 前言1 课题背景2 使用CNN进行猫狗分类3 数据集处理4 神经网络的编写5 Tensorflow计算图的构建6 模型的训练和测试7 预测效果8 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; **基于深度学习猫狗分类 ** 该项目较为新颖&a…

小魔推行业玩法:生活美容怎么做短视频矩阵?

如今每个实体老板都想让自己生意做的更好&#xff0c;那就需要有更多获取流量的方式&#xff0c;获得大量的同城曝光&#xff1b;在市场内卷的状况下&#xff0c;通过短视频来做门店引流无疑是绝佳的方式&#xff0c;让更多同城的用户知晓自己的门店&#xff0c;这个时候通过小…

flask web服务器:运行在云服务器上的最简单的web服务器

上期文章我们分享了flask的基础知识以及如何安装flask&#xff0c;当你安装完成flask后&#xff0c;我们就可以打造自己的web服务器了。 首先我们打印最简单的hello world,并在浏览器中显示 from flask import Flask app Flask(__name__)app.route(/) def index():return he…

【网络安全】【密码学】【北京航空航天大学】实验二、数论基础(中)【C语言和Java实现】

实验二、数论基础&#xff08;中&#xff09; 一、实验内容 1、扩展欧几里得算法&#xff08;Extended Euclid’s Algorithm&#xff09; &#xff08;1&#xff09;、算法原理 已知整数 a , b ,扩展的欧几里得算法可以在求得 a , b 的最大公约数的同时&#xff0c;找到一对…

顺序图作业

顺序图作业 一. 简答题&#xff08;共7题&#xff0c;100分&#xff09; (简答题) 交互是什么&#xff1f;请举 2-3 个交互的实际例子。 正确答案&#xff1a; 一次交互就是指在特定语境中&#xff0c; 为了实现某一个目标&#xff0c; 而在一组对象之间进行交换的一组 消息所…

字体包大小缩小的软件

Fontmin - 字体子集化方案https://ecomfe.github.io/fontmin/#app

JAVA制造业MES生产管理系统源码 MES源码

JAVA制造业MES生产管理系统源码 MES源码 开发环境&#xff1a;jdkeclipsetomcatmavenmysql 开发工具&#xff1a;MyEclipse 系统说明&#xff1a; MES制造执行系统&#xff0c;其定位于制造执行系统的Java开源版本&#xff0c;系统包括系统管理&#xff0c;车间基础数据建模&am…

Oracle DBCA工具图形化方式检测不到ASM磁盘组(解决各种报错)

本例环境&#xff1a; 操作系统OEL 6.5数据库版本:11.2.0.4 问题&#xff1a;DBCA建库的时候&#xff0c;检测不到ASM磁盘组 因素一&#xff1a; 可能是在授权的时候执行了 chown –R 775 /u01/app等修改权限。 分析&#xff1a;数据库无法连接ASM&#xff0c;这应该是权限…

代码随想录算法训练营第2天 | 977.有序数组的平方 ,209.长度最小的子数组 ,59.螺旋矩阵II

数组理论基础 文章链接&#xff1a;https://programmercarl.com/%E6%95%B0%E7%BB%84%E7%90%86%E8%AE%BA%E5%9F%BA%E7%A1%80.html 977.有序数组的平方 题目链接&#xff1a;https://leetcode.cn/problems/squares-of-a-sorted-array/description/ 思路1.暴力排序 将每个数平…

国科 GK7201V200 SOC芯片

1.概述 GK7201V200 芯片是国科推出的新一代高集成度、高画质、低码率、低功耗的 AI IP Camera SoC 芯 片。 芯片集成 ARM Cortex A7 处理器&#xff0c;支持专业的 ISP 图像处理单元&#xff0c;H.265/H.264 视频编码&#xff0c;满足客户 差异化业务需求。同时集成了 Ethe…

国产六核CPU商显板,三屏异显,米尔基于全志D9360开发板

芯驰D9-Pro 自主可控、安全可信的高性能商显方案 采用国产CPU&#xff1a;集成了6个ARM Cortex-A551.6GHz 高性能CPU和1个ARM Cortex-R5800MHz&#xff1b; 高性能的高安全HSM安全的处理器&#xff0c;支持TRNG、AES、RSA、SHA、SM2/3/4/9&#xff1b; 它包含100GFLOPS 3D G…

打印的前后顺序

面试题经常会有 <script>console.log(1)setTimeout(function(){console.log(2)})console.log(3)let pnew Promise((resolve,reject) >{console.log(4)resloved(hhhhhh)})p.then(res >{console.log(res)console.log(5)},res >{console.log(7)})console.log(6)&l…

如何进行大数据系统测试

大数据系统常见的架构形式有如下几种&#xff1a; Hadoop架构&#xff1a; Hadoop Distributed File System (HDFS)&#xff1a;这是一种分布式文件系统&#xff0c;设计用于存储海量数据并允许跨多台机器进行高效访问。 MapReduce&#xff1a;作为Hadoop的核心计算框架&#…

JBOD详解

JBOD是存储领域中一类重要的存储设备。 英文全称Just a bunch of disks, 中文也称之为硬盘存储扩展柜。 它是传统存储系统赖以生存的根基之一&#xff0c;如果没有JBOD&#xff0c;那一下子就会省去很多部件&#xff1a;后端HBA、SAS扩展器/FC成环器、线缆、JBOD控制模块等等…

高周期的伦敦金交易机会转到低周期做 不可以吗?

一般的市场观点认为&#xff0c;交易信号出现在越高的时间周期上就越准确&#xff0c;成功的概率就越高。而低时间周期的信号&#xff0c;要推动高时间周期行情的发展&#xff0c;那几乎是不可能。因此多数人认为从高周期转到低周期&#xff0c;然后去捕捉高周期行情机会&#…