2021年认证杯SPSSPRO杯数学建模B题(第一阶段)依巴谷星表中的毕星团求解全过程文档及程序

news2025/3/1 0:36:26

2021年认证杯SPSSPRO杯数学建模

B题 依巴谷星表中的毕星团

原题再现:

  依巴谷卫星(High Precision Parallax Collecting Satellite,缩写为 Hip-parcos),全称为“依巴谷高精度视差测量卫星”,是欧洲空间局发射的一颗天体测量卫星,用以精确测量恒星的视差和自行。通过视差可以推断出恒星距地球的距离。
  毕星团位于金牛座,是离地球最近的疏散星团。其成员星在 300 个以上,有多颗肉眼可见的亮星。对毕星团的研究已经持续了许多年,包括确定它的距离,构建演化的模型,确认或排除成员,以及研究各成员星的特性等。依据依巴谷卫星的观测数据,我们可以以相当高的精度测量相关各星的距离和运动情况,以对毕星团进行更加精确的研究。
  在依巴谷卫星的观测数据中,毕星团中的亮星平均视差在 22 毫角秒左右,意味着其平均距离在 45 秒差距左右。我们在依巴谷星表中选择了 2719颗恒星,选择的标准是视差在 20–25 毫角秒之间(也就是距离地球在 40–50秒差距之间),其中包括了许多毕星团的成员。
  这个数据集有如下字段:
  1. HIP:星体编号
  2. Vmag:视星等
  3. RA:赤经(度)
  4. DE:赤纬(度)
  5. Plx:视差角(毫角秒),1000/Plx 即为目标离观测点的距离(秒差距)
  6. pmRA:恒星自行的 RA 分量(毫角秒/年)
  7. pmDE:恒星自行的 DE 分量(毫角秒/年)
  8. e_Plx:Plx 的测量误差(毫角秒)
  9. B-V:恒星的色指数
  第一阶段问题: 请你建立合理的数学模型,在数据集中确认毕星团的成员星,并绘制出毕星团成员星的赫–罗图。

整体求解过程概述(摘要)

  依巴谷卫星中记载了大量高精度的恒星位置、自行和视差等天体信息,毕星团作为距离地球最近的疏散星团,找出毕星团的成员星并绘制赫罗图在宇宙学研究中具有重要的科学意义。本文主要建立了基于改进的 DBSCAN 算法的 OPTICS 聚类模型,根据恒星自行的距离、方向及所在位置找出了毕星团的成员星,并绘制了毕星团的赫罗图。
  针对问题一,要求在数据集中确认毕星团的成员星。首先我们对附件数据进行描述性统计分析,发现恒星赤经赤纬和自行分量的数据标准偏差较大,所以我们对这 4 种变量数据进行正态性分布检验,利用拉依达法则剔除离散程度较大的数据。然后我们将变量数据进行标准化处理,选择基于密度的 DBSCAN 聚类方法,为了降低 DBSCAN 算法对初始参数领域半径和阈值的敏感性,我们对 DBSCAN 算法进行改进,引入核心距离和可达距离两个概念,采用 OPTICS 聚类模型并根据恒星自行的距离、方向及所在位置进行聚类,得到 331 颗毕星团的成员星。最后以毕星团满足球状为依据对毕星团的成员星进行了验证。
  针对问题二,要求绘制出毕星团成员星的赫罗图。首先我们通过查阅文献了解赫罗图的相关信息。然后我们根据视星等和恒星距观测点距离这两种数据计算出恒星的绝对星等,得到赫罗图的纵轴数据,并采用附件给出的色指数作为横轴数据。最后我们利用Matlab 和 PowerPoint 对照文献中的标准赫罗图绘制出毕星团的赫罗图。最后,深入研究了论文中提出的模型并加以分析,指出了模型存在的优缺点,对模型的优化提出了改进思路。

模型假设:

  为使解题过程得到简化,本文做出如下假设以规定模型的适用范围。
  (1)假设附件相关数据可靠,且其中的奇异数据和缺省值忽略后对总体信息不会有显著性影响;
  (2)假设星团和星团之间的距离远大于星团内部成员星之间的距离;
  (3)假设在测量期间内恒星距观测点的距离几乎不变;
  (4)假设毕星团成员星满足金牛座星团球状分布规律。

问题分析

  针对第一问,要求在数据集中确认毕星团的成员星。为了更好地了解附件数据信息,首先我们对附件数据进行描述性统计分析,找出便于描述测量样本的各种特征及数据之间的内在规律。我们认为附件数据庞大并且字段种类较多,有必要对标准偏差较大的数据进行离群点检测,为了方便选择去噪的方法,我们还要对数据进行正态性分布检验,然后对通过检验的字段使用拉依达准则剔除异常值。处理完数据后将变量数据进行标准化处理,来消除在聚类时数据因大小不一而造成的偏差,至此,模型的准备工作已经结束,接下来可以构建毕星团成员星的聚类模型。聚类模型我们选择基于密度的聚类方法,其中 DBSCAN 算法有着速度快、聚类簇的形状没有偏倚、无需设置聚类个数等种种优点,但是它的对于初始参数领域半径和阈值的取值非常敏感,所以我们对 DBSCAN 算法进行改进,采用 OPTICS 聚类模型对成员星进行聚类,并根据恒星自行的距离、方向及所在位置进行聚类,从而可以得到毕星团的成员星,由于毕星团的是球状星,所以最后可以查找球状星的相关资料来验证成员星的可靠性。
  针对第二问,要求绘制出毕星团成员星的赫罗图。赫罗图是指恒星的光谱类型与光度之关系图。赫罗图的纵轴是光度与绝对星等,而横轴则是光谱类型及恒星的表面温度。由于视星等和光度的对数成正比,恒星的色指数附件数据已经给出,所以我们只需要计算出成员星的绝对星等,最后根据文献中的标准赫罗图对我们自己画的初步赫罗图进行补全相关信息等工作。
  本文主要通过在数据集中确认毕星团的成员星,并绘制出毕星团成员星的赫罗图。本文研究的技术路线如图 2 所示。
在这里插入图片描述

模型的建立与求解

  为了更好地了解附件数据信息,首先我们利用 SPSS 对附件数据进行描述性统计分析,找出便于描述测量样本的各种特征及数据之间的内在规律,得到的统计数据如表 2所示。
在这里插入图片描述
  通过对表 2 进行分析,我们可以发现恒星的 BV 字段总共缺失了 41 条数据,其他字段数据没有缺失值;恒星的 RA、DE、pmRA 和pmDE这4组数据的标准偏差比较大,说明这几个字段自身之间的离散程度程度比较大,还需要通过进行离群点检测,所以我们利用 Excel 绘制带直线的散点图观察其平面分布情况,如图 3 所示。
在这里插入图片描述
  通过图 3 可以看出恒星的平面分布较为均匀,仅有极个别的恒星散布在两侧,接下来对恒星自行的赤经分量和赤纬分量进行可视化,如图 4 所示
在这里插入图片描述
  由图 4 我们可以看出大多数恒星赤经赤纬自行分量较为紧凑,但仍有部分恒星自行分量散布在边缘,我们我们有必要将这类离群点剔除。接下来我们对 2719 颗恒星的RA、DE、pmRA 和pmDE这 4 个变量进行正态性分布检验,以便进行后续的离群点检测方法的选择,正态分布检验图如图 5 所示。
在这里插入图片描述
  异常值:指样本中的个别值,其数值明显偏离它们所属样本的其余观测值,也称离群值。遇到这一类问题常用的方法有:给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值剔除。对于本题我们采用拉依达准则法(3δ准则):该方法简单,并且无需查表,是最常用的异常值判定与剔除准则。

在这里插入图片描述
在这里插入图片描述
  由于附件中量化后的数据存在不同的量纲单位,因此数据的大小差别非常大,数据的范围也不相同。差异的较大会增大某些变量对毕星团成员星分类产生影响,同时会减弱某些变量对聚类模型的影响,所以需要对量化的数据进行归一化处理。将所有数据都转为[0,1]之间的数,可以消除数据因大小不一而造成的偏差。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
  根据图 7 我们可以明确发现,所有恒星汇集在一起后形成球状物。在球状物的左上角,由黄色方框标注的地方有大量的恒星团聚在一起,由于在宇宙中,星团与星团之间的距离是远大于星团内恒星的距离,而且星团内成员星有很多参数是区别于其他星团的,因此我们初步判定,该区域为毕星团区域。接下来我们开始建立基于改进 DBSCAN算法的 OPTICS 聚类模型。

  基于密度的聚类算法是数据挖掘技术中被广泛应用的一类算法,其核心思想是用一个点的 邻域内的邻居点数来衡量该点所在空间的密度。应用这种算法可以找出形状不规则的类,且在聚类前无需指定类的个数。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
  (1)OPTICS 聚类模型的建立
  上文介绍的 DBSCAN 算法虽然具有速度快、能够处理噪声点、聚类簇的形状没有偏倚、无需设置聚类个数等种种优点,但是它的对于初始参数领域半径ϵ和阈值 M 的取值非常敏感。由于题目所给数据结构较为复杂,在使用 DBSCAN 算法时难以确定比较合适的参数。为克服 DBSCAN 算法的这一缺点,Ankerst Breunig 和 Kriegel 提出了OPTICS[10]算法,OPTICS 算法并不直接寻找各个簇, 而是将基于密度查找簇所需要的信息记录下来, 这些信息反映了数据空间基于密度的簇结构。同时, 从这些密度信息也可以直接发现各个簇。OPTICS 在 DBSCAN 算法的基础上引入了如下两个新的概念:

在这里插入图片描述
  (2)OPTICS 聚类模型的求解
  我们利用 Matlab 对上述模型进行求解,进而可以得到筛选出来的 331 颗毕星团成员星,具体成员详见附件。成员星三维位置空间中的分布图如图 9 所示
在这里插入图片描述
  根据图 9 我们可以发现,毕星团成员星团聚的位置与图 7 我们初步判定的区域大致相同,这可以证明我们得到的毕星团成员星较为准确。为了能进一步检验我们所构建的成员星聚类模型的精度,我们接下来开始建立毕星团成员星的检验模型。

  赫罗图是指恒星的光谱类型与光度之关系图。赫罗图的纵轴是光度与绝对星等,而横轴则是光谱类型及恒星的表面温度,从左向右递减。恒星的光谱型通常可大致分为O.B.A.F.G.K.M 七种[11,12]。由于视星等和光度的对数成正比,恒星的色指数附件数据已经给出,所以我们只需要计算出绝对星等即可绘制毕星团的赫罗图。
  (1)计算绝对星等
在这里插入图片描述
  (2)绘制赫罗图
  在上面我们求出了毕星团所有成员的绝对星等,我们将其作为赫罗图的纵坐标,然后将附件数据中的色指数变换成赫罗图的横坐标,使用 Matlab 初步绘制出毕星团的赫罗图,如图 10 所示。

在这里插入图片描述
  绘制出毕星团的初步赫罗图后,我们再次使用 PowerPoint 对上图进行美化,并在坐标轴上添加了可见光度和光谱类型,得到最终的赫罗图如图 10 所示。
在这里插入图片描述

论文缩略图:

在这里插入图片描述
在这里插入图片描述

程序代码:

绘制恒星三维空间分布图 Matlab 代码

1. a=xlsread('C:\Users\Desktop\111.xlsx','sheet1');
2. x1=a(:,1);
3. y1=a(:,2);
4. z1=a(:,3);
5. c=[x1 y1 z1]
6. s=10;%É¢µã´óС
7. scatter3(x1,y1,z1,s,'filled');%c/2719,'filled');
8. title('2719¿ÅºãÐÇÈýά¿Õ¼ä·Ö²¼Í¼');
9. xlabel('X/pc');
10. ylabel('Y/pc');
11. zlabel('Z/pc');

聚类模型 Matlab 代码

12. % clc,clear
13. %% 由 Djl,Dfx,RA,DE 进行聚类
14. Djl= sqrt(pmRA.^2+pmDE.^2);
15. % 计算恒星自行距离
16. Dfx= atan(DE./RA);
17. % 计算恒星自行方向
18. p1=(Djl-min(Djl))/(max(Djl)-min(Djl))*(1-0)+0;
19. p2=(Dfx-min(Dfx))/(max(Dfx)-min(Dfx))*(1-(-1))+(-1);
20. p3=(RA-min(RA))/(max(RA)-min(RA))*(1-0)+0;
21. p4=(DE-min(DE))/(max(DE)-min(DE))*(1-(-1))+(-1);
22. %对用于聚类的数据进行标准化
23. X= [p1,p2,p3,p4];
24. Y = pdist(X,'seuclidean'); %使用标准欧氏距离
25. Z = linkage(Y,'single');% 使用最短距离法
26. %figure(2)
27. [~,~,OUTPERM]=dendrogram(Z,0); %% 绘制恒星一览图
28. %计算出秒差距 Parsec
29. Parsec=1000./Plx;
30. x=Parsec.*cos(DE/180*pi).*cos(RA/180*pi);
31. y=Parsec.*cos(DE/180*pi).*sin(RA/180*pi);
32. z=Parsec.*sin(DE/180*pi);
33. n=100;
34. Hyades_Num=OUTPERM(1:n);
全部论文及程序请见下方“ 只会建模 QQ名片” 点击QQ名片即可

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/9432.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java培训:重试实现高可用方案

1、背景介绍 随着互联网的发展项目中的业务功能越来越复杂,有一些基础服务我们不可避免的会去调用一些第三方的接口或者公司内其他项目中提供的服务,但是远程服务的健壮性和网络稳定性都是不可控因素。在测试阶段可能没有什么异常情况,但上…

Kubernetes存储机制认识

前言: 在Kubernetes系统中,将对容器应用所需的存储资源抽象为存储卷(Volume)。Volume是与Pod绑定的(独立于容器)与Pod具有相同生命周期的资源对象。 可以将Volume的内容理解为目录或文件,容器…

Sqoop Hook

环境: ambari大数据平台 sqoop版本1.4.7 hive版本3.1.0 Atlas版本2.2.0 Atlas使用官网给的sqoop hook 具体安装步骤 1、官网安装步骤:https://atlas.apache.org/#/HookSqoop 2、其他安装步骤:https://www.freesion.com/article/45701353391/ 根据以上两个安装的步骤可以解决…

Oracle LiveLabs实验:Automatic Partitioning in Autonomous Database

概述 此实验申请地址在这里。 实验帮助在这里。 此实验预估完成时间100分钟。 关于自治数据库自动分区的帮助文档,请参见这里。 这个实验设计得很好,推荐。 介绍 关于本研讨会 自治数据库中的自动分区分析您的应用程序工作负载,并自动…

使用Ubuntu演示介绍,Linux下安装和配置Redis、配置远程连接redis(保姆级教学)

安装redis 1、先在官网下载好Redis的安装包 Redis 官网:https://redis.io/ Redis 在线测试:http://try.redis.io/ Redis菜鸟教程: https://www.runoob.com/redis/redis-tutorial.html 2、把下载好的安装包放在Ubantu的共享文件夹下 3、Linu…

电商行业少不了的营销方式——邮件营销

邮件营销可以贯穿到客户购买商品的整个流程中,帮助企业以低成本的引流方式获取较高的销售额。邮件营销不同于其他营销方式,如果你获取了客户的邮件信息,可以和客户保持长期的联系,为品牌积累一定的客户资源。这种方式除了能够提升…

Ubuntu20.04.4 LTS正确安装方案及问题解决

Ubuntu20.04.4 LTS报错解决方案1. 开启系统功能支持2. 升级wsl3. 重新打开Ubuntu,输入用户名和密码完成安装4. 其它报错参考1. 开启系统功能支持 打开搜索,输入功能,进入启用或关闭Windows功能 开启适用于Linux的Windows子系统与虚拟机平台 注意: 这两个都得开, 不然会报错 …

MySQL索引理解

目录 什么是索引? 索引的好处 思考一个小问题, 索引这么好, 那是不是越多越好? 索引分类 索引的创建和删除 explain字段解释 索引底层数据结构 区分MyISAM和InnoDB存储引擎来再认知聚簇非聚簇索引 什么是索引? 索引: 类似于目录的帮助快速检索数据的一种数据结构. 辅…

Dragonfly 中 P2P 传输协议优化

文|孙珩珂 上海交通大学 本文1987字 阅读 10 分钟 01 优化背景 此前 Dragonfly 的 P2P 下载采用静态限流策略,相关配置项在 dfget.yaml 配置文件中: # 下载服务选项。 download: # 总下载限速。 totalRateLimit: 1024Mi # 单个任务…

Java-IO流学习

文章目录前言1.Java-IO流简介2.流的基本概念3.创建文件的三种方式3.1根据一个文件路径直接创建一个文件。3.2 根据父目录 File 对象,在子路径创建一个文件3.3 根据父目录路径,在子路径下生成文件4.获取文件信息5.目录与文件操作5.1文件删除5.2目录删除5.…

【Linux】实验二 Makefile 的编写及应用

静态和动态库的转换可以参考这篇文章哦!! 文章目录实验二 Makefile 的编写及应用实验目的实验内容具体步骤:一、进入文件夹二、生成各个.c .h文件1. exam.h2. exam.c3. mat.h4. mat.c5. main.c三、编译建立的文件1. 只编译不链接 main.o2. 使…

Vue实现任意内容展开 / 收起功能组件

博主介绍 📢点击下列内容可跳转对应的界面,查看更多精彩内容! 🍎主页:水香木鱼 🍍专栏:后台管理系统 文章目录 简介:这是一篇有关【Vue实现任意内容展开 / 收起功能组件】的文章&am…

1.jdk,数据类型,运算符

Java语言跨平台性的解释 一次编译,到处运行 将.java文件编译成.class文件,然后就可以在linux,windows运行。 java的跨平台的实现是通过在不同的操作系统上的不同的jvm差异来实现跨平台的 jdk jdk jre(jvmjavase核心类库&…

MySQL基础操作总结_CRUD

文章目录 1.新增 insert 1.1 单行数据全列插入 1.2 多行数据指定列插入 2.查询 select 2.1 全列查询 2.2 指定列查询 2.3 查询字段包含表达式 2.4 别名 2.5 去重:distinct 2.6 排序:order by 2.7 条件查询 2.7.1 where条件查询 2.7.2 and与or查询 2.7.3 范围查…

Java简介

Java是一门面向对象的编程语言,不仅吸收了C语言的各种优点,还摒弃了C里难以理解的多继承、指针等概念,因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表,极好地实现了面向对象理论&#xff0…

Matplotlib 基础入门知识点总结

目录 1、绘图的一些基本命令展示 2、Matplotlib 绘制网格 3、plt.gca() 对坐标轴的操作 4、 图表的样式参数设计 5、创建图形对象 6、绘制多子图 1.add_axes():添加区域 2. subplot()函数,可以均等的划分画布 3.subplots()函数详解 7、柱形图的…

踩坑List.addAll抛出UnsupportedOperationException

转载标明出处: 公司内部博客,作者 居xx, 在此表示感谢 1、我自己遇到的问题 try { // 不加try..catch报错 java.lang.UnsupportedOperationException: null ,原因未知list.addAll(a.getResult());list.addAll(b.getResult());list.addAll(c.getResult());list.addAll(d.getResu…

双软认证是指哪两项证书认证

一、双软认证是指哪两项证书认证: “双软认证”:指软件产品等登记和软件企业认定;企业申请双软认证,除了获得软件企业和软件产品的认证资格外,也可以使企业享受国家对软件行业提供的税收优惠政策。 二、认证的好处 1、…

后量子密码学中的模数是多少?

密码学:后量子密码学中的模数是多少? 只要是从事网络安全或安全软件开发的人,就都可能已经了解过公钥加密以及在20世纪70年代末和80年代前后创建的方法。现在我们可能需要学习更多的理论,因为我们所学的方法可能会受到量子计算机的…

网页字体图标用法

目录前言引用流程1、打开网页2、选择自己喜欢的图标加入购物车3、下载图标4、引用引用前言 1、接下来介绍引用图标都是免费的,可以放心食用。 2、标签可以自己设计,用css、svg画图或者引用图片都可以。但我们设计的很难超过专业人员的设计。引用图片的画…