2023年认证杯”数学中国数学建模如期开赛,本次比赛与妈杯,泰迪杯时间有点冲突。因此,个人精力有限,有些不可避免地错误欢迎大家指出。为了大家更方便的选题,我将为大家带来C题的详细解析,以方便大家建模分析。本次比赛,我将着重为大家解析C题,对于C题给出详细的思路,以及解题步骤,包括一些必要的代码等等。最后,由于个人精力实在有限,近期比赛是在太多。该题赛只能提供C题的详细资料,希望大家可以理解。预计今晚凌晨帮大家收集相关的参考文献,模型代码,等资料。大家早睡就好,我们将今晚收集资料,明早将有一份完整的资料放于眼前,
总体来看,C题不难,应该是本次比赛最简单的一道(就我个人看来)。仔细认真的读一遍题目,不懂得地方,多看看我的这篇文章。实在不行,留言讨论也是可以的,我会不定期进行回复的。
C 题 心脏危险事件
对于这种较大的建模比赛,赛题是没有一句废话的,因此,我们需要仔细地通读全文才可以发现一些隐藏的细节。这里仅仅为大家展示一下我通读全文所考虑到的细节。这里原文没有颜色,不好区分,大家可以直接阅读图片,更加直观一些。
心脏的每一次搏动都伴随着心脏的电生理活动。心脏的起博点通过放电, 使电流传导到每个心肌纤维,接收到电信号后,相应的心肌纤维完成一次收 缩,心脏也就随之搏动一次。(对心脏脉搏的原理进行描述)而心脏的电信号可以传导到体表皮肤,并且不同 体表部位所检测到电信号表现不同。(电信号的来源)这样,在体表的特定部位放置电极,通过 心电图机,可以记录到心电数据。对患有严重心脏疾病(明确对我们进行暗示,暗示我们问题二的生理学意义可以往这个方向考虑)的人来说,心电的实时监测是检测心律失常的重要手段。
为使心电监测更加有效,心电图机应当在心电图产生异常时能够做到实 时报警。所以我们需要在很短时间内对心律失常进行正确的判断。(问题一二三没有明确的题设,我认为这里的正确判断很可能就是第二阶段我们需要考虑的问题,大家可以提前留个心眼)我们在已有的心电图数据中找到了一些有代表性的片段(数据文件来源),其中有正常心搏,也有多种心律失常(多种失常与问题一需要我们判断心律失常的类别以及类别总数进行对应)的情况。每个片段长度为 2 秒。
在数据文件中,(介绍数据文件到底是什么)我们记录的是心电波形的功率谱密度,从 0 Hz 到 180 Hz,频率间隔为 0.5 Hz。也就是第一行记录的是 0 Hz(直流分量)的数据,第二行记录的是 0.5 Hz,第三行记录的是1 Hz,依此类推。(0 0.5 1.........180 累计应该有361个,我们也可以发现给出的数据确实有361行,进行对应。)
在正式回答问题之前,我们需要明确,题目到底给了我们什么。题设大概已经清楚,暗示的、明示的就这些东西了。那么对于给出的其他文件,这里为大家简单的介绍一下给出的文件。主要包括两个数据集,两个数据集文件名list。数据集分为异常数据,正常数据。也就是说,需要我们对异常数据进行分析即可。(目前来看,确实如此)
数据文件中,每个文件都是361行,正常心率一共147个数据文件,异常数据一共869个数据文件。单纯从给出数据来看,应该是想让我们通过147个正常的数据文件进行分析,确定一些数据特征。用以分析869个异常数据,以不同的数据特征去判断,到底是什么发生了异常。至于数据特征的选取等等,这些放于正文进行说明。
第一阶段问题:
1. 请你和你的团队建立有效的数学模型,将所给的数据文件进行分类。除正常心搏外,请将心律失常的情况分为不同的类别,并指明类别的总数;
问题一,需要我们对数据文件进行分类。这里按照我们给出的数据初步想法应该就是利用正常心率数据寻找合适的数据特征,用这些数据特征去判定异常数据,按理来说一定是对应不上的,我们按照对应不上的种类进行分类,即可以指明类别总数。
至于需要选择的特征,我们可以从时间序列的特征出发,因此给出的数据和时间相关,所以我们可以把数据文件当作时间序列进行考虑,考虑其特征大家可以去参考一下这篇文章,(可以给人家点个赞啥的,不是我写的。人家写的确实好。)(1 封私信 / 53 条消息) 时间序列数据上可以抽取哪些频域特征? - 知乎 (zhihu.com)
至于我们到底需要选择哪种特征,我的建议是没办法,按个试一试。最好的办法是我们同时选择五六种数据特征进行判断,我们利用正常数据得到一些基于正常数据的的数据特征,用以和异常数据进行对应即可。根据数据特征异常的不用进行不同的分类,至于分类总数,可以不着急。我们可以考虑问题二的每种心律失常类型,在确定我们问题一心率的类别的总数。
至于,我在一些渠道看到大家反复说的如何将数据汇总起来,大家使用编程软件也是可以的,最最最最简单的我们可以直接使用wps,wps自带数据文件合并选项的
这里数据合并后,怎么进行区分就需要大家各自标记了。我比较趋向于提前在第一个文件生成一千个1-361的循环数,出现361为一次循环,当然这种方式仅仅是我个人的一种思想,仅供大家参考。
关于问题一的模型,我们发现好像这么操作下来并不需要模型,如果大家感觉如此操作有些单调,没有模型衬托得话,大家也可以使用一些常见的分类模型,聚类分析、快速近邻法分类、随机森林应用于分类问题、二叉决策树分类等等,稍后也会为大家补充这一点。
2. 请给出每种心律失常类型的判断标准,以便我们能够核实判断方法的生理学意义,并将判断方法应用到临床监测设备上;
大家需要永远记住,我们这个不是闭卷考试,我们很多情况下是知道答案,倒退过程,问题二很明显就是一道这样的题目。大家看不出来很明显是因为大家还不太熟悉建模题目的问题设问。对于问题二,需要我们核实生理学意义,可是我们完全可以从生理学的意义倒退,我们会存在几种分类。这里简单的给大家罗列几种,帮助大家拓宽思路。问题二的题设,也要求着我们问题一类别总数一定不要特别多,不然那就是给自己挖坑。总数要求不是特别多,这就要求我们对于数据特征的选取不是越多越好,而是惬当。至于如何如何恰当,就是大家的问题了。(个人意见 多试一试不就好了 )
大家还需要注意的一点就是,除了需要判断生理学意义,还需要应用到临床监测设备上。这句话,在我看来应该是想让我们建立一个预测预警模型。至少在我看来是这样的(原因就是,问题一单纯的一个数据处理+分析,问题三一个单纯的综合评价 这样显得整个问题好像有点单调 ,没有几个比较大的数学模型进行支撑,所以大家可以在判断方法应用到临床监测设备上,下下功夫,丰富一下我们的论文模型)个人建议,仅供参考。我认为这个地方不失为一个很好的加分点。
3. 某些类型的心律失常一旦发生,心脏立即失去供血功能,此时病人的情 况极为危急。另外一些类型的心律失常则不会如此危险,我们可以有稍 多一些的救治时间。请参考正常的心搏过程,估计每种心律失常情况的 危险程度,按照危险程度对数据文件进行粗略的排序或分级。
最后一问,需要我们对各个数据文件进行危险程度排序或者分级,排序也好、分级也罢。问题设问的本质就是一个综合评价模型。我们需要选择较为合适的综合评价模型进行评价即可。这里评价的主体就是我们的各个数据文件,评价指标,目前我认为依旧可以是数据文件的数据特征。至于综合评价模型的选取,各显神通把。这里给出司守奎老师的建模书中的几个综合评价模型,我认为都是可以的(主成分,秩和比,熵权法等)
最后,由于个人精力实在有限,近期比赛是在太多。该题赛只能提供C题的详细资料,希望大家可以理解。
预计今晚凌晨帮大家收集相关的参考文献,模型代码,等资料
最后,预祝大家比赛顺利!!!!!!!!!!!!!!!!!!111