论文阅读 - Pre-trained Online Contrastive Learning for Insurance Fraud Detection

news2024/10/30 5:14:53

 Pre-trained Online Contrastive Learning for Insurance Fraud Detection| Proceedings of the AAAI Conference on Artificial Intelligence

目录

摘要

Introduction

Methodology

Problem Formulation

Pre-trained Model for Enhanced Robustness

Detecting Network and Task Learning

Online Learning and Forgetting Control

数据集

Experimental Results

 Ablation Experiment


claim(根据医疗保健系统报告的事实,38.1% 被标记为欺诈)

摘要

        医疗保险欺诈一直是医疗行业领域面临的严峻挑战。

        现有的欺诈检测模型大多集中于离线学习场景。

        然而,欺诈模式不断演变,使得基于过去数据训练的模型很难检测新出现的欺诈模式,这对医疗欺诈检测提出了严峻的挑战。

        此外,当前的增量学习模型主要是为了解决灾难性遗忘而设计的,但在欺诈检测中往往表现出次优的性能。

        为应对这一挑战,本文提出了一种用于医疗保险欺诈检测的创新在线学习方法,命名为 POCL。

        这种方法结合了对比学习预训练和在线更新策略

对比学习预训练

        在预训练阶段,利用对比学习预训练来学习历史数据,从而实现深度特征学习并获得丰富的风险表征。

在线更新策略

        在在线学习阶段,采用了 “时间记忆感知突触”(Temporal Memory Aware Synapses)在线更新策略,允许模型根据不断涌现的新数据进行增量学习和优化

        这可以确保及时适应欺诈模式,减少对过去知识的遗忘。

        模型在现实世界中的余额欺诈数据集上进行了广泛的实验和评估。结果表明,与最先进的基线方法相比,模型在准确性方面具有显著优势,同时还能降低运行时间和空间消耗。

        源代码发布于 https://github.com/finint/POCL。

Introduction

背景介绍

        医疗保险欺诈严重危害社会,日益引起公众的关注。

        2017 年,美国在医疗保健方面的支出达到了惊人的 3.5 万亿美元(Sisko 等,2019 年),其中超过 20% 或 7200 亿美元(Cubanski、Neuman 和 Freed,2019 年)用于医疗保险。

        然而,在这些巨额支出中,欺诈组织和个人找到了可乘之机。

        研究表明,令人震惊的是,3-10% 的医疗保险基金(Morris,2009 年),相当于 210- 700 亿美元,因欺诈活动而被浪费。这些欺诈行为不仅增加了医疗保健系统的运营成本,而且还造成了医疗保险基金的损失、但也给消费者造成负担。这些行为的后果在全社会引起反响,强调了打击保险欺诈的紧迫性。

        此外,医疗保险欺诈手段也在不断演变(Thornton 等人,2013 年)。欺诈者随机应变,设计出越来越多的秘密策略,以减少被发现的风险(Timofeyev 和 Jakovljevic,2022 年)。这种不断演变的策略加剧了欺诈检测的挑战。

        当代的静态医疗保险欺诈检测系统并不适合这种情况(Thornton 等人,2013 年),它忽略了许多会造成巨大损失的欺诈活动。

        这就强调了设计一个具有快速适应性和在线学习能力的医疗保险验证系统的必要性。

相关工作

        欺诈检测由来已久,其起源可追溯到 20 世纪 80 年代的研究(McDowell,1987 年)。传统方法通常围绕基于规则的方法展开,如(Dua 和 Bais,2014 年)所描述的那样,或者拥抱机器学习领域,如(Fiore 等人,2019 年)的工作所证明的那样。这些方法因其在欺诈检测方面的功效而备受关注。与此同时,随着深度学习方法在更广泛的科学界获得认可,它们开始被应用于欺诈检测领域,开创了复杂检测机制的新时代,例如(Roy 等人,2018 年)。

        Dou 等人,2020 年;Cheng 等人,2023 年;Ma 等人,2023 年;Gao 等人,2023 年)等研究成果强调了图神经网络(GNN)学习复杂关系和模式的能力,从而标志着这种方法在提升欺诈检测水平方面的巨大潜力。不过,上述模型主要是针对线性学习范式的

        将这些方法直接应用于在线学习往往会导致次优结果重新训练一个完整的模型以规避这些限制(Lebichot 等人,2020 年)往往会带来巨大的挑战,因为这需要大量的计算和时间资源(Wu、Dobriban 和 Davidson,2020 年)。

相近工作

        幸运的是,近年来出现了各种采用渐进式或在线学习的欺诈检测模型。值得注意的是,在特定的动态环境中,这些模式已显示出令人称道的功效。例如,(Sadreddin 和 Sadaoui,2022 年)利用创新的适应性学习方法,将迁移学习与渐进学习结合起来。

        Anowar and Sadaoui 2021) 专为打击拍卖欺诈而设计的基于区块的增量学习框架,而(Bayram、Koro˘glu 和 Göonen 2020)则采用梯度提升树,解决信用卡欺诈的动态细微差别。尽管如此,这些方法仍然存在局限性。首先,当前的技术往往忽视了欺诈模式固有的复杂的结构和时间细微差别。其次,考虑到金融背景下严格的数据存储限制,历史数据变得不可行。

提出方法

        为了应对这些挑战,在本研究中,提出了预训练在线对比学习模型(POCL),这是一种专为医疗保险欺诈检测而定制的创新在线学习图神经网络。首先,将历史数据集分为正向和负向医疗节点图。通过对比这两种类型的图之间的差异来预训练上游模型。正如(Le-Khac、Healy 和 Smeaton 2020)所述,对比学习是发现复杂模式的强大工具,从而提高欺诈检测的精度。

        同时,经验观察表明,该模型能够熟练地将不断演变的欺诈特征投射到一致的空间中,这可以降低更新的难度并降低遗忘的可能性。接下来,引入下游欺诈检测网络,并将其与预训练模型相结合,创建端到端欺诈检测模型。在在线学习场景中,使用一种新颖的时间记忆感知突触(MAS)(Aljundi et al. 2018)方法来更新模型。该方法结合了时间特征并计算每次更新的参数的重要性权重。通过使用动量技术来整合历史重要性权重,该方法在不存储任何历史数据的情况下确定更新期间忘记和保留参数的程度。总而言之,工作有以下贡献:

        这是第一个在保险欺诈检测领域引入在线学习模型的工作。该模型巧妙地融合了结构特征,不断适应不断发展的欺诈模式范式。

         • 提出了一种基于对比学习预训练的新型在线学习GNN 模型。该模型与 Temporal MAS 方法配合使用时,可以准确识别欺诈性索赔,并显着减少忘记先前学到的知识的发生。

         • 通过对现实世界的医疗保险欺诈数据集进行广泛的实验,证明了模型在长时间的在线更新过程中具有令人印象深刻的准确性。此外,模型始终表现出较低的时间和空间复杂度。

Methodology

        如图1所示,模型的流程可以分为三个阶段:预训练、任务学习和在线学习。在本节中,首先制定问题。然后,在预训练阶段,将介绍预训练的模型及其优化策略。在任务学习阶段,将描述如何结合预训练模型和任务学习模型来训练离线模型。最后,在在线学习阶段,将介绍Temporal MAS在线更新方法,用于确定变量的变化程度。

Problem Formulation

        在在线医疗欺诈检测中,将医疗图定义为G(C,E), C = (h_1,...,h_{N_C}), 表示一组医疗图,其中每个医疗claim的特征是h_i, E=(e_1,...,e_N)代表claim之间的边缘,其中两个相关claim具有相同的医疗提供者或受益人.这里,N_C是claim的数量,N是图中的边的数量。

        . 在在线学习场景中,给定两部分数据:历史数据集G_h = (G^1_h,...,G^T_h),在线学习数据集 G_O = (G^1_o,..., G^T_O), 目标是学习(\theta _0,..., \theta _T),\theta _0是基于整个历史数据集G_h使用传统训练方法训练的GNN的参数,而参数\theta _t,接受在线学习数据G^t_O的训练,特别是,它是基于\theta _{t-1} 的参数,使用在线学习方法进行增量训练的。

        希望在不重新训练整个模型的情况下,尽可能保持模型 θ 的准确性,并期望它能检测到某些模式发生变化的情况。

Pre-trained Model for Enhanced Robustness

        在预训练阶段,将医疗claim图 G 中的claim划分为两个集合:正集 h_p 和负集 h_n。随后,使用数据集提供的方案在两个图中构建边。通过这样做,创建了两个不同的图:正图G_p和负图G_n.然后使用这两个图来训练预训练模型\theta _{pre}

        使用 GraphSAGE(Hamilton、Ying 和 Leskovec,2017 年)作为预训练模型,其中第 k 层的去细化为:

         然后获得模型更新的两个特征嵌入:

h_p' = F_{\theta _{pre}}(h_p)h_n' = F_{\theta _{pre}}(h_n)这将用于欺诈检测。

        参考(Veliˇckovi´c et al. 2019),使用二元交叉熵损失函数来帮助识别欺诈模式:

        损失函数旨在有效区分正面和负面实例,使模型能够专注于学习与医疗欺诈相关的特定模式。它可以在特征空间中将具有相同标签的节点相互拉近,将不同标签的节点推开,使模型能够关注相似节点之间的关系,并找到欺诈节点和非欺诈节点的差异。

Detecting Network and Task Learning

        预训练模型的输出修改特征矩阵而不是进行预测,在下游任务中,使用GAT(Veliˇckovi´c 等人,2018 年)网络 \theta _{detect} 作为检测网络,其中第 k 层的注意力系数计算公式如下:

         获得节点之间的注意力系数后,将 GAT 的第 k 层定义为:

        然后,将预先训练好的模型与检测网络相结合,创建一个端到端的模型。

        使用历史数据集 G_h 训练整个模型,包括训练检测模型 \theta _{detect} 和微调预训练模型 \theta _{pre}。然而,在这一步骤中出现了一个关键挑战--确保预训练网络能够从标签中学习,同时θpre 不会遗忘已经获得的宝贵信息。为了解决这个问题,提出了一种新的损失函数,它能有效减轻灾难性遗忘。在标准交叉熵损失函数的基础上,引入了一个惩罚项

所以总损失 L_{detect}为:

         其中,h_{p_{pre}}' 是预训练模型 F_{\theta _{pre}}(h)输出的正向部分,h_{n_{pre}}' 是负向部分。修正二元交叉熵损失建立在公式 2 中之前提到的 BCE 损失 Lpre 的基础上。通过在损失函数中加入惩罚项 P,激励预训练网络 θpre 保留其先前学习到的特征,同时帮助整个模型从新数据中学习。这种方法确保了学习过程的平衡,防止模型过度重视新数据而遗忘了在预训练阶段获得的重要信息

Online Learning and Forgetting Control

        在线学习法。为了在不重新训练整个模型的情况下应对不断变化的欺诈模式,采用了在线学习方法来逐步更新模型。由于金融场景的独特性,每次只能访问 G_O 在线数据集的一部分。在 t 时刻,模型可以表示如下:

         这里,\hat{p}_t 表示预测的欺诈可能性,F_{\theta _{detect}^{t-1}}表示预先训练的模型函数,F_{\theta _{pre}^{t-1}}是 t - 1 时间的模型函数。这些函数从时间 1 到 t - 1 收集的数据中学习。

        时间 MAS 方法。在医疗保险欺诈检测场景中,观察到新的欺诈模式与现有模式同时出现。这意味着,不及时学习新模式或遗忘旧模式都会导致准确率下降。为了控制在线学习期间学习和记忆的内容,设计了一种基于 MAS 的新方法(Aljundi 等人,2018 年),称为时态 MAS。

        首先,与其他增量学习或在线学习方法相比,这种方法不需要存储历史数据,而这对模型至关重要。它的时间效率非常高,因为它只需要计算每个参数的梯度并将其合并,从而产生固定的空间和时间开销。

        此外,它还利用了医疗保险欺诈检测中欺诈模式不断演变的特性。通过使用 “动量 ”方法将历史重要性权重和单个任务重要性权重结合起来,该模型在学习新欺诈模式的同时实现了遗忘和保留知识之间的平衡。这使得该模型能够适应欺诈模式随时间的变化,使其在检测医疗欺诈时更加稳健有效。

        首先,需要计算单一图形中模型参数的重要性权重。在这里,使用每个参数的梯度作为当前任务的重要性权重。这是因为梯度越大,表明修改特定参数对模型输出的影响越大,从而更容易发生灾难性遗忘:

        其中,h_k 是图特征,δ 是参数 θ 的微小变化。使用梯度来计算这些重要性权重

        在医疗保险欺诈检测在线学习方面,新的欺诈模式会逐渐出现,并可能取代旧的模式。仅仅将多个图的重要性权重相加是不够的。

        为了解决这个问题,采用了 “动量 ”的概念,即考虑重要性权重的变化趋势,并逐渐重视之前权重的重要性。通过融入动量思想,可以随着时间的推移自适应地调整重要性权重,让模型逐渐遗忘那些长期未出现的相关性较低的模式。这种自适应机制确保模型能够不断学习和适应新的欺诈模式,同时仍能保持遗忘过时信息的能力。通过以下方法计算调整后的重要性权重:

        其中,λ 是动量参数,\Omega _t 是图 G_t 的重要性权重。

        计算全局重要性权重后,将其作为惩罚项纳入损失函数 L、

数据集

        为了评估模型在现实世界医疗保险欺诈检测中的有效性,利用了医疗欺诈数据集(Ma 等人,2023 年)。这个广泛的医疗保险数据集包含真实世界中约 20 万受益人、5000 多家医疗服务提供商和约 55 万份医疗保险索赔的信息其中约 38.1% 的claim被识别并标记为欺诈性索赔。该数据集最珍贵的部分是由专家注释的细致欺诈标签和时间戳。因此,它具有典型性和权威性。

(在与美国国家医疗安全管理局(NHSA)的合作领域专家对数据集进行深入分析后,发现许多欺诈活动涉及多个组织方,即所谓的共谋欺诈。然后,NHSA 的反欺诈专家对这些组织化欺诈标签进行了详细注释。他们通过多年打击欺诈者的领域专业知识来判断claim是否涉及有组织欺诈。根据医疗保险程序中的有组织欺诈标准和数据集中现有的欺诈标签,每条记录都会被标注上两个欺诈标签,表明是个人欺诈还是有组织欺诈。下表 报告了数据集的详细统计数据,包括住院和门诊报销单。)

        在评估过程中,选择了一年的数据,随后构建了许多不同的医疗claim图,每个图代表一天。其中,最初的 15 天保留为历史数据集,其余为在线学习数据集

        为确保一致性,每个模型都在这个全面的历史数据集上进行训练,以创建离线模型。

        在在线学习阶段,模型会随着在线学习数据集的逐步引入而动态调整。理想情况下,在这一阶段,每个模型在任何时间点都只能访问在线学习数据集的特定部分。

        不过,为了反映真实世界的场景和实际限制,允许某些模型保留或重新访问先前图中的全部信息

        此外,为了更深入地分析实验模型在不同欺诈场景中的有效性,选择了两个常见的欺诈检测数据集--亚马逊(McAuley 和 Leskovec,2013 年)和 YelpChi(Rayana 和 Akoglu,2015 年)--进行了一系列实验。这些实验通过模拟时间戳来生成相应的在线数据,从而模拟真实的用户行为和交易过程。

        OnlineGNN:该模型特别关注在线学习场景,它不断地从传入数据中学习,而无需重新访问历史数据。

        RetrainGNN: 只要引入新数据,该模型就会重新训练。它会丢弃以前的知识,以随机权重开始训练整个数据。

        OfflineGNN:该模型仅在整个历史数据集上进行训练,在线学习阶段不会接触任何新数据。

        ERGNN(Zhou and Cao 2021):该模型使用经验回放来连续学习一系列任务,解决灾难性遗忘问题。

        FGN(Wang et al. 2022a):该模型通过将持续图学习转换为常规图学习,在图学习和终身学习之间架起桥梁。

        ContinuesGNN (Wang 等,2020 年): 该模型基于持续学习,通过数据重放和模型正则化来学习和保持模式。

        CAREGNN(Dou 等人,2020 年): 该模型使用多关系图来检测欺诈行为,重点打击使用伪装的作弊者(cheaters)。

        PCGNN (Liu 等,2021 年): 该模型使用挑选法解决金融关系拓扑图中类别不平衡的问题.

Experimental Results

        将模型与先进的基线模型进行了全面比较。如图 2(a) 和 2(c) 所示,模型表现出极高的月平均准确率。

(比较不同欺诈检测方法在医疗欺诈数据集中一年内在线学习的平均月准确率和平均准确率下降率。平均准确率下降率分为前六个月和后六个月。)

        而表 1 则展示了医疗欺诈数据集上其他评估指标的骄人成绩。

        在使用模拟时间进行实验的其他数据集上,选择了几个表现最好的基线进行实验。如图 3 所示,这些实验显示了与医疗欺诈数据集类似的趋势。实验结果表明,模型在月平均准确率方面几乎达到了 RetrainGNN 的水平,比其他基线模型高出 1%-4%。

 Ablation Experiment

        POCL w/o OL:删除了 Temporal MAS 部分,并采用预先训练的对比学习部分,并在在线阶段中直接更新参数。

        POCL w/o PCL:删除了预先训练的对比学习部分,并使用普通的GraphSAGE 代替,使用Temporal MAS 来更新整个模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2227763.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

pycharm与anaconda下的pyside6的安装记录

一、打开anaconda虚拟环境的命令行窗口,pip install,加入清华源: pip install PySide6 -i https://pypi.tuna.tsinghua.edu.cn/simple 二、打开pycharm,在文件--设置--工具--外部工具中配置一下三项: 1、 QtDesigner…

GitHub Star 数量前 5 的开源应用程序生成器

欢迎来的 GitHub Star 数量排名系列文章的第 7 篇——最受欢迎的应用程序生成器。 之前我们已经详细探讨过:在 GitHub 上最受欢迎的——无代码工具、低代码项目、内部工具、CRUD项目、自部署项目和 Airtable 开源替代品。累计超过 50 个优质项目!&#…

【主机游戏】塔尼蚀:神之堕落 游戏介绍

《塔尼蚀:神之堕落》是一款2D横版动作游戏支持简体和繁体中文 https://pan.baidu.com/s/1UT5XSwUcxGQzPOoSuNt3vw?pwdfxbt 。 游戏的基本操作包括: 移动:使用键盘的WASD或方向键进行角色的移动。攻击:鼠标左键或键盘的攻击…

【优选算法篇】前缀之序,后缀之章:于数列深处邂逅算法的光与影

文章目录 C 前缀和详解:基础题解与思维分析前言第一章:前缀和基础应用1.1 一维前缀和模板题解法(前缀和)图解分析C代码实现易错点提示代码解读题目解析总结 1.2 二维前缀和模板题解法(二维前缀和)图解分析C…

【小白学机器学习26】 极大似然估计,K2检验,logit逻辑回归(对数回归)(未完成----)

目录 1 先从一个例题出来,预期值和现实值的差异怎么评价? 1.1 这样一个问题 1.2 我们的一般分析 1.3 用到的关键点1 1.4 但是差距多远,算是远呢? 2 极大似然估计 2.1 极大似然估计的目的 2.1.1 极大似然估计要解决什么问题…

Mount Image Pro,在取证安全的环境中挂载和访问镜像文件内容

天津鸿萌科贸发展有限公司从事数据安全服务二十余年,致力于为各领域客户提供专业的数据恢复、数据备份解决方案与服务,并针对企业面临的数据安全风险,提供专业的相关数据安全培训。 天津鸿萌科贸发展有限公司是 GetData 公司数据恢复与取证工…

什么是元件符号什么是封装

话不多说直接上图 左上角就可以理解为元件的符号,右上角可以理解为元件的封装,右下角是封装得3D图,左下角是真实的芯片。 同时注意我们元件符号的小孔,在封装和焊接时我们可以参照小孔的位置以及对应的引脚。如下图所示&#xff…

AUTOSAR 规范中的设计模式:传感器执行器模式

在 AUTOSAR Adaptive Platform (AP) 规范中,传感器执行器模式是一种典型的设计模式,主要用于实时控制系统中,用来实现传感器数据的获取和执行器指令的发送。该模式通过分离传感器和执行器的实现,使其独立运行并且能够通过某种通信…

【网页设计】学成在线案例

Demo 典型的企业级网站,目的是为了整体感知企业级网站的布局流程,复习以前知识。 集合代码见文章最后。 5.1 准备素材和工具 学成在线 PSD 源文件。开发工具 PS(切图) sublime(代码) chrome&#xff0…

第三十三篇:TCP协议如何避免/减少网络拥塞,TCP系列八

一、流量控制 一般来说,我们总是希望数据传输得更快一些,但是如果发送方把数据发送得太快,接收方可能来不及接收,造成数据的丢失,数据重发,造成网络资源的浪费甚至网络拥塞。所谓的流量控制(fl…

基础知识-因果分析-daythree-独立性检验-贝叶斯公式及应用

根据概率乘法公式有P(AB)P(B|A)P(A)变形为除法形式,则有 更一般地,假设事件的集合B1,B2,…,Bn构成样本空间的一个划分,则根据全概率公式有 将式(2.14)中的B替换为Bi,则有 再代入P(A)的全概率计算…

QT界面开发--我的第一个windows窗体【菜单栏、工具栏、状态栏、铆接部件、文本编辑器、按钮、主界面】

经过前面的铺垫,今天我们就开始我们图形化界面之旅了,我们的第一个窗体主要包括:菜单栏、状态栏、工具栏、铆接部件、还有Qt提供的一些主窗体的API。 第一部分:主界面(QMainWindow) 当创建好项目后,我们直接运行&…

Docker镜像的创建、修改与导出

Docker镜像的创建、修改与导出 前言一、创建Docker镜像1. 基于已有镜像创建方法一:修改现有镜像方法二:使用Dockerfile通过源码编译安装nginx二、修改Docker镜像1. 基于已有镜像创建新镜像方法一:修改现有镜像2. 使用`docker commit`命令创建新镜像方法一:提交正在运行的容…

3GPP协议解读_NTN系列(一)_38.811_非地面网络(NTN)的背景、应用场景和信道建模

非地面网络 1. Scope4. 非地面网络背景介绍4.1 5G中的非地面网络4.2 非地面网络在5G中的用例4.3 卫星和空中接入网的架构4.4 卫星和空中接入网终端的特点4.5 空气/星载飞行器特性4.6 NTN的覆盖模式4.7 NTN网络架构选项4.8 频谱 5. 非地面网络应用场景5.1 应用场景概览5.2 属性介…

基于SSM+小程序的智慧旅游平台登录管理系统(旅游2)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 旅游平台开发微信小程序功能有管理员和用户。 1、管理员功能有个人中心,用户管理,景点分类管理,旅游景点管理,景点购票管理,景…

函数式接口与回调函数实践

函数式接口与回调函数实践 一、Java 的函数式接口 是指仅包含一个抽象方法的接口,通常用于 lambda 表达式或方法引用。Java 8 引入了很多内置的函数式接口,比如 Runnable、Callable、Predicate、Function、Consumer 等 演示,数据类型转换的函…

小米迎来「新起点」:硬核创新从超越到引领,小米SU7 Ultra 发布

发布 | 大力财经 10月29日,小米15系列暨小米澎湃OS 2新品发布会在北京召开,小米集团创始人、董事长兼CEO雷军宣布了小米汽车原型车在纽北跑出6分46秒874的圈速,登顶“纽北全球最速四门车”的好消息,并领衔发布了小米15系列手机、…

Go语言优秀的web框架推荐-酒香也怕巷子深 好的框架也需要宣传

温馨提示:我们分享的文章是给需要的人,不需要的人请绕过,文明浏览,误恶语伤人! 前言 俗话说得好“酒香也怕巷子深”,好的东西不宣传也不能让大家知晓!需要的人无法获取好的东西,好…

双十一特辑,解决铲屎官难题——性价比高的宠物空气净化器推荐

谁家好人受得了猫咪这么掉毛啊!最近换季,掉毛情况越发严重,家里都快被毛发淹没了。每天下班回来,第一件事就是清扫一地的猫毛。那就算了,一呼吸还收获一鼻子浮毛,又是沉重一击,这日子快要没法过…

如何在 Windows 上安装 Python:一步一步的指南

Python 已成为 当今最受欢迎的编程语言之一,在商业的各个领域中广泛应用。开发者使用 Python 构建应用程序和开发网站,而数据工程师则使用 Python 进行数据分析、统计分析以及构建机器学习模型。 检测是否已安装Python 默认情况下,Windows …