Apache Spark 机器学习 基本统计 1

news2025/1/18 8:58:24

1 基本概念

相关性,是指两个变量或者两个系列变量的关联程度,也就是,其中一方变量的变化会影响另外一方变量的变化。

相关性分为三种关系,正相关、负相关以及不相关。

正相关,从单调递增的角度看,其中一方变量的最大值对应另外一方变量的最大值。

负相关,从单调递增的角度看,其中一方变量的最大值对应另外一方变量的最小值。

不相关,不管从任何角度看,其中一方变量与另外一方变量没有关系,也就是,双方变量的变化都不会相互影响。

相关系数,用于度量两个变量或者两个不同系列变量之间的相关程度的数值,简单的相关系数的计算公式的定义如下所示:

如上所示,r表示X与Y之间的相关系数,r的绝对小于或者等于1,其中,Cov(X,Y)是协方差,Var[X]是X的方差,Var[Y]是Y的方差。r的绝对值越大,则X与Y的相关程度越大,r的绝对值越小,则X与Y的相关程度越小,当r等于0,则X与Y之间不相关。

如上所示,是某企业的广告投入与产出的数据。

如上所示,计算其相关系数是0.9942,说明广告投入与产出之间发生高度的正相关的关系。

协方差,用于衡量两个变量之间的总体误差,其计算公式的定义如下所示:

如上所示,E|X|与E|Y|是两个随机变量X与Y的期望值。

方差,用于计算每一个变量与总体均数之间的差异,其计算公式的定义如下所示:

如上所示,S2的平方是样本方差,X为变量,X—为样本均值,n为样本数。

标准差,方差等于标准差的平方,其计算公式的定义如下所示:

如上所示,标准差的S与方差的S是表示相同的度量。

皮尔森相关系数(Pearson’s correlation),是用于度量两个变量或者两个系列变量X与Y之间的相关性,其计算公式的定义如下所示:

如上所示,Xi与Yi是表示样本X与样本Y,其中,X—与Y—分别表示X与Y的均值。

斯皮尔曼相关系数(Spearman’s correlation,是对样本数据从单调的角度划分为等级,再按照样本数据的等级计算皮尔森相关系数,其计算公式的定义如下所示:

如上所示,其计算公式与皮尔森相关系数的计算公式一样,使用单调的方式按照等级划分样本数据如下所示:

假设检验(Hypothesis testing),该统计分析思想是基于小概率事件作为判断依据,而对提前做出假设的事件H0进行判断,如果小概率事件发生,则假设的事件H0错误,如果小概率的事件不发生,则假设的事件H0正确,因此,小概率事件发生的概率越小,则假设的事件H0越有说服力。

卡方检验(ChiSquareTest),该统计分析思想是统计数据样本的实际观测值与推断值之间的偏离程度,实际观测值与推断值之间的偏离程度决定卡方值的大小,如果卡方值越大,二者的偏差程度就越大,如果卡方值越小,二者的偏差程度就越小,如果二者的值完全相等,则卡方值等于0。

皮尔森卡方检验(Pearson's chi-squared test),该卡方检验是最有名的卡方检验方法之一,而独立性检验是该检验最常用的手段。

独立性检验(X2),根据次数判断两类数据样本是彼此相关的或者是相互独立的,其检验方式的描述是,假设存在两个分类变量X与Y,X对应的列表是{x1,x2},Y对应的列表是{y1,y2},则其计算方式如下所示:

如上所示,计算出随机变量K2 的值,K2 的平方越大,说明X与Y有关系的可能性越大,常用的对照表如下所示:

如上所示,如果K2的值等于6.109,则由以上的对照表可知,5.024≤6.109<6.635,从而,X与Y有关系的概率等于1-0.025等于0.975,即发生的概率是97.5%,因此,X与Y之间有很大可能发生关联关系。

2 基本统计

Apache Spark提供的基本统计包括相关性、假设检验以及汇总,以下章节分别从代码的角度描述这些基本的统计,Spark技术框架目前支持的开发语言包括Python、Java以及R语言。

相关性

相关性的计算是统计学领域中常用的操作,用于分析不同两个变量之间的相关程度。Spark的机器学习技术框架(spark.ml)提供对多系列数据集进行双相关系数的计算,其中包括前面所描述的皮尔森相关系数(Pearson’s correlation)、斯皮尔曼相关系数(Spearman’s correlation)。

如上所示,是Spark技术框架提供Java语言的机器学习的工具集,对输入的数据样本集进行皮尔森相关系数(Pearson’s correlation)、斯皮尔曼相关系数(Spearman’s correlation)的计算。

其中,data是创建了一个4行记录的数据集,每行记录包括4个double类型元素,sparse函数是存储稀疏的列表,稀疏存储方式不存储0值的元素,当列表中的0值元素个数很多的时候,使用稀疏存储方式可以充分利用存储空间,dense函数是存储稠密列表,稠密存储方式存储0值的元素,当列表中的0值元素个数很少的时候,使用稠密存储方式可以提供数据存取的效率。

其中,schema是定义一个数据类型,相当于一个数据库对应的数据表,其字段是features。df是转换成数据框架的形式处理数据集。

其中,Correlation.corr对输入的特征数据集进行相关度的计算,r1输出皮尔森相关系数,r2输出斯皮尔曼相关系数。

假设检验

该统计分析方式在统计学上是一个非常强大的工具,用于检测不同数据样本集合之间是否是显著地发生关联,或者是偶然地发生关联。Spark.ml目前支持皮尔森独立性卡方检测,对每个特征与标签的对应关系进行皮尔森独立性检测,其代码如下所示:

如上所示,data创建一个数据样本集,共计6行数据记录,每行记录包括两列,第一列是标签,第二列是特征集,第二列的每个特征集是包括两个double类型的数值。

其中,schema定义一个类似数据库的数据表格,包括两列,label对应数据样本的第一列标签,featrues对应数据样本的第二列特征集。

其中,df是根据data以及schema创建的数据框架,r是使用spark技术框架计算的卡方检测的结果,该结果中显示每两个输入数据集元组之间发生关联的可能性的统计数据。

汇总分析

数据汇总分析是统计学的一种常用的数据分析方法,spark技术框架提供的汇总分析方法包括列式的最大值(max)、最小值(min)、总和(sum)、方差(variance),标准差(std)、非0值个数、总数个数,其代码如下所示:

如上所示,data定义一个数据样本集,包括两行记录,每行记录中,第一列表示特征集,第二列表示特征集对应权重值。

其中,schema定义一个类似数据库的数据表格,features表示第一列的特征集,weight表示第二列权重值。

其中,df使用data与schema创建一个数据框架,result1以及result2是计算所得的数据统计分析的结果。

(未完待续)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/155603.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Netty基础入门——文件编程、网络编程【2】

Netty基础入门——文件编程、网络编程【2】 基础入门【1】 1 文件编程 1.1 channel 两个channel传输数据 transferTo方法一次性最多传输2G大小的文件&#xff0c;如果超出会丢弃 public static void main(String[] args) {try (FileChannel from new FileInputStream(&quo…

APM系统是什么?有什么用处?

自SpringCloud问世以来&#xff0c;微服务以席卷之势风靡全球&#xff0c;企业架构都在从传统SOA向微服务转型。然而微服务这把双刃剑在带来各种优势的同时&#xff0c;也给运维、性能监控、错误的排查带来的极大的困难。在大型项目中&#xff0c;服务架构会包含数十乃至上百个…

分布式助力光伏太阳能规模化发展解决方案

行业背景 光伏太阳能作为一种清洁环保的能源&#xff0c;得到各种开发利用&#xff0c;光伏太阳能电池板是其中的重点研究对象&#xff0c;其质量是影响太阳能电池发电效率的主要因素,所以对电池板表面质量的检测是生产中一个重要环节。随着工业的发展&#xff0c;太阳能电池板…

198:vue+openlayers 解决drawend后不能获取当前feature的方法

第198个 点击查看专栏目录 本示例的目的是介绍如何在vue+openlayers项目中绘制矩形,drawend触发事件,要获取到当前绘制的feature的信息。drawend触发的时刻,add feature to the source or collection 这个变化还没有发生,所以用source.getFeatures()是获取不到最新数据的。可…

OpenStack 认证Api

在调用OpenStack的Api或者其它组建的Api时都需要进行 OpenStack 认证&#xff0c;在这里记录一下如何调用OpenStack 认证接口或者token 和给其它接口增加token的方式一. 调用OpenStack auth接口接口地址&#xff1a;http://ip:5000/v3/auth/tokens参数&#xff1a;{"auth&…

特色风情小镇行业发展动态及市场需求前景分析

2023-2029年中国特色风情小镇行业发展动态及市场需求前景报告报告编号&#xff1a;1691653免费目录下载&#xff1a;http://www.cninfo360.com/yjbg/qthy/qt/20230110/1691653.html本报告著作权归博研咨询所有&#xff0c;未经书面许可&#xff0c;任何组织和个人不得以任何形式…

结构体内存对齐与结构体位段:学习笔记8

目录 一.结构体基础知识 1. 结构体的特殊声明 2. 结构的自引用 3.结构体变量的定义和初始化 二.结构体内存对齐 1.关键概念&#xff1a; 2.计算示例 3.嵌套结构体的内存计算 4.结构体内存对齐的意义 5.定义结构体时的注意事项 6.修改默认对齐数 附&#xff1a;关…

【PWA学习】5. 使用 Notification API 来进行消息提醒

引言 在上一节, 介绍了如何使用 Push API 进行服务端消息推送。提到 Push 就不得不说与其联系紧密的另一个 API——Notification API。它让我们可以在“网站外”显示消息提示&#xff1a; 消息推送示例即使当你切换到其他 Tab&#xff0c;也可以通过提醒交互来快速让用户回到你…

webviz安装,docker安装可正常使用与Foxglove Studio

Foxglove Studio Foxglove Studio与webviz使用起来非常类似 去可以直接使用web也可以下载安装包 Foxglove Studio不提供源码 安装包下载地

linux cgroup、kubernetes limit

linux cgroup、kubernetes limit 1.cgroups 简介 cgroups&#xff0c;其名称源自控制组群&#xff08;control groups&#xff09;的缩写&#xff0c;是内核的一个特性&#xff0c;用于限制、记录和隔离一组进程的资源使用&#xff08;CPU、内存、磁盘 I/O、网络等&#xff0…

JSP——分页查询

✅作者简介&#xff1a;热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏&#xff1a;JAVA开发者…

Homekit智能家居DIY产品一智能面板开关

触摸开关&#xff0c;即通过触摸方式控制的墙壁开关&#xff0c;其感官场景如同我们的触屏手机&#xff0c;只需手指轻轻一点即可达到控制电器的目的&#xff0c;随着人们生活品质的提高&#xff0c;触摸开关将逐渐将换代传统机械按键开关。 触摸开关控制原理 触摸开关我们把…

【广度优先搜索遍历 BFS】单词接龙

一、题目描述 字典 wordList 中从单词 beginWord 和 endWord 的 转换序列 是一个按下述规格形成的序列 beginWord -> s1 -> s2 -> ... -> sk&#xff1a; - 每一对相邻的单词只差一个字母。 - 对于 1 < i < k 时&#xff0c;每个 si 都在 wordList 中。注意…

全面详解Java垃圾回收器

一&#xff1a;什么是垃圾回收 Java 方法栈、本地方法栈随着方法结束或者线程结束&#xff0c;堆中的对象是用完&#xff0c;都会进行回收内存&#xff0c;所以这些区域的内存分配和回收都具备确定性&#xff0c;不需要额外考虑回收的问题。而堆和方法区存储的对象可能只有在运…

Ad5761r GD32 STM32 驱动设计

MCU采用GD32,GD32基本上和STM32一样,针对ad5761r的时序操作是完全相同的.软、硬件设计已经再产品设计中实际使用。本文章提供参考硬件设计&#xff0c;以及对应的源代码&#xff0c;具体可以作为实际项目的参考设计AD5761R是一款单通道、16位串行输入、电压输出DAC。该器件采用…

网工进阶之路-锐捷NAT网络地址转换实验 ----尚文网络奎哥

实验拓扑&#xff1a;实验需求&#xff1a; 1&#xff1a;方框内设备为内网设备&#xff0c;方框外是外网设备&#xff0c;内网网段为192.168.1.0/24&#xff0c;外网路由器互联网段为100.1.1.0/24&#xff0c;外网PC网段为200.1.1.0/24 2&#xff1a;希望使用各种NAT实现内网…

2023年海外优青项目申报指南及政策解读

海外优青项目申报&#xff0c;一直备受海外优秀青年学者&#xff08;包括博士后研究人员&#xff09;关注。知识人网小编现将国家自然科学基金委员会公布的2023年申报指南全文摘录&#xff0c;并和往年加以对比进行政策解读&#xff0c;以飨读者。自2021年起&#xff0c;国家自…

【面试题】说说你对发布订阅、观察者模式的理解?区别?

大厂面试题分享 面试题库前端面试题库 &#xff08;面试必备&#xff09; 推荐&#xff1a;★★★★★地址&#xff1a;前端面试题库一、观察者模式观察者模式定义了对象间的一种一对多的依赖关系&#xff0c;当一个对象的状态发生改变时&#xff0c;所有依赖于它的对象都将得到…

Elasticsearch-高级搜索(拼音|首字母|简繁|二级搜索)

需求&#xff1a; 中文搜索、英文搜索、中英混搜全拼搜索、首字母搜索、中文全拼、中文首字母混搜简繁搜索二级搜索&#xff08;对第一次搜索结果&#xff0c;再进行搜索&#xff09;一、ES相关插件 IK分词&#xff1a; GitHub - medcl/elasticsearch-analysis-ik: The IK A…

JsonWebToken远程代码执行漏洞(CVE-2022-23529)

漏洞描述 JsonWebToken 是一个用于创建、签名和验证 JSON Web Token开源库。node-jsonwebtoken是node.js 下 JsonWebToken 的实现。 在JsonWebToken < 8.5.1版本中由于jwt.verify()方法未对用户输入的secretOrPublicKey参数进行有效的检查。如果攻击者能够控制secretOrPub…