【pyspark学习从入门到精通19】机器学习库_2

news2024/11/27 10:34:51

目录

估计器

分类

回归

聚类

管道



估计器

估计器可以被看作是需要估算的统计模型,以便对您的观测值进行预测或分类。

如果从抽象的 Estimator 类派生,新模型必须实现 .fit(...) 方法,该方法根据在 DataFrame 中找到的数据以及一些默认或用户指定的参数来拟合模型。

PySpark 中有许多估计器,我们现在将简要描述 Spark 2.0 中可用的模型。

分类

ML 包为数据科学家提供了七种分类模型供选择。这些模型从最简单的(如逻辑回归)到更复杂的都有。我们将在下一节中简要描述每一个:

- LogisticRegression:分类的基准模型。逻辑回归使用 logit 函数计算观测值属于特定类别的概率。在撰写本文时,PySpark ML 仅支持二元分类问题。
- DecisionTreeClassifier:构建决策树以预测观测值的类别的分类器。指定 maxDepth 参数可以限制树生长的深度,minInstancePerNode 确定进一步分割所需的树节点中的最小观测次数,maxBins 参数指定连续变量将被分割成的最大箱数,而 impurity 指定用于测量并计算从分割中获得的信息增益的度量。
- GBTClassifier:用于分类的梯度提升树模型。该模型属于集成模型家族:将多个弱预测模型结合起来形成一个强模型。目前,GBTClassifier 模型支持二元标签,以及连续和分类特征。
- RandomForestClassifier:这个模型生成多个决策树(因此得名森林),并使用这些决策树的模式输出来对观测值进行分类。RandomForestClassifier 支持二元和多项式标签。
- NaiveBayes:基于贝叶斯定理,该模型使用条件概率理论对观测值进行分类。PySpark ML 中的 NaiveBayes 模型支持二元和多项式标签。
- MultilayerPerceptronClassifier:模仿人脑的分类器。深深植根于人工神经网络理论,模型是一个黑盒,即不容易解释模型的内部参数。该模型至少由三层完全连接的人工神经元组成:输入层(需要等于数据集中的特征数量)、至少一个隐藏层,以及输出层的神经元数量等于标签中的类别数量。输入层和隐藏层的所有神经元都有 sigmoid 激活函数,而输出层神经元的激活函数是 softmax。
- OneVsRest:将多类分类简化为二元分类。例如,在多项式标签的情况下,模型可以训练多个二元逻辑回归模型。例如,如果标签 == 2,模型将构建一个逻辑回归,将标签 == 2 转换为 1(所有剩余的标签值将被设置为 0),然后训练一个二元模型。然后对所有模型进行评分,概率最高的模型获胜。

回归

PySpark ML 包中有七种模型可用于回归任务。与分类一样,这些模型从一些基本的(如必不可少的线性回归)到更复杂的都有:

- AFTSurvivalRegression:拟合加速失效时间回归模型。它是一个参数模型,假设一个特征的边际效应加速或减缓寿命期望(或过程失效)。它非常适用于具有明确阶段的过程。
- DecisionTreeRegressor:与分类模型类似,明显的区别是标签是连续的而不是二元的(或多项式的)。
- GBTRegressor:与 DecisionTreeRegressor 一样,区别在于标签的数据类型。
- GeneralizedLinearRegression:具有不同核函数(链接函数)的线性模型家族。与假设误差项正态性的线性回归不同,GLM 允许标签具有不同的误差项分布:PySpark ML 包中的 GeneralizedLinearRegression 模型支持高斯、二项式、伽马和泊松误差分布家族以及多种不同的链接函数。
- IsotonicRegression:一种回归类型,适合你的数据形成一个自由形式的、非递减的线。它适用于拟合有序且递增的观测值数据集。
- LinearRegression:最简单的回归模型,它假设特征和连续标签之间存在线性关系,并且误差项呈正态分布。
- RandomForestRegressor:与 DecisionTreeRegressor 或 GBTRegressor 类似,RandomForestRegressor 拟合的是连续标签而不是离散标签。

聚类

聚类是一类无监督模型,用于发现数据中的潜在模式。PySpark ML 包目前提供了四种最受欢迎的模型:

- BisectingKMeans:k-means 聚类方法和层次聚类的结合。该算法从所有观测值在一个单一的簇开始,逐步将数据分割成 k 个簇。
- KMeans:这是著名的 k-means 算法,将数据分离成 k 个簇,迭代搜索最小化每个观测值与其所属于簇的质心之间平方距离之和的质心。
- GaussianMixture:该方法使用 k 个具有未知参数的高斯分布来剖析数据集。利用期望最大化算法,通过最大化对数似然函数找到高斯的参数。
- LDA:这个模型用于自然语言处理应用中的主题建模。

PySpark ML 中还有一个推荐模型可用,但我们将不在这里描述它。

管道

在 PySpark ML 中,管道是一个端到端的转换-估计过程的概念(具有不同的阶段),它摄取一些原始数据(以 DataFrame 形式),执行必要的数据加工(转换),并最终估计一个统计模型(估计器)。

管道可以被看作是由多个离散阶段组成的链。当在管道对象上执行 .fit(...) 方法时,所有阶段都会按照它们在 stages 参数中指定的顺序执行;stages 参数是转换器和估计器对象的列表。管道对象的 .fit(...) 方法执行转换器的 .transform(...) 方法和估计器的 .fit(...) 方法。

通常,前一阶段的输出成为下一阶段的输入:当从转换器或估计器抽象类派生时,需要实现 .getOutputCol() 方法,该方法返回在创建对象时指定的 outputCol 参数的值。
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2248357.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

结构方程模型(SEM)入门到精通:lavaan VS piecewiseSEM、全局估计/局域估计;潜变量分析、复合变量分析、贝叶斯SEM在生态学领域应用

目录 第一章 夯实基础 R/Rstudio简介及入门 第二章 结构方程模型(SEM)介绍 第三章 R语言SEM分析入门:lavaan VS piecewiseSEM 第四章 SEM全局估计(lavaan)在生态学领域高阶应用 第五章 SEM潜变量分析在生态学领域…

JQuery -- 第九课

文章目录 前言一、JQuery是什么?二、JQuery的使用步骤1.引入2.书写位置3. 表示方法 三、JQuery选择器1.层级选择器2. 筛选选择器3. 排他思想4. 精品展示 四、jQuery样式操作1. 修改样式2.类操作1. 添加2. 移除3. 切换 五、jQuery动画1. 显示和隐藏2. 滑动1. slide2.…

无人机探测:光电侦测核心技术算法详解!

核心技术 双光谱探测跟踪: 可见光成像技术:利用无人机表面反射的自然光或主动光源照射下的反射光,通过高灵敏度相机捕捉图像。该技术适用于日间晴朗天气下的无人机探测,具有直观、易于识别目标的特点。 红外成像技术&#xff1…

Java使用replaceAll替换时不使用正则表达式

前言 public String replaceAll(String regex, String replacement) {return Pattern.compile(regex).matcher(this).replaceAll(replacement);}在使用String.replaceAll() 方法时,由于入参时regex ,而入参刚好是正则表达式的字符该怎么办?我…

计算机毕业设计Hadoop+Spark音乐推荐系统 音乐预测系统 音乐可视化大屏 音乐爬虫 HDFS hive数据仓库 机器学习 深度学习 大数据毕业设计

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

途普科技企业知识中台完成华为昇思MindSpore技术认证

近日,北京途普科技有限公司(以下简称“途普科技”)作为华为昇腾大模型方向的应用软件伙伴,核心产品企业知识中台已成功与华为AI框架昇思MindSpore完成相互兼容性认证。这一成就标志着途普科技在AI领域与华为的合作进一步加深&…

自由学习记录(25)

只要有修改,子表就不用元表的参数了,用自己的参数(只不过和元表里的那个同名) 子表用__index“继承”了父表的值,此时子表仍然是空表 一定是创建这样一个同名的变量在原本空空的子表里, 传参要传具体的变…

【Nginx】核心概念与安装配置解释

文章目录 1. 概述2. 核心概念2.1.Http服务器2.2.反向代理2.3. 负载均衡 3. 安装与配置3.1.安装3.2.配置文件解释3.2.1.全局配置块3.2.2.HTTP 配置块3.2.3.Server 块3.2.4.Location 块3.2.5.upstream3.2.6. mine.type文件 3.3.多虚拟主机配置 4. 总结 1. 概述 Nginx是我们常用的…

AIGC-----AIGC在虚拟现实中的应用前景

AIGC在虚拟现实中的应用前景 引言 随着人工智能生成内容(AIGC)的快速发展,虚拟现实(VR)技术的应用也迎来了新的契机。AIGC与VR的结合为创造沉浸式体验带来了全新的可能性,这种组合不仅极大地降低了VR内容的…

学习笔记035——MySQL索引

数据库索引 索引是为了提高数据的查询速度,相当于给数据进行编号,在查找数据的时候就可以通过编号快速找到对应的数据。 索引内部数据结构:B Tree 主键自带索引。 如: insert into user (id, name) values (1,f); insert int…

C语言数据结构-链表

C语言数据结构-链表 1.单链表1.1概念与结构1.2结点3.2 链表性质1.3链表的打印1.4实现单链表1.4.1 插入1.4.2删除1.4.3查找1.4.4在指定位置之前插入或删除1.4.5在指定位置之后插入或删除1.4.6删除指定位置1.4.7销毁链表 2.链表的分类3.双向链表3.1实现双向链表3.1.1尾插3.1.2头插…

计算机网络 网络安全基础——针对实习面试

目录 网络安全基础你了解被动攻击吗?你了解主动攻击吗?你了解病毒吗?说说基本的防护措施和安全策略? 网络安全基础 网络安全威胁是指任何可能对网络系统造成损害的行为或事件。这些威胁可以是被动的,也可以是主动的。…

上海乐鑫科技一级代理商飞睿科技,ESP32-C61高性价比WiFi6芯片高性能、大容量

在当今快速发展的物联网市场中,无线连接技术的不断进步对智能设备的性能和能效提出了更高要求。为了满足这一需求,乐鑫科技推出了ESP32-C61——一款高性价比的Wi-Fi 6芯片,旨在为用户设备提供更出色的物联网性能,并满足智能设备连…

初识java(2)

大家好,今天我们来讲讲java中的数据类型。 java跟我们的c语言的数据类型有一些差别,那么接下来我们就来看看。 一.字面常量,其中:199,3.14,‘a’,true都是常量将其称为字面常量。(…

MMCM DRP动态配置方法(超详细讲解)

一、MMCM 源语介绍 1、调用源语 2、调用Clocking Wizard IP 调用Clocking Wizard IP核选择使用MMCM资源时,IP内部也是调用的MMCM源语。 Clocking Wizard IP中启用MMCM DRP接口方法: 在Clocking Wizard IP中设置分频倍频系数方法: IP核中生…

对于GC方面,在使用Elasticsearch时要注意什么?

大家好,我是锋哥。今天分享关于【对于GC方面,在使用Elasticsearch时要注意什么?】面试题。希望对大家有帮助; 对于GC方面,在使用Elasticsearch时要注意什么? 1000道 互联网大厂Java工程师 精选面试题-Java…

Spring Boot 与 Spring Cloud Alibaba 版本兼容对照

版本选择要点 Spring Boot 3.x 与 Spring Cloud Alibaba 2022.0.x Spring Boot 3.x 基于 Jakarta EE,javax.* 更换为 jakarta.*。 需要使用 Spring Cloud 2022.0.x 和 Spring Cloud Alibaba 2022.0.x。 Alibaba 2022.0.x 对 Spring Boot 3.x 的支持在其发行说明中…

在Vue3项目中引入省市区联动插件

1. 打开HBuilder X 图1 2. 新建一个空项目 文件->新建->项目->uni-app 填写项目名称:vue3demo 选择项目存放目录:D:/HBuilderProjects 一定要注意vue的版本,当前选择的版本为vue3 图2 点击“创建”之后进入项目界面 图3 其中各文件…

STM32C011开发(3)----Flash操作

STM32C011开发----3.Flash操作 概述硬件准备视频教学样品申请源码下载参考程序生成STM32CUBEMX串口配置堆栈设置串口重定向FLASH数据初始化FLASH 读写演示 概述 STM32C011 系列微控制器内置 Flash 存储器,支持程序存储与数据保存,具备页面擦除、双字写入…

JVM详解:垃圾回收机制

java作为大型服务开发的主流语言,其运行会占用大量的内存空间,那么合理的使用有限的服务器资源至关重要。和大多数翻译性语言一样,java的运行环境jvm也内置垃圾回收机制,其通过一些合理的算法组合,定时来对堆中保存的不…