Apache Spark 机器学习数据源 2

Apache Spark 机器学习数据源 2

news2026/2/14 1:08:42

数据源

数据源作为机器学习的数据输入，以供给Spark进行机器学习，Spark技术框架除了支持Parquet、CSV、JSON以及JDBC这些常用的数据源，还提供一些特殊数据源的支持，例如，图像或者LIBSVM。

Parquet数据源

该数据源是apache parquet技术框架提供的数据存储格式，是面向列式存储结构，其设计的目标是提供高效以及高性能的数据存储、数据获取、数据压缩以及数据编码。

图像数据源

图像数据源是用于从目录中加载图像，Spark技术框架使用ImageIO的类库加载压缩的图像（jpeg、png等等格式）进行合法的展示，其加载的数据框架（DataFrame）的数据结构类型（StructType）对应的列是image，该图像数据结构存储图像数据，其包含的图像属性如下所示：

origin，字符类型（StringType），表示图像的文件路径
height，整数类型（IntegerType），表示图像的像素高度
width，整数类型（IntegerType），表示图像的像素宽度
nChannels，整数类型（IntegerType），表示图像的通道数量
mode，整数类型（IntegerType），表示图像的OpenCV的兼容性类型
data，二进制类型（BinaryType），表示图像的字节码序列，以OpenCV的兼容性顺序，大多数的情况下是行式的BGR格式

如上所示，是Spark的技术框架对应的ImageDataSource类从指定文件夹中加载图像列表，形成一个DataFrame类型数据集合。

LIBSVM数据源

提供加载libsvm类型数据源的支持，该类型数据源的数据框架（DataFrame）包括两列，label列包括double类型的标签列表，features列包括特征集合，其数据框架描述如下所示：

label，double数据类型，表述数据集的标签的列
features，VectorUDT数据类型，表示特征数据集

如上所示，从指定文件夹中加载libsvm的数据源，并显示数据框架的列表，其中，LIBSVM是支持向量机的类库以及对应的数据集，应用于分类以及回归的机器学习领域。

（未完待续）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/156929.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

2023什么蓝牙耳机值得入手？值得入手的半入耳蓝牙耳机推荐

2023什么蓝牙耳机值得入手？值得入手的半入耳蓝牙耳机推荐

毫无疑问，近年来蓝牙耳机的外出使用频率越来越高，这是由于其外出携带的便捷性以及配置越来越高端、先进，而半入耳式蓝牙耳机又凭借更舒适的佩戴体验以及便携性受到用户的喜爱。但，面对形形色色的蓝牙耳机，不同价位、不…

阅读更多...

Shell中的 test 命令

Shell中的 test 命令

Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明-eq等于则为真-ne不等于则为真-gt大于则为真-ge大于等于则为真-lt小于则为真-le小于等于则为真实例num1100num2100if test $[num1] -eq $[num2]thenecho 两…

阅读更多...

完全背包理论基础

完全背包理论基础

目录一.理论基础二.遍历顺序问题 2.1 01背包 2.2完全背包 3.相关题型 3.1零钱兑换 3.1.数组总和IV 一.理论基础题目描述： 有N件物品和一个最多能背重量为W的背包。第i件物品的重量是weight[i]，得到的价值是value[i] 。每件物品都有无限个&…

阅读更多...

重置Entity Framework Core的数据迁移

重置Entity Framework Core的数据迁移

本文主要参考文章重置EntityFramework数据迁移到洁净状态，感谢哈~。可能是版本问题，文中所述操作跟我稍微有所出入，故在此做下记录。注意，本人的IDE是JetbrainsRider，并非Visual Studio，但主要操作是通用的…

阅读更多...

Spring事务源码解析

Spring事务源码解析

Spring事务源码解析一、基本概念1、ACID属性2、事务的隔离级别3、事务行为4、Spring事务的传播级别5、Spring事务支持方式二、Spring事务的执行源码1、事务AOP2、事务处理拦截器TransactionInterceptor2.1 主要流程2.2 尝试创建事务2.3 清除线程事务信息2.4 事务提交2.5 事务异…

阅读更多...

品牌控价、淘宝控价、拼多多控价，如何有效利用平台投诉

品牌控价、淘宝控价、拼多多控价，如何有效利用平台投诉

低价链接，是品牌渠道管控最重要的工作，同时，也是最难的，尤其是非授权低价链接，不受经销管理制度约束，极可能屡次沟通仍不配合整改，进行平台投诉，也不被平台支持诉求。确实&#xf…

阅读更多...

高级ACL的基础配置命令

高级ACL的基础配置命令

ACL概述 ACL是由一系列permit或deny语句组成的、有序规则的列表。 ACL是一个匹配工具，能够对报文进行匹配和区分。 ACL的组成 CL由若干条permit或deny语句组成。每条语句就是该ACL的一条规则，每条语句中的permit或deny就是与这条规则相对应的处理动作。…

阅读更多...

各社区文艺团队疫情首秀演出《金龄会》受邀提供全程服务

各社区文艺团队疫情首秀演出《金龄会》受邀提供全程服务

疫情放开后，各地活动逐渐恢复，受到广州各社区的中老年文艺团队邀约，广东省金龄会于1月9日在金龄会演播厅举办了疫情后的首秀——“健康广东，抗疫成功，再创辉煌”广东中老年文化艺术大赛，由广东省健康金龄公…

阅读更多...

MAC(m1)-CentOS8 Docker安装MySQL

MAC(m1)-CentOS8 Docker安装MySQL

1、查看可用的MySQL版本访问 MySQL 镜像库地址：Docker 查看老版本： 2、拉取MySQL镜像我们可以拉取官方的最新版本的镜像： docker pull mysql:latest 我的MAC m1安装的mysql是8，准备在虚拟机上安装5.7 没找到哦，呜…

阅读更多...

MySQL高级篇第01章（Linux下MySQL的安装与使用）

MySQL高级篇第01章（Linux下MySQL的安装与使用）

CentOS环境的准备虚拟机的克隆 mac地址主机名 ip地址 UUID 查看是否安装过MySQL 如果是用rpm安装，检查一下RPM PACKAGE rpm -qa | grep -i mysql # -i 忽略大小写检查mysql service服务： systemctl status mysqld.service如果存在mysql-libs的旧…

阅读更多...

Vue2.0开发之——Vue组件-生命周期(37)

Vue2.0开发之——Vue组件-生命周期(37)

一概述了解生命周期和生命周期函数的概念初步了解组件创建的过程了解beforeCreate和Created生命周期函数的特点了解beforeMount和mounted生命周期函数组件运行阶段的生命周期函数组件销毁阶段的生命周期函数二了解生命周期和生命周期函数的概念 2.1 生命周期&生命周期…

阅读更多...

李宏毅ML-机器学习任务功略

李宏毅ML-机器学习任务功略

文章目录机器学习任务功略机器学习框架训练模型通用指南1. training loss is large2. training loss is small2.1 training loss is small and testing loss is large2.2 training loss is small and testing loss is small3. 偏差与复杂度的平衡机器学习任务功略机器学习框架…

阅读更多...

Yolov5训练自己的数据集

Yolov5训练自己的数据集

一、从官网下载最新的yolov5代码二、新建VOCData文件夹三、VOCData文件夹结构新建Annotations文件夹，存放标签简单的xml文件，应该长这样复杂的xml文件，应该长这个样子新建images文件夹，存放图片数据注意：需要观察自己的…

阅读更多...

1.1.2半导体二极管的结构、工作原理、参数、伏安特性；

1.结构内部实际上是一个PN结，将电极引线和其封装在一起就构成了二极管拓展：点接触型二极管，面接触型二极管 2.工作原理 3.参数（以肖特基二极管SS56为例） MAX Forward Voltage(最大导通电压) ，因为SS5…

阅读更多...

Jvm-hotspot 总结系列-完整版（1）类加载器

Jvm-hotspot 总结系列-完整版（1）类加载器

一、类加载器子系统的作用（1）类加载器子系统负责从文件系统或网络中加载class文件，class文件在文件开头有特定的文件标识（cafebabe）咖啡宝贝。（2）ClassLoader只负责class文件的加载，…

阅读更多...

广告业务系统之核心通道 —— “日志中心-s2s监测上报”

广告业务系统之核心通道 —— “日志中心-s2s监测上报”

文章目录广告业务系统之核心通道 —— “日志中心-s2s监测上报”s2s 监测上报s2s 、c2s曝光/互动/Win数据上报监测上报AB 实验平台广告业务系统之核心通道 —— “日志中心-s2s监测上报” s2s 监测上报 s2s 监测上报，是 ADX 将广告的曝光、互动[点击/播放/下载…

阅读更多...

赛事推荐 | 建筑物细粒度实例分割——2023 IEEE GRSS 数据融合赛道1

赛事推荐 | 建筑物细粒度实例分割——2023 IEEE GRSS 数据融合赛道1

1. 赛题名称建筑物检测和屋顶类型分类 2. 赛题背景该轨道侧重于从高分辨率卫星光学图像和 SAR 图像中检测和分类建筑物屋顶类型。SAR 和光学模态有望提供补充信息。给定的数据集涵盖了全球六大洲的十七个城市。分类任务由 12 种细粒度的预定义屋顶类型组成。图 1 显示了一…

阅读更多...

缺乏长线思考是扼杀工程师前途的屠刀.

缺乏长线思考是扼杀工程师前途的屠刀.

缺乏长线思考是扼杀工程师前途的屠刀。死局工作几年后，最容易陷入一个隐形的死局，开发只关注实现需求，运维只关注部署、故障。待到七八年，一定会出现后继无力。被替代，早晚而已。我相信很多领导都讲过沉淀方法论&am…

阅读更多...

RK3399平台开发系列讲解（内核调试篇）如何使用perf进行性能优化

RK3399平台开发系列讲解（内核调试篇）如何使用perf进行性能优化

🚀返回专栏总目录文章目录一、perf list命令二、perf record/report命令三、perf stat命令四、perf top命令五、火焰图沉淀、分享、成长，让自己和他人都能有所收获！😄 📢perf 可以在 CPU Usage 增高的节点上找到具体的引起 CPU 增高的函数，然后我们就可以有针对性地…

阅读更多...

开源PPP软件PRIDE-PPPAR使用记录（一）GFZRNX预处理

开源PPP软件PRIDE-PPPAR使用记录（一）GFZRNX预处理

我们使用PRIDE-PPPAR软件对GNSS观测数据进行解算时，会遇到观测文件不能识别的问题。观测文件不能识别的主要原因是格式不对，可通过GNSS预处理软件进行修复。本文介绍一款由德国波兹坦地学研究中心（GFZ）开发的GNSS预处理软件GFZRNX…

阅读更多...

推荐文章

最新文章