Apache Spark 机器学习 特征抽取 4-1

news2024/12/29 9:43:08

特征数据集是用于在机器学习中进行训练,有关特征的算法的分类如下所示:

  • 抽取(Extraction),从原始数据集中提取出对应的特征集

  • 转换(Transformation),缩放特征、转换特征以及修改特征

  • 选择(Selection),从全部特征集中选择一个子集合

  • 局部敏感哈希算法(Locality Sensitive Hashing ,LSH),综合了特征算法与其他算法的性质

特征抽取(Feature Extractors)

主要包括的算法是TF-IDF、Word2Vec、CountVectorizer、FeatureHasher。

TF-IDF

频繁项与倒排频繁文档(Term frequency-inverse document frequency),该算法用于特征向量化,被广泛地应用于文本挖掘,以反映出总体上一个词条项在文档中的重要性,假设,用t表示项,d表示文档,D表示全集,则频繁项TF(t,d)表示t在文档d中出现的次数,则频繁文档DF(t,D)表示包含t的文档个数,如果只是用频繁项去测量重要性,则很容易造成过于强调项是经常出现,但是在文档中却携带很少的信息,例如,a或者the或者of这些单词,很明显,这些词在文档中出现的次数不能体现出词的重要性。因此,倒排频繁文档是一个数字测量单位,用于体现一个项能提供多少信息,其公式定义如下所示:

如上所示,其中,|D|表示文档全集的数量,由于使用了对数,如果一个项在所有文档中都出现,则|D|等于DF(t,D),则该项对应的IDF值等于0,TF-IDF的公式定义如下所示:

如上所示,其中,TFIDF包括了有关频繁项与频繁文档的变量,在Spark的机器学习技术框架MLlib中,TF与IDF是分开计算,以保证算法的灵活性。

TF

MLlib技术框架的HashingTF与CountVectorizer都可以应用于生成频繁项向量集。

其中,HashingTF是一个转换器,其使用特定的哈希技术将来自项的数据集合转换成固定长度的特征向量集合,在文本的处理过程中,项的集合对应单词词汇的集合。HashingTF使用哈希算法,一个项对应的原始特征通过一个哈希函数转换成一个索引值,频繁项基于索引值出现的次数进行计算,使用哈希技术的好处是,不必要创建一个项的总集以及每个项都映射到总集的位置上,从而节省了大量的内存空间。然而,使用哈希技术,当项对应的哈希值相同的时候,会出现碰撞的情况,为了降低哈希值碰撞的几率,可以提升哈希取模的维度,或者提升哈希表每个桶的大小,为了保证哈希值能均匀地分布,建议取模的维度设置为2的次方,默认的模维度是218等于262144,HashingTF也提供了其他参数设置,控制项频繁总数,当设置为true时,所有项频繁总数等于1,当进行概率模型的计算时,该参数设置非常有用。

其中,CountVectorizer提供将文本文档转换成项对应的向量集的总数。

IDF

IDF是一个估算器Estimator,用于对HashingTF 或者CountVectorizer创建的数据集进行拟合与训练、最终生成一个IDFModel类型的倒排频繁文档模型,该模型的输出提供缩小特征值的范围(特征规范化),也就是,降低在总集中频繁地出现的特征的权重值。

示例代码

如上所示,data是原文,定义三行记录的数据样本集,每行的第一列表示标签,第二列表示句子,schema定义一个数据表的元数据,包括两列,第一列label表示标签,第二列sentence表示句子,sentenceData是使用前面定义的data以及schema定义一个数据框架,tokenizer定义一个分词器用于对句子进行分词处理,输出单词词汇集,wordsData分词器输出单词词汇集,hashingTF是定义一个哈希转换器使用哈希算法对单词集合进行特征规范化处理,featurizedData是使用哈希算法处理的特征集,idf是定义一个估算器对特征集进行拟合以及训练,idfModel是使用特征集进行训练完成的模型,rescaledData是使用训练完成的模型对特征集进行预测,最后输出标签与特征的对应关系。

(未完待续)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/163977.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

线程池(关于变量捕获、线程数、针对ThreadPoolExecutor的构造方法参数的解释、自实现线程池)

目录:一、前言二、关于变量捕获三、针对ThreadPoolExecutor的构造方法参数的解释四、自实现线程池一、前言相比较于进程,创建线程 / 销毁线程 的开销是相对较小的,但是太过频繁的创建线程 / 销毁线程,其开销也很大。这时候我们就需…

C 语言编译链接

前言 一个 C 程序究竟是怎么变成可执行程序的,这其间发生了什么?本文将带你简要了解 C 程序编译过程,文章为 《程序员的自我修养—链接、装载与库》的读书笔记,更为详细的过程可以阅读原书。 比如下面一个经典的 C 程序&#xf…

百度飞浆在pycharm中的使用(含官网安装和cuda)

uieGitHub 安装cuda 1 获取版本 我的是 CUDA Toolkit 11.7.1 (August 2022), Versioned Online Documentation 为了防止后期版本不对应,我这里小心谨慎安装了August对应的月份。 C:\Users\89735>nvidia-smi Mon Dec 19 21:31:28 2022 ------------------------…

一眼万年,这3款顶级神软,内存满了也绝不卸载

免费软件都不好用?不!下面3款良心软件,颠覆你的认知,功能强大到离谱,值得收藏往后有需要直接使用。 1、桌面运维助手 这是一款堪称神器的国产电脑优化工具,集硬件管理、系统管理、辅助工具于一体&#xff0…

Effective C++条款39:明智而审慎地使用private继承(Use private inheritance judiciously)

Effective C条款39:明智而审慎地使用private继承(Use private inheritance judiciously)条款39:明智而审慎地使用private继承1、private 继承2、在private继承和复合之间做出正确选择3、使用private继承比组合更加合理的例子4、牢…

wsl安装CUDA

NVCC 昨天已经安装好了gpu版的pytorch,对于一般的代码应该就可以运行了。但有些代码中需要用到cuda算子,需要配置nvcc环境。对于这个我也没能搞太清楚,网上的说法不一,我使用conda安装pytorch时也安装了cudatoolkit,按…

c++11 标准模板(STL)(std::forward_list)(八)

定义于头文件 <forward_list> template< class T, class Allocator std::allocator<T> > class forward_list;(1)(C11 起)namespace pmr { template <class T> using forward_list std::forward_list<T, std::pmr::polymorphic_…

当面试官问:“你还有什么要问我”,怎样回答才最加分?

面试到最后&#xff0c;面试官常常会问求职者&#xff1a;“你还有什么要问我&#xff1f;”许多人面对这个问题&#xff0c;不知该怎样回答&#xff0c;怕回答不好影响自己的面试结果&#xff0c;那么怎么回答才最加分呢&#xff1f;有人说&#xff0c;可以问问这个职位应该具…

springboot整合gateway网关

2.3 搭建Gateway 本项目使用Spring Cloud Gateway作为网关&#xff0c;下边创建网关工程。 新建一个网关工程。 工程结构 添加依赖&#xff1a; XML org.springframework.cloud spring-cloud-starter-gateway com.alibaba.cloud spring-cloud-starter-alibaba-nacos-discove…

TryHackMe-Blog

Blog 比利乔尔&#xff08;Billy Joel&#xff09;在他的家用电脑上写了一个博客&#xff0c;并开始工作。这将是非常棒的&#xff01; 枚举此框并找到隐藏在其上的 2 个标志&#xff01;比利的笔记本电脑上有一些奇怪的事情。你能四处走动并得到你需要的东西吗&#xff1f;还…

蓝队常用的攻击手段

目录 一&#xff0c; 漏洞利用 1.1 SQL 注入漏洞 1.2 跨站漏洞 1.3 文件上传或下载漏洞 1.4 命令执行漏洞 1.5 敏感信息泄露漏洞 在实战过程中&#xff0c;蓝队专家根据实战攻防演练的任务特点逐渐总结出一套成熟的做法:外网纵向突破重点寻找薄弱点&#xff0c;围绕薄弱点…

2022 VeLO: Training Versatile Learned Optimizers by Scaling Up

VeLO: Training Versatile Learned Optimizers by Scaling Up 通过扩展模型的规模来训练一个通用的优化器。 设计上&#xff0c;优化器的原理基于元学习的思路&#xff0c;即从相关任务上学习经验&#xff0c;来帮助学习目标任务。 相比迁移学习&#xff0c;元学习更强调获取元…

2023年批量下载和改名音频专辑(单页列表)

一、下载原理 1&#xff09;找到目标音频的专辑网页&#xff0c;这里以 kite runner mp3为例。&#xff08;需要自己找&#xff09; https://www.xi___ma___la_____ya.com/album/71718770 2&#xff09;进入详细页&#xff08;称为一次请求URL&#xff09;&#xff08;不需要…

JUC(java.util.concurrent)的常见类

文章目录一、JUC常见类Callable 接口ReentrantLockSemaphore(信号量)CountDownLatch一、JUC常见类 concurrent代表了并发&#xff0c;这个包下为我们提供了并发编程(多线程)相关的组件. Callable 接口 我们的Callable接口和Runnable是一样的&#xff0c;但也有一些区别: Run…

C/C++实现跨年表白烟花

跨年表白烟花使用c/c实现烟花效果&#xff08;小白进&#xff09;分析诉求&#xff0c;拆分问题头文件贯穿全文的媒体部分文字部分&#xff1a;进入烟花弹部分烟花弹的属性初始化烟花弹让烟花弹飞起来烟花爆炸烟花弹的属性初始化烟花让烟花炸起来完成代码&#xff1a;使用c/c实…

840个最优的机器学习python开源项目整理分享

本资源包含了840个很棒的机器学习开源项目&#xff0c;总共270万颗星分为32个类别。所有项目均按项目质量得分排名&#xff0c;该得分是根据从GitHub和不同程序包管理器自动收集的各种指标计算得出的。资源整理自网络&#xff0c;资源获取见源地址&#xff1a;https://github.c…

三星手机提取微信聊天数据

三星手机提取微信聊天数据的方法&#xff0c;无需root。 注意&#xff0c;暴力破解密码需要英伟达显卡&#xff0c;一小时内破解&#xff0c;无显卡可能要两天。 1. 安装USB驱动&#xff0c;通过S换机助手&#xff0c;备份微信软件至电脑。注意&#xff0c;选择不加密。 三星…

[硬核] Bootstrap Blazor Table 综合演示例子

知识点: 1.导入导出 2.分页功能 3.增删改查 4.批量删除 5.批量编辑(审核) 6.列排序与列搜索 7.顶部搜索实现所有列搜索 8.高级搜索实现多条件搜索 9.顶部与刷新与视图列 10.实现文本类型明细行 11.列的统计 12.隐藏列,时间日期列格式化 13.新窗口打开 14.随机数据 15.自由编辑…

DVWA靶机CSRF全难度(未完)

目录 Low难度 medium难度 Cross Site Request Forgery跨站的请求伪造 原理&#xff1a;利用受害者尚未失效的身份认证信息、会话&#xff1b;诱骗其访问黑客设计号的页面&#xff0c;在受害人不知情的情况下以受害人的身份向服务器发送请求完成非法操作 Low难度 源代码 &l…

十二、RabbitMQ 报错汇总

&#x1f33b;&#x1f33b; 目录一、报版本过低问题一、报版本过低问题 问题&#xff1a; error: Failed dependencies: libcrypto.so.1.1()(64bit) is needed by erlang-25.1.2-1.el8.x86_64 libcrypto.so.1.1(OPENSSL_1_1_0)(64bit) is needed by erlang-25.1.2-1.el8.x86_…