【ML特征工程】第 1 章 :机器学习管道

news2025/1/22 14:49:11

   🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎

📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃

🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝​

📣系列专栏 - 机器学习【ML】 自然语言处理【NLP】  深度学习【DL】

 🖍foreword

✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。

如果你对这个系列感兴趣的话,可以关注订阅哟👋

文章目录

数据

任务

Models

特征

模型评估


在深入研究特征工程之前,让我们花点时间看一下整个机器学习管道。这将帮助我们了解应用程序的大局。为此,我们将从对数据模型等基本概念进行一些思考开始。

数据

我们所说的数据 是对现实世界现象的观察。例如,股票市场数据可能涉及对每日股票价格的观察、个别公司的收益公告,甚至专家的意见文章。个人生物识别数据可以包括我们每分钟的心率、血糖水平、血压等的测量值。客户智能数据包括观察结果,例如“爱丽丝星期天买了两本书”、“鲍勃在网站上浏览了这些页面, ”和“查理点击了上周的特别优惠链接。” 我们可以想出无数跨不同领域的数据示例。

每条数据都为了解现实的有限方面提供了一个小窗口。所有这些观察结果的集合为我们提供了整体图景。但是图片很乱,因为它是由上千个小块组成的,而且总是有测量噪声和丢失的小块。

任务

我们为什么收集数据?有数据可以解答的问题帮助我们回答诸如“我应该投资哪些股票?”之类的问题 或“我怎样才能过上更健康的生活方式?” 或者“我怎样才能了解客户不断变化的口味,以便我的企业可以更好地为他们服务?”

从数据到答案的路径充满了错误的开始和死胡同(见图 1-1). 一开始看起来很有前途的方法可能不会成功。最初只是一种预感可能最终会导致最佳解决方案。包含数据的工作流通常是多阶段的迭代过程。例如,股票价格是在交易所观察到的,由像汤森路透这样的中介机构汇总,存储在数据库中,由公司购买,转换为 Hadoop 集群上的 Hive 存储,通过脚本从存储中提取,二次抽样,由另一个脚本处理和清理,转储到一个文件,并转换为您可以在您最喜欢的 R、Python 或 Scala 建模库中试用的格式。然后将预测转储回 CSV 文件并由评估者解析,模型被多次迭代,由您的生产团队用 C++ 或 Java 重写,

图 1-1。数据和答案之间的分叉路径花园

然而,如果我们暂时忽略工具和系统的混乱,我们可能会看到这个过程涉及两个数学实体,它们是机器学习的基础:模型特征

Models

试图通过数据来理解世界就像试图用一个嘈杂的、不完整的拼图游戏和一堆额外的碎片来拼凑现实。这是数学的地方建模——在特定的统计模型——进来了。统计语言包含许多常见的数据特征的概念,例如错误的、冗余的或缺失的。错误的数据是结果的测量错误。冗余数据包含传达完全相同信息的多个方面。例如,星期几可能作为分类变量出现,其值为“星期一”、“星期二”、...“星期日”,并再次作为 0 到 6 之间的整数值包含在内。如果某些数据点不存在该星期几信息,那么您手头的数据就丢失了。

数据的数学模型描述了数据不同方面之间的关系。例如,预测股票价格的模型可能是一个将公司的盈利历史、过去的股票价格和行业映射到预测股票价格的公式。推荐音乐的模型可能会衡量用户之间的相似性(基于他们的收听习惯),并向听过很多相同歌曲的用户推荐相同的艺术家。

数学公式将数值量相互联系起来。但原始数据通常不是数字。(“爱丽丝在星期三购买了指环王三部曲”这个动作不是数字,她随后写的关于这本书的评论也不是数字。)必须有一个片段将两者联系在一起。这就是功能发挥作用的地方。

特征

特征是原始数据的数字表示。有很多方法可以将原始数据转化为数字测量值,这就是为什么特征最终看起来像很多东西的原因。自然地,特征必须源自可用的数据类型。也许不太明显的是它们也与模型相关联;有些模型更适合某些类型的特征,反之亦然。正确的特征与手头的任务相关,并且应该易于模型摄取。特征工程是在给定数据、模型和任务的情况下制定最合适的特征的过程。

特征的数量也很重要。如果没有足够的信息特征,那么模型将无法完成最终的任务。如果特征太多,或者其中大部分不相关,那么模型的训练成本会更高,也更难训练。在影响模型性能的训练过程中可能会出现某些问题。

模型评估

特点和型号介于原始数据和所需的见解之间(见图 1-2)。在机器学习工作流程中,我们不仅选择模型,还选择特征。这是一个双关节杠杆,一个的选择会影响另一个。 良好的特征使后续的建模步骤变得容易,并且生成的模型更能够完成所需的任务。不良特征可能需要更复杂的模型才能达到相同的性能水平。在本书的其余部分,我们将介绍不同类型的特征,并讨论它们对不同类型的数据和模型的优缺点。事不宜迟,让我们开始吧!

图 1-2。特征工程在机器学习工作流程中的位置

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/31099.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数字逻辑·时序线路分析【常见的时序线路】

这一篇和之前那一篇讲的是时序线路 之前学过的是组合线路 寄存器 有3个D触发器控制 C1 − C3 用来寄存二进制代码。 下面的与或非门用来接收要寄存的二进制代码。 上面的与非门用来发送寄存的二进制代码。 输入信号: RD:清除信号。 WAC:直送…

spring-cloud-dubbo基本使用

创建模块 api模块使用mave quick-start 构建: ,provider模块使用 下面方式创建: 点击下一步,会看到一些基于阿里的cloud的依赖: 上面这个是基于阿里云的,下面的Spring Cloud Alibaba是开源的组件依赖: …

torch.as_tensor()、torch.Tensor() 、 torch.tensor() 、transforms.ToTensor()的区别

1)torch.as_tensor(data, dtypeNone,deviceNone)->Tensor : 为data生成tensor,保留 autograd 历史记录并尽量避免复制(dtype和devices相同,尽量浅拷贝)。 如果data已经是tensor,且dtype和device与参数相…

基于复杂环境下的雷达目标检测技术(Matlab代码实现)

🍒🍒🍒欢迎关注🌈🌈🌈 📝个人主页:我爱Matlab 👍点赞➕评论➕收藏 养成习惯(一键三连)🌻🌻🌻 🍌希…

轻量级模型设计与部署总结

前言一些关键字定义及理解 计算量 FLOPs内存访问代价 MACGPU 内存带宽Latency and Throughput英伟达 GPU 架构 CNN 架构的理解手动设计高效 CNN 架构建议 一些结论: 一些建议轻量级网络模型部署总结轻量级网络论文解析文章 参考资料 文章同步发于 github 仓库 和 知…

论文阅读11——《Mutual Boost Network for Attributed Graph Clustering》

原文地址: 论文阅读11——《Mutual Boost Network for Attributed Graph Clustering》 作者:Xiaoqiang Yan, Xiangyu Yu, Shizhe Hu, Yangdong Ye 发表时间:预印本 论文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_i…

Camtasia Studio2023喀秋莎免费实用的屏幕录像工具

CamtasiaStudio2023是一款非常不错的软件。总的来说CamtasiaStudio的功能从专业度来说,分别有:录制桌面,录制视频教程,录制音频;剪截视频,拼接合成视频,制作小视频Camtasia Studio是TechSmith的…

web网页设计期末课程大作业:环境保护主题网站设计——农业三级带表单带js(14页)HTML+CSS+JavaScript

🎀 精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

自顶向下计算机网络学习 传输层

自顶向下计算机网络学习 传输层一、概述和传输层服务1.1 传输层提供的服务1.2传输层和网络层的关系1.3 传输层协议可靠的、保序的传输:TCP不可靠、不保序的传输:UDP二、多路复用与解复用2.1 什么是复用与解复用2.2 面向连接(TCP)的多路复用与分解2.3 无连…

Verilog 实现无毛刺时钟切换电路,RTL代码设计+testbench代码测试,波形前仿真

Verilog 实现无毛刺时钟切换电路 1,原理2,无毛刺时钟切换3,RTL代码设计4,testbench测试代码5,RTL+testbench综合的 Netlist6,前仿真波形验证参考文献1 1,原理 想要切换时钟电路,最简单的方法肯定是使用一个MUX,control作为控制信号; control = 1, clk_output = clk_…

JVM 双亲委派模型

一言以蔽之,向上委托,向下委派。 向上委托:如果一个类加载器收到了类加载请求,它并不会自己先去加载,而是把这个请求委托给父类的加载器去执行,如果父类加载器还存在其父类加载器,则进一步向上…

家居建材如何在线管理订单?数商云采购系统实现订单发收货、退换货流程化管控

新时代的流程化业务,利用信息互通的时效性,提高员工执行力,提升市场竞争力,在悄无声息地促进企业发展。订单管理作为企业客户关系管理的有效延伸,能更好的把个性化、差异化服务有机的融入到客户管理中去,能…

220kV降压变电所电气部分初步设计33号

目录 1 绪论 5 1.1 概述 5 1.2 本次设计内容 5 1.3 本次设计任务 5 2 变电站总体分析 6 2.1变电所总体分析 6 2.2主变压器选择 7 3 电气主接线选择 10 3.1 电气主接线的概念 10 3.2 电气主接…

Linux —— 进程控制

1.进程控制的四个概念 进程控制分为四类,分别是: 进程创建进程终止进程等待进程替换 2.进程创建 2.1初识fork fork的作用是通过拷贝当前进程创建一个子进程,这两个进程的区别在于PID不同(还有一些资源、统计量也不同,但PID是我…

E. Split Into Two Sets(染色法判断二分图)

Problem - 1702E - Codeforces 波利卡普最近得到了一组n(数字n-偶数)的骨牌。每块多米诺骨牌包含1到n的两个整数。 他能把所有的骨牌分成两组,使每组骨牌上的数字都不一样吗?每张多米诺骨牌必须正好进入两组中的一组。 例如&…

7种主流数据分析软件比较及经典教材推荐

前言 STATA 软件优点:Stata以其简单易懂和功能强大受到初学者和高级用户的普遍欢迎。使用时可以每次只输入一个命令,也可以通过一个Stata程序一次输入多个命令。这样的话即使发生错误,也较容易找出并加以修改。尽管Stata的数据管理能力没有…

智慧点餐系统源码 扫码点餐小程序源码

🍓🍓文末获取联系🍓🍓 JAVAUniappMySQLWinForm 系统功能介绍 1、单/多门店自由切换; 2、扫码(桌号)点餐; 3、多规格商品; 4、手动/自动接单; 5、自助&am…

MyBatis-Plus标准数据层开发

1. 标准CRUD使用 对于标准的CRUD功能都有哪些以及MP都提供了哪些方法可以使用呢? 我们先来看张表: 功能自定义接口MP接口新增boolean save(T t)int insert(T t)删除boolean delete(int id)int deleteById(Serializeble id)修改boolean update(T t)int…

系统分析与设计 复习

文章目录系统分析与设计 复习第 1 章 系统分析与设计概述系统特性DevOps第 2 章 系统规划**系统规划步骤**规划模型诺兰模型**CMM 模型**系统规划方法战略集合转换法 SST关键成功因素法 CSF企业资源规划法 BSPCSB 三者联系和区别第 3 章系统分析系统分析概述业务流程图系统流程…

【微电网优化】萤火虫算法求解微电网优化问题【含Matlab源码 2146期】

⛄一、萤火虫算法求解微电网经济优化问题简介 利用迭代搜索法、剔除劣势策略法、逆推归纳法和最大最小优化方法[7,8,9]等均可实现博弈均衡点的求解。但当维数较大时, 这些方法可能存在搜索速度、路径和精度上的问题。萤火虫优化算法[10]由于其原理简单、参数少、易于实现、具有…