特征工程(一)

news2024/11/24 20:34:32

特征工程(一)

什么是特征工程

简单来讲将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能

特征工程包含的内容

  1. 转换数据的过程
  2. 特征
  3. 更好地表示潜在问题
  4. 提高机器学习性能

数据和机器学习的基础知识

数据基础

以下为数据的一个实例

其中,每行都是一个观察值,包含四个属性,其中每个属性都有属于自己的特性和变化趋势
特征工程需要接受处理多或少、宽或窄、完整或稀疏的数据,并准备好在机器学习中应用这些数据。

机器学习基础

1.监督学习
一般来说,绝大部分都是在监督学习(也可以成为预测分析)的特定上下文中提到的特征工程。监督学习算法是专门处理预测一个值的任务,通常是使用数据中的其他属性来预测余下的一个属性。
例如上面的实例中,使用其他数据,来预测FIT201
在监督学习中,我们一般将数据集中希望预测的属性(一般是一个,也存在多个)叫做标签(label),其余属性叫做特征(feature)。
2.无监督学习
监督学习的目的是预测,我们利用数据的特征对label进行预测,提供有效信息。如果不是要通过探索结构进行预测,那想要从数据中提取结构。要做到后者,一般对数据的数值矩阵或迭代过程应用数学变换,提取新的特征。具体来讲,就是将数据集细分为不同的类型或类别,以供后续任务进行分析与应用。

机器学习算法和特征工程的评估

注意,在很多地方,特征和属性通常有明显的区分。属性一般是表格数据的列,特征则一般只指代对机器学习算法有益的属性。换句话说,就是存在有些属性对机器学习系统不一定有益,甚至有害。

特征工程的评估步骤

  1. 在应用任何特征之前,得到机器学习模型的基准;
  2. 应用在一种或多种特征工程;
  3. 对于每种特征工程,获取一个性能指标,并与基准性能进行对比;
  4. 如果性能的增量(变化)大于某个阈值(一般由我们定义),则认为这种特征工程是有益的,并在机器学习流水线上使用;
  5. 性能的改变一般以百分比计算(如果基准性能从40%的准确率提高到76%的准确率,那么改变是90%)

评估监督学习算法

当进行监督学习是,性能直接与模型利用数据结构的能力,以及使用数据结构进行恰当预测的能力,一般而言,可以将监督学习分为两种更具体的类型:分类(classification)、回归(regression)

  1. 分类的评估指标:
    常见的评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 score、ROC曲线(Receiver Operating Characteristic Curve)等
  2. 回归的评估指标:
    平均绝对误差(MAE, Mean Absolute Error)这个指标是对绝对误差损失的预期值
    平均绝对百分比误差(MAPE, Mean Absolute Percentage Error)这个指标是对相对误差损失的预期值.所谓相对误差,就是绝对误差和真值的百分比.
    均方误差(MSE, Mean Squared Error)该指标对应于平方(二次)误差的期望.均方误差根或均方根误差(RMSE, Root Mean Squared Error)该指标对应于平方(二次)误差的期望.
    R Squared(r2 score)R Squared又叫可决系数(coefficient of determination)也叫拟合优度,反映的是自变量x对因变量y的变动的解释的程度.越接近于1,说明模型拟合得越好.
    这里暂时不详细展开,等后续补充

评估无监督学习算法

常见无监督聚类算法,使用轮廓系数作为测量指标。再此之外,还存在其他的评估方法,在此暂不展开。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1366720.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

三剑客前端教程

前端教程 结构层(html)表现层(css)行为层(javascript) HTML 超文本标记语言) HTML(超文本标记语言——HyperText Markup Language)是构成 Web 世界的一砖一瓦。它定义…

ssm基于HTML5的交流论坛的设计与实现+vue论文

摘 要 信息数据从传统到当代,是一直在变革当中,突如其来的互联网让传统的信息管理看到了革命性的曙光,因为传统信息管理从时效性,还是安全性,还是可操作性等各个方面来讲,遇到了互联网时代才发现能补上自古…

ME11/ME12拷贝采购信息记录

注意点: ECC没有好用的修改/创建采购信息记录BAPI所以使用BDC处理, 因为BDC执行过程如果遇到黄色提示消息就会暂停,所以如果遇到黄色提示需要增强处理 还有就是价格的小数位数问题,如JPY不能使用小数位数问题处理 增强调整 如下…

软件测试|Linux基础教程:cp命令详解,复制文件或目录

简介 在Linux系统中,cp命令是一个非常常用且强大的命令,用于复制文件和目录。cp命令允许我们在不同目录之间复制文件或目录,并可以根据需求对文件复制的行为进行调整。在本文中,我们将详细解释cp命令的用法以及一些常见的选项。 …

spark的任务提交方式及流程

本地模式 local 测试用,不多赘述 分布式模式 standalone standalone集群是spark 自带的一个资源调度集群,分为两个角色,master/worker,master负责接收任务请求、资源调度(监听端口7077),worker负责运行exec…

深入了解鸿鹄工程项目管理系统源码:功能清单与项目模块的深度解析

工程项目管理软件是现代项目管理中不可或缺的工具,它能够帮助项目团队更高效地组织和协调工作。本文将介绍一款功能强大的工程项目管理软件,该软件采用先进的Vue、Uniapp、Layui等技术框架,涵盖了项目策划决策、规划设计、施工建设到竣工交付…

Java如何拷贝数据?

Java如何拷贝数据? 在 Java 中,数组和集合的深拷贝与浅拷贝的概念与复制对象的引用和内容相关。深拷贝是创建一个新对象,并递归地复制其所有内容,而浅拷贝则只是复制对象的引用。 数组的深拷贝与浅拷贝: 1. 深拷贝数…

金和OA C6 HomeService.asmx SQL注入漏洞复现

0x01 产品简介 金和网络是专业信息化服务商,为城市监管部门提供了互联网+监管解决方案,为企事业单位提供组织协同OA系统开发平台,电子政务一体化平台,智慧电商平台等服务。 0x02 漏洞概述 金和OA C6 HomeService.asmx接口处存在SQL注入漏洞,攻击者除了可以利用 SQL 注入漏洞…

量子革命的基础:激光冷却史(下)

本文是《激光冷却史》系列的最后一部分。 在20世纪的最后20年里,原子物理学家屡次打破宇宙中最冷温度的记录。这些成就有赖于一些进步,包括激光冷却(《激光冷却史(上)》)、磁光阱和西西弗斯冷却等技术&…

DES算法(Python实现)

一、具体描述 基于计算机高级语言(如C语言)实现DES算法 二、名词术语与相关知识 DES算法 DES(Data Encryption Standard)是一种对称加密算法,被广泛应用于数据加密领域。它使用64位密钥和64位明文,通过…

西门子WinCC的C脚本——对象的事件任务

1、 全局脚本编辑器; 2、 对象的属性任务; 3、 对象的事件任务。 本文探讨一下用C脚本来实现对象的事件任务。 一、例程说明引文:博途工控人平时在哪里技术交流博途工控人社群 如图1所示,为本例程的运行画面。本例程实现以下…

大数据 Hive - 实现SQL执行

文章目录 MapReduce实现SQL的原理Hive的架构Hive如何实现join操作小结 MapReduce的出现大大简化了大数据编程的难度,使得大数据计算不再是高不可攀的技术圣殿,普通工程师也能使用MapReduce开发大数据程序。 但是对于经常需要进行大数据计算的人&#xff…

没经验没资金,适合穷人创业项目的低成本生意

什么人可以赚到钱呢?不管你怎么都赚不到,那归根结底是因为你身边没有明白人。像我们普通人一没经验二没资金三没人脉,该如何创业呢? 第一点,如果你不知道干什么,就做黄牛,只当渠道,只…

Web前端篇——ElementUI之el-scrollbar + el-backtop + el-timeline实现时间轴触底刷新和一键返回页面顶部

ElementUI之el-scrollbar el-backtop el-timeline实现时间轴触底刷新和一键返回页面顶部。 背景:ElementUI的版本(vue.global.js 3.2.36, index.css 2.4.4, index.full.js 2.4.4) 废话不多说,先看动…

猫头虎分享已解决Bug || Error: ImagePullBackOff (K8s)

博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典!《IDEA开发秘籍》 — 提升你的IDEA技能!《100天精通Golang》…

(二)Explain使用与详解

explain中的列 sql语句: EXPLAIN SELECT * from user WHERE userId=1340; 执行结果: 1. id列 id列的编号是 select 的序列号,有几个 select 就有几个id,并且id的顺序是按 select 出现的顺序增长的。 id列越大执行优先级越高,id相同则从上往下执行,id为NULL最后执行…

python股票分析挖掘预测技术指标知识之蜡烛图指标(6)

本人股市多年的老韭菜,各种股票分析书籍,技术指标书籍阅历无数,萌发想法,何不自己开发个股票预测分析软件,选择python因为够强大,它提供了很多高效便捷的数据分析工具包。 我们已经初步的接触与学习其中数…

7.27 SpringBoot项目实战 之 整合Swagger

文章目录 前言一、Maven依赖二、编写Swagger配置类三、编写接口配置3.1 控制器Controller 配置描述3.2 接口API 配置描述3.3 参数配置描述3.4 忽略API四、全局参数配置五、启用增强功能六、调试前言 在我们实现了那么多API以后,进入前后端联调阶段,需要给前端同学提供接口文…

软件测试|Python中的变量与关键字详解

简介 在Python编程中,变量和关键字是非常重要的概念。它们是构建和控制程序的基本要素。本文将深入介绍Python中的变量和关键字,包括它们的定义、使用方法以及一些常见注意事项。 变量 变量的定义 变量是用于存储数据值的名称。在Python中&#xff0…

java每日一题——输出9x9乘法表(答案及编程思路)

前言: 打好基础,daydayup! 题目:输出下图9x9乘法表 编程思路:java只能输出行,不能输出列,所以考虑好每一行输出的内容即可 public class demo {public static void main(String[] args) {for (int i 1; i…