【大厂AI课学习笔记】【2.1 人工智能项目开发规划与目标】(7)特征工程的基本方法

news2025/3/13 3:18:13

今天来学习特征工程的基本方法。

基本方法包括:特征选择(Feature Selection)、特征提取(Feature Extraction)和特征构建(Feature Construction)。

一、特征选择(Feature Selection)

从给定的特征集合中选出相关特征子集的过程。

去除无关特征,降低特征学习难度,让模型简单,降低计算复杂度。

抛弃这部分特征(冗余特征),可能会降低模型的性能,计算复杂度 和 模型性能 之间的取舍。

要注意不能丢弃重要特征!

这是一个取舍的问题,诚然,数据决定着模型的性能和质量,但是数据维度过大,也是一个灾难。

二、特征提取(Feature Extraction)

一般是在特征选择之前,提取的对象是原始数据,目的是自动构建新特征(深度学习),将原始数据构建为一组具有明显物理意义(Gabor、纹理特征、几何特征)或统计意义的特征。

特征提取-转换;特征选择-挑选;

特征提取,是将原始数据进行转换,构建新的特征;特征选择则是挑选,进行数据的取舍。

三、特征构建(Feature Construction)

从原始数据中人工构建新的特征,观察原始数据,思考问题的潜在形式和数据结构,数据特殊性和机器学习实战有助于构建。

特征的构建,需要“读”数据,需要一定的创造力和想象力!这是非常有趣的环节!

比如上面的数据,要进行读和分析,看到有Dog和Cat两种动物,同时有时间,进行一定的转换,发现其中的规律和特征。

延伸学习:

(以下内容整理自网络、文心一言等出处,并非课程笔记,因此成为延伸学习,每篇笔记均有延伸学习的环节。如果相关定义和内容和笔记有出入,仅供参考。)

特征工程中的特征挑选、特征提取与特征构建

1. 特征挑选(Feature Selection)

定义:特征挑选是从原始特征集中选择出对模型预测性能有重要贡献的特征子集的过程。

场景:当数据集包含大量特征时,其中许多特征可能是冗余的、不相关的或噪声,这些特征会降低模型的性能。特征挑选旨在去除这些不相关或冗余的特征,提高模型的泛化能力和计算效率。

关键技术:常见的特征挑选技术包括过滤法(如方差阈值、相关系数、卡方检验等)、包装法(如递归特征消除、基于模型的特征选择等)和嵌入法(如基于树模型的特征重要性选择)。

举例:在信用卡欺诈检测中,原始数据集可能包含用户的交易金额、交易时间、交易地点等数十个特征。通过特征挑选,可以选择出如“交易金额”、“交易频率”、“异常交易地点”等对欺诈检测最为重要的特征,从而简化模型并提高性能。

2. 特征提取(Feature Extraction)

定义:特征提取是通过转换或组合原始特征,创造出新的、更有代表性的特征集的过程。

场景:当原始数据集中的特征不足以充分描述数据的内在结构或模式时,或者当特征维度过高导致计算复杂时,需要进行特征提取。

关键技术:常见的特征提取技术包括主成分分析(PCA)、线性判别分析(LDA)、独立成分分析(ICA)等降维方法,以及文本处理中的词袋模型、TF-IDF等。

举例:在图像识别中,原始数据是像素矩阵,直接将其作为特征会导致维度过高。通过特征提取技术如卷积神经网络(CNN),可以从原始像素中提取出边缘、纹理等低层次特征,再进一步组合成高层次的抽象特征,从而有效提高图像识别的准确性。

3. 特征构建(Feature Construction)

定义:特征构建是根据领域知识和对数据的理解,手动创造新的特征以捕获数据中重要信息的过程。

场景:当现有特征无法充分描述业务场景或目标变量时,或者当领域知识表明某些特定组合或变换对模型性能有显著提升时,需要进行特征构建。

关键技术:特征构建依赖于领域知识和数据分析技能,没有固定的技术方法。常见的操作包括特征的组合(如相乘、相加)、变换(如对数变换、幂变换)和编码(如独热编码、标签编码)等。

举例:在房价预测中,除了房屋的面积、卧室数等直接特征外,还可以通过特征构建创造出如“面积与卧室数的比值”、“每平方米的价格”等更有意义的特征。这些新构建的特征可能更能反映房价的实际影响因素,从而提高预测模型的准确性。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1453760.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于飞腾ARM+FPGA国产化计算模块联合解决方案

联合解决方案概述 随着特殊领域电子信息系统对自主创新需求的日益提升,需不断开展国产抗恶劣环境计算整机及模块产 品的研制和升级。特殊领域电子信息系统的自主创新,是指依靠自身技术手段和安全机制,实现信息系统从硬 件到软件的自主研发…

计算机服务器中了_locked勒索病毒怎么办?Encrypted勒索病毒解密数据恢复

随着网络技术的不断发展,数字化办公已经成为企业生产运营的根本,对于企业来说,数据至关重要,但网络威胁无处不在,近期,云天数据恢复中心接到很多企业的求助,企业的计算机服务器遭到了_locked勒索…

Codeforces Round 926 (Div. 2) C. Sasha and the Casino (Java)

Codeforces Round 926 (Div. 2) CC. Sasha and the Casino (Java) 比赛链接:Codeforces Round 926 (Div. 2) C题传送门:C. Sasha and the Casino 题目:C. Sasha and the Casino **Example ** input 2 1 7 2 1 1 2 3 15 3 3 6 4 4 5 5 4 7…

⭐北邮复试刷题429. N 叉树的层序遍历(按层入队出队BFS)

429. N 叉树的层序遍历 给定一个 N 叉树,返回其节点值的层序遍历。(即从左到右,逐层遍历)。 树的序列化输入是用层序遍历,每组子节点都由 null 值分隔(参见示例)。 示例 1:输入&a…

面试经典150题——螺旋矩阵

"The harder the conflict, the more glorious the triumph." - Thomas Paine 1. 题目描述 2. 题目分析与解析 2.1 思路一 看到题目,先仔细观察矩阵,题目要求我们给出顺时针遍历的结果即可,我们根据矩阵可以看出,首…

漏桶和令牌桶有啥区别?

漏桶算法 漏桶算法是一种流量控制算法,可以平滑控制流量的进出,原理比较简单:假设我们有一个水桶按固定的速率向下方滴落一滴水,无论有多少请求,请求的速率有多大,都按照固定的速率流出,对应到系统中就是按…

RK3399平台开发系列讲解(USB篇)USB 主设备和从设备

🚀返回专栏总目录 文章目录 一、主设备二、集线器三、功能设备 沉淀、分享、成长,让自己和他人都能有所收获!😄 📢介绍 USB 主设备和从设备。 一、主设备 检测 USB 设备的插拔动作管理主从通讯之间的控制流管理主从通…

如何使用python 挑战将ai生成的概念图制作成2d游戏

要使用Python将AI生成的概念图制作成2D游戏,你可以遵循以下步骤: 生成概念图: 使用AI图像生成工具(如DALL-E、DeepArt等)来创建你的游戏概念图。保存生成的图像文件,通常为PNG或JPEG格式。 选择游戏引擎&a…

SHERlocked93 的 2021 年终总结

我还是和往年一样,总结发的又晚了一点,为什么又发这么晚呢,因为懒 年终总结 疫情之后时间时间过的太快了,不知道是不是只有我这样感觉。 四五月份去兰州玩了下(其实是出差),终于看到了黄土高原&…

力扣 123. 买卖股票的最佳时机 III

题目来源:https://leetcode.cn/problems/best-time-to-buy-and-sell-stock-iii/description/ C题解:动态规划。至多买卖两次,这意味着可以买卖一次,可以买卖两次,也可以不买卖。 一天一共就有四个状态: 第…

ubuntu22.04@laptop OpenCV Get Started: 013_contour_detection

ubuntu22.04laptop OpenCV Get Started: 013_contour_detection 1. 源由2. 应用Demo2.1 C应用Demo2.2 Python应用Demo 3. contour_approx应用3.1 读取图像并将其转换为灰度格式3.2 应用二进制阈值过滤算法3.3 查找对象轮廓3.4 绘制对象轮廓3.5 效果3.6 CHAIN_APPROX_SIMPLE v.s…

在Linux系统中安装LANMP

LANMP是Linux下Apache、Nginx、MySQL和PHP的应用环境,本节演示 的是WDLinux的一款集成的安装包,操作起来非常简单。首先,下载需要的安装包, 命令如下所示。 wget http://dl.wdlinux.cn/files/lanmp_v3.tar.gz 下载完成后进行解压…

Eclipse - Reset Perspective

Eclipse - Reset Perspective 1. Window -> Perspective -> Reset Perspective2. Reset Perspective -> YesReferences 1. Window -> Perspective -> Reset Perspective 2. Reset Perspective -> Yes ​​​ References [1] Yongqiang Cheng, https://yo…

Rocky Linux网卡静态配置

一、Rocky Linux 下载安装 1、安装教程 Rocky Linux 下载安装 二、远程工具MobaXterm下载安装 1、安装教程 (预留) 三、Rocky Linux 网卡配置 1、使用ip addr确认网卡名称(此处可得知网卡为ens160) [rootlocalhost ~]# ip a 1:…

[Angular 基础] - 视图封装 局部引用 父子组件中内容传递

[Angular 基础] - 视图封装 & 局部引用 & 父子组件中内容传递 之前的笔记: [Angular 基础] - Angular 渲染过程 & 组件的创建 [Angular 基础] - 数据绑定(databinding) [Angular 基础] - 指令(directives) 以上为静态页面,即不涉及到跨组…

每日五道java面试题之java基础篇(十一)

目录: 第一题. Java死锁如何避免?第二题. 为什么⽤线程池?解释下线程池参数?第三题. 线程池的底层⼯作原理第四题. ReentrantLock中tryLock()和lock()⽅法的区别第五题. Sychronized和ReentrantLock的区别? 第一题. Java死锁如何避免&#x…

元器件焊盘的PCB处理方式分析与总结

对于高速信号走线的特性阻抗,都需要按照实际要求进行精度控制,所以,任何因设计因素带来的阻抗波动都应该进行优化,如下图所示,为一个12层板设计中的50Ω微带走线,需要在走线之上放置电感; 但是&…

Open CASCADE学习|管道建模

​这是用Open CASCADE Technology (OCCT)库来创建一个管道模型的示例。OCCT是一个开源的几何建模库,广泛应用于CAD/CAM/CAE和其他几何建模应用中。 在下面的代码中,首先创建了一些点,并用这些点来构建B样条曲线,进而创建边(Edges…

openGauss学习笔记-222 openGauss性能调优-系统调优-操作系统参数调优

文章目录 openGauss学习笔记-222 openGauss性能调优-系统调优-操作系统参数调优222.1 前提条件222.2 内存相关参数设置222.3 网络相关参数设置222.4 I/O相关参数设置 openGauss学习笔记-222 openGauss性能调优-系统调优-操作系统参数调优 在性能调优过程中,可以根据…

面试题-01

1、JDK 和 JRE 和 JVM 分别是什么,有什么区别? JDK(Java Development Kit,Java 软件开发工具包) JDK(Java Development Kit):JDK 是 Java 开发⼯具包,包含了编写、编译…