特征工程-特征处理(三)

news2024/11/18 16:38:39

特征处理

在这里插入图片描述

连续型变量处理(二)

多特征

  1. 降维
    • PCA
      PCA是一种常见的数据分析方式,通过数据分解,将高维数据降低为低维数据,同时最大程度保持数据中保存的信息。

      from sklearn.decomposition import PCA
      A = np.array([[84,65,61,72,79,81],[64,77,77,76,55,70],[65,67,63,49,57,67],[74,80,69,75,63,74],[84,74,70,80,74,82]])
      pca = PCA(n_components=2)
      pca.fit(A)
      pca.transform(A)
      array([[-16.14860528, -12.48396235],
             [ 10.61676743,  15.67317428],
             [ 23.40212697, -13.607117  ],
             [ -0.43966353,   7.77054621],
             [-17.43062559,   2.64735885]])
      
    • LDA
      LDA是另一种常见的数据分解方法,与PCA不同的是,LDA算法的思想是将数据投影到低维空间之后,使得同一类数据尽可能的紧凑,在低维空间中保持紧凑。

      from gensim.models.ldamodel import LdaModel
      
  2. 特征选择
    • Filter:

      • 相关系数:通过计算特征时间的相关系数,根据需要,去除冗余特征数据。

      • 卡方检验:通过假设检验,计算卡方值,判断是否接受原假设,留下当前特征。

        x_c^2 = \sum {\frac{(O_i - E_i)^2} {E_i}}
        
      • 信息增益:计算加入各个特征的信息增益,来确定是否需要加入该特征。

        g(D,A) = H(D)-H(D|A)
        

        其中H(D)是训练集D的经验熵,H(D|A)是特征A给定条件的下D的经验条件熵。

    • Wrapper:通过目标函数来判断是否需要加入一个变量,通过迭代产生新的特征子集,并使用模型进行训练学习,得到评价结果

      • 完全搜索:

        • 广度优先搜索(Breadth First Search):主要采用完全搜索策略和距离度量评价函数。使用广度优先算法遍历所有可能的特征子集,选择出最优的特征子集。
        • 分支界限搜索(Branch & Bound):主要采用完全搜索和距离度量。B&B从所有的特征上开始搜索,每次迭代从中去掉一个特征,每次给评价函数的值一个限制条件。因为评价函数满足单调性原理(一个特征子集不会好于所有包含这个特征子集的更大的特征子集),所以如果一个特征使得评价函数的值小于这个限制,那么就删除这个特征。类似于在穷举搜索中进行剪枝。
      • 启发式搜索:通过增减数据中的特征,评估增减该特征对结果的影响,来评估是否需要保留该特征。

        • 前向选择:通过随机选择其中一个特征,通过模型训练,保留最优解,后续通过不断增加特征,保留最优解,直至不再需要改进。
        • 后向选择:通过随机减少一个特征,通过模型训练,保留最优解,后续通过减少特征,得到更优解,直至无法进行改进。
      • 随机搜索

        • LVF(Las Vegas Filter):使用一致性度量作为评价函数。使用拉斯维加斯算法随机搜索子集空间,这样可以很快达到最优解。
        • LVW(Las Vegas Wrapper):使用误分类率作为评价函数。使用拉斯维加斯算法随机产生子集,然后计算在这个子集上的评价指标(计算学习器上的误差);
        • 随机产生序列选择算法(RGSS , Random Generation plus Sequential Selection):使用误分类率作为评价函数。随机产生一个特征子集,然后在该子集上执行SFS和SBS算法,用于跳出局部最优值。
    • Embedded

      • 正则化:L1,L2
      • 决策树:信息增益
      • 深度学习

特征生成

通过对于数据和具体场景的理解,构建新的变量,包括但不限于无关特征之间进行交叉组合,加减乘除等

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1390051.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

运维体系中的那些Ops们

目录 前言 DevOps DevSecOps GitOps 1、缺少一致性 2、使用成本高 3、鉴权分散 4、审核审计困难 5、不可变基础设施扩展难 DataOps AIOps 总结 前言 提到运维,自然而然会联想到DevOps,大家应该还听说过DataOps、GitOps、DevSecOps、AIOps等…

解决英特尔无线网卡WiFi或者蓝牙突然消失问题

winR,输入“devmgmt.msc”,检查设备管理器中的无线网卡驱动是否安装好。 访问https://www.intel.cn/content/www/cn/zh/download/19351/windows-10-and-windows-11-wi-fi-drivers-for-intel-wireless-adapters.html下载对应系统版本的英特尔无线网卡WiFi…

MC使用Waterfall 跨服

前言 想弄一个跨服,目前这篇文章是边测试边写的,两个子服都是在同一个机器上运行的 如果两个子服在不同的网络,跨服的延迟就会比较高 两个子服 s1 和 s2 都是使用folia核心 版本1.20.1s1 端口: 25565s2 端口 : 25566 1.下载 Waterfall W…

常用植被物候提取方法

(一)Background 这篇文章介绍的非常全面!! 物候的提取通常包含两个步骤:(1)曲线的重构拟合(curve fitting)和 (2)物候矩阵的提取 (p…

数据库概述、部署MySQL服务、必备命令 、密码管理、安装图形软件、SELECT语法 、筛选条件

1 案例1:构建MySQL服务器 1.1 问题 在IP地址192.168.88.50主机和192.168.88.51主机上部署mysql服务练习必备命令的使用 1.2 方案 准备2台虚拟机,要求如下: 1.3 步骤 实现此案例需要按照如下步骤进行。 步骤一:安装软件 命令…

从零学Java 线程安全的集合

线程安全的集合 文章目录 线程安全的集合1 List 和 Set体系Collections中的工具方法1.1 CopyOnWriteArrayList1.2 CopyOnWriteArraySet1.3 ConcurrentHashMap 2 CAS算法3 Queue接口(队列)3.1 ConcurrentLinkedQueue3.2 BlockingQueue接口(阻塞…

进程上下文的概念和切换简单通俗的解释

进程上下文是进程执行活动全过程的静态描述。我们把已执行过的进程指令和数据在相关寄存器与堆栈中的内容称为进程上文,把正在执行的指令和数据在寄存器与堆栈中的内容称为进程正文,把待执行的指令和数据在寄存器与堆栈中的内容称为进程下文。 实际上li…

基于杂交PSO算法的风光储微网日前优化调度(MATLAB实现)

微网中包含:风电、光伏、储能、微型燃气轮机,以最小化电网购电成本、光伏风机的维护成本、蓄电池充放电维护成本、燃气轮机运行成本及污染气体治理成本为目标,综合考虑:功率平衡约束、燃气轮机爬坡约束、电网交换功率约束、储能装…

细说JavaScript的数据类型(JavaScript的数据类型详解)

在JavaScript中有六种不同的数据类型,六种数据类型又分为5种简单数据类型(基本数据类型)和1中复杂数据类型(引用数据类型),基本数据类型分为:字符串类型(string)、数值类…

机器学习周刊第六期:哈佛大学机器学习课、Chatbot Ul 2.0 、LangChain v0.1.0、Mixtral 8x7B

— date: 2024/01/08 — 吴恩达和Langchain合作开发了JavaScript 生成式 AI 短期课程:《使用 LangChain.js 构建 LLM 应用程序》 大家好,欢迎收看第六期机器学习周刊 本期介绍10个内容,涉及Python、机器学习、大模型等,目录如下&#xff…

SpringCloud Aliba-Nacos集群配置-从入门到学废【3】

🥚今日鸡汤🥚 修行之路,唯有不断超越自我,方能登上巅峰。 ——《武庚纪》 目录 🌭1.Linu服务器上配置mysql 🥓2.application.properties配置 🧈3.修改集群配置cluster.conf &#x1f9c2…

【复现】金和OA协同管理平台 任意文件上传漏洞_20

目录 一.概述 二 .漏洞影响 三.漏洞复现 1. 漏洞一: 四.修复建议: 五. 搜索语法: 六.免责声明 一.概述 金和C6协同管理平台包括协同办公管理,人力资源管理,项目管理,客户关系管理,企业目标管理,费用管理,移动办公,微信办公等多个业务范…

python的装饰器详解

目录 一:介绍 二:在方法中使用 三:在类中使用 四:python自带的装饰器 一:介绍 Python的装饰器是一种高阶函数,它允许你在不改变函数内部逻辑的情况下,给函数添加额外的功能。装饰器本质上是…

Python 错误 Valueerror: Expected 2d Array Got 1d Array Instead

如您所知,每种编程语言都会遇到很多错误,有些是在运行时,有些是在编译时。 Python 在使用 numpy 库时有时会遇到数组错误。 当我们在 numpy 中传递一维数组而不是二维数组时,会发生错误 ValueError: Expected 2D array, got 1D a…

机器学习周刊第五期:一个离谱的数据可视化Python库、可交互式动画学概率统计、机器学习最全文档、快速部署机器学习应用的开源项目、Redis 之父的最新文章

date: 2024/01/08 这个网站用可视化的方式讲解概率和统计基础知识,很多内容还是可交互的,非常生动形象。 大家好,欢迎收看第五期机器学习周刊 本期介绍7个内容,涉及Python、概率统计、机器学习、大模型等,目录如下: 一个离谱的Python库看见概率,看见统计2024机器学习最…

前端面试题集合五(css)

CSS 面试知识点总结 本部分主要是笔者在复习 CSS 相关知识和一些相关面试题时所做的笔记,如果出现错误,希望大家指出! 目录 1.介绍一下标准的 CSS 的盒子模型?低版本 IE 的盒子模型有什么不同的?2.CSS 选择符有哪些…

【代码随想录06】454. 四数相加 II 383. 赎金信 15. 三数之和 18. 四数之和

目录 454. 四数相加 II题目描述做题思路参考代码 383. 赎金信题目描述做题思路参考代码 15. 三数之和题目描述参考代码 18. 四数之和题目描述参考代码 454. 四数相加 II 题目描述 给你四个整数数组 nums1、nums2、nums3 和 nums4 ,数组长度都是 n ,请你…

LaTeX系列1——主结构

初学,可交流,轻喷 \documentclass{book} \begin{document} \title{Book Title} \author{Author Name} \date{\today} \maketitle\chapter{Introduction} This is the introduction chapter of the book.\section{First Section} The first section of t…

人工智能 | 生成式 AI 如何重塑开发流程和开发工具?

生成式 AI 如何重塑开发流程和开发工具? 生成式人工智能(Generative Artificial Intelligence,GAI)是一种基于大规模数据训练学习,从而生成新的原创内容的人工智能。生成式人工智能可以生成各种形式的数据&#xff0c…

Linux:网络文件共享服务和内网搭建yum仓库

目录 一、网络文件共享服务 1.储存类型 2.FTP文本传输协议 二、内网搭建yum仓库 1.通过ftp服务搭建内网yum仓库服务器 2.通过httpd协议搭建内网yum仓库服务器 一、网络文件共享服务 1.储存类型 分为三种: 直连式存储: Direct-Attached Storage,简…