机器学习基础总结

news2024/12/26 11:10:22

一,机器学习系统分类

机器学习系统分为三个类别,如下图所示:

3 basic types of machine learing tasks

二,如何处理数据中的缺失值

可以分为以下 2 种情况:

  • 缺失值较多:直接舍弃该列特征,否则可能会带来较大噪声,从而对结果造成不良影响。
  • 缺失值较少:当缺失值较少(< 10%)时,可以考虑对缺失值进行填充,有几下几种填充策略:
    • 用一个异常值填充(比如 0 ),缺失值作为一个特征处理:data.fillna(0)
    • 均值|条件均值填充:data.fillna(data.mean())
    • 相邻数据填充:data.fillna(method='pad')data.fillna(method='bfill')
    • 插值data.interpolate()
    • 拟合:简单来说,就是将缺失值也作为一个预测问题来处理:将数据分为正常数据和缺失数据,对有值的数据采用随机森林等方法拟合,然后对有缺失值的数据进行预测,用预测的值来填充

三,数据清洗与特征处理

机器学习中的数据清洗与特征处理综述
美团的这篇综述文章总结得不错,虽然缺少实例不容易直观理解,但是初学者来说也足够了。

3.1,清洗标注数据

清洗标注数据的方法,主要是是数据采样和样本过滤。

  • 数据采样:对于分类问题:选取正例,负例。对于回归问题,需要采集数据。对于采样得到的文本,根据需要设定样本权重,当模型不能使用全部的数据来训练时,需要对数据进行采样,设定一定的采样率。采样的方法包括随机采样,固定比例采样等方法。
  • 样本过滤:1.结合业务情况进行数据的过滤,例如去除crawler抓取,spam,作弊等数据。 - 2.异常点检测,采用异常点检测算法对样本进行分析,常用的异常点检测算法包括 - 偏差检测,例如聚类,最近邻等。

3.2,特征分类

根据不同的分类方法,可以将特征分为:

  • Low level 特征和 High level 特征
  • 稳定特征与动态特征。
  • 二值特征、连续特征、枚举特征

Low level 特征是较低级别的特征,主要是原始特征,不需要或者需要很少的人工处理和干预,例如文本中的词向量特征,图像特征中的像素点大小,用户 id,商品 id等。High level 特征是经过比较复杂的处理,结合部分业务逻辑或者规则、模型得到的特征,例如人工打分,模型打分等特征,可以用于较复杂的非线性模型。Low level 比较针对性,覆盖面小。长尾样本的预测值主要受 high level 特征影响。 高频样本的预测值主要受 low level 特征影响。

稳定特征 是变化频率较少的特征,例如评价平均分,团购单价价格等,在较长时间段内数值都不会发生变化。动态特征是更新变化比较频繁的特征,有些甚至是实时计算得到的特征,例如距离特征,2 小时销量等特征。或者叫做实时特征和非实时特征。针对两类特征的不同可以针对性地设计特征存储和更新方式,例如对于稳定特征,可以建入索引,较长时间更新一次,如果做缓存的话,缓存的时间可以较长。对于动态特征,需要实时计算或者准实时地更新数据,如果做缓存的话,缓存过期时间需要设置的较短。

二值特征主要是 0/1 特征,即特征只取两种值:0 或者 1,例如用户 id 特征:目前的 id 是否是某个特定的 id,词向量特征:某个特定的词是否在文章中出现等等。连续值特征是取值为有理数的特征,特征取值个数不定,例如距离特征,特征取值为是0~正无穷。枚举值特征主要是特征有固定个数个可能值,例如今天周几,只有7个可能值:周1,周2,…,周日。在实际的使用中,我们可能对不同类型的特征进行转换,例如将枚举特征或者连续特征处理为二值特征。枚举特征处理为二值特征技巧:将枚举特征映射为多个特征,每个特征对应一个特定枚举值,例如今天周几,可以把它转换成7个二元特征:今天是否是周一,今天是否是周二,…,今天是否是周日。连续值处理为二值特征方法:先将连续值离散化(后面会介绍如何离散化),再将离散化后的特征切分为N个二元特征,每个特征代表是否在这个区间内。

3.3,特征处理与分析

对特征进行分类后,需要对特征进行处理,常用的特征处理方法如下:

  • 特征归一化,离散化,缺省值处理
  • 特征降维方法
  • 特征选择方法

特征归一化。在有些算法中,例如线性模型或者距离相关的模型(聚类模型、knn 模型等),特征值的取值范围会对最终的结果产生较大影响,例如输入数据有两种不同的特征,其中的二元特征取值范围 [0, 1],而距离特征取值可能是 [0,正无穷],两种特征取值范围不一致,导致模型可能会偏向于取值范围较大额特征,为了平衡取值范围不一致的特征,需要对特征进行归一化处理,将特征值取值归一化到 [0,1] 区间,常用的归一化方法包括:

  1. 函数归一化,通过映射函数将特征取值映射到[0,1]区间,例如最大最小值归一化方法,是一种线性的映射。还有通过非线性函数的映射,例如 log 函数等。
  2. 分维度归一化,可以使用最大最小归一化方法,但是最大最小值选取的是所属类别的最大最小值,即使用的是局部最大最小值,不是全局的最大最小值。
  3. 排序归一化,不管原来的特征取值是什么样的,将特征按大小排序,根据特征所对应的序给予一个新的值。

离散化。在上面介绍过连续值的取值空间可能是无穷的,为了便于表示和在模型中处理,需要对连续值特征进行离散化处理。常用的离散化方法包括等值划分和等量划分。

  1. 等值划分,是将特征按照值域进行均分,每一段内的取值等同处理。例如某个特征的取值范围为 [0,10],我们可以将其划分为10段,[0,1),[1,2),…,[9,10)。
  2. 等量划分,是根据样本总数进行均分,每段等量个样本划分为 1 段。例如距离特征,取值范围[0,3000000],现在需要切分成 10 段,如果按照等比例划分的话,会发现绝大部分样本都在第 1 段中。使用等量划分就会避免这种问题,最终可能的切分是[0,100),[100,300),[300,500),…,[10000,3000000],前面的区间划分比较密,后面的比较稀疏。

缺省值处理。有些特征可能因为无法采样或者没有观测值而缺失,例如距离特征,用户可能禁止获取地理位置或者获取地理位置失败,此时需要对这些特征做特殊的处理,赋予一个缺省值。缺省值如何赋予,也有很多种方法。例如单独表示,众数,平均值等

四,交叉验证

交叉验证是机器学习当中的概念,一般深度学习不会使用交叉验证方法,原因是深度学习的数据集一般都很大。但是也有例外,Kaggle 的一些医疗类比赛,训练集一般只有几千张,由于训练数据很少,用来作为验证集的数据会非常少,因此训练的模型在验证集上精度可能会有很大波动,这直接取决于我们所选择的验证集和训练集划分方式,也就是说,验证集的划分方式可能会造成验证集精度存在较大方差,从而无法对模型进行有效评估,同时也无法进行有效的超参数调整(batch 设置多少模型最佳收敛)。

一个有效的解决办法是,在训练数据上面,我们可以进行交叉验证(Cross-Validation)·。一种方法叫做 ·K-fold Cross Validation ( K 折交叉验证), K 折交叉验证,初始采样分割成 K 个子样本,一个单独的子样本被保留作为验证模型的数据,其他 K-1 个样本用来训练。交叉验证重复 K 次,每个子样本验证一次,平均 K 次模型训练的结果,最终输出一个单一估测。k-折交叉验证的训练集划分方式如下图所示:

image

  • K 值大的时候, 我们会有更少的 Bias(偏差), 更多的 Variance
  • K 值小的时候, 我们会有更多的 Bias(偏差), 更少的 Variance

k 折交叉验证的代码实现可以参考《Python深度学习》第三章,在模型训练好后,可通过计算所有 EpochK 折验证分数的平均值,并绘制每轮的模型验证指标变化曲线,观察哪个 Epoch 后模型不再收敛,从而完成模型调参工作。同时,K 折交叉验证方式训练模型会得到 K个模型,将这个 K 个模型在测试集上的推理结果取平均值或者投票,也是一种 Ensemble 方式,可以增强模型泛化性,防止过拟合。

# 计算所有轮次中的 K 折验证分数平均值
average_mae_history = [np.mean([x[i] for x in all_mae_histories]) for i in range(num_epochs)]

参考资料

  • Machine learning basics

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/341835.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【云原生】promehtheus整合grafana实现可视化监控实战

文章目录前言一. 实验环境二. 安装grafana2.1 grafana的介绍2.2 为什么选择grafana&#xff1f;2.3 grafana下载及安装三. 网页端配置grafana3.1 浏览器访问grafana网页3.2 使用grafana 获取prometheus的数据源3.3 grafana导入prometheus模板总结前言 大家好&#xff0c;又见面…

新出海品牌必看!Colorkey如何构建海外第二增长曲线 ?

根据中商产业研究院数据&#xff0c;2022年1-6月中国美容化妆品及洗护用品出口量484138吨&#xff0c;同比增长8.6%&#xff0c;并且在2022年下半年依然保持强劲的增长。国货美妆品牌出海成为大趋势&#xff0c;各大品牌都纷纷开始出海&#xff0c;寻找新的增长点。Colorkey珂拉…

第二部分:并列句

想要表达一件事&#xff0c;一个简单句即可&#xff0c;一主一谓&#xff0c;n. v. 那&#xff0c;想要表达两件事&#xff0c;就写两个简单句呗&#xff0c;以此类推&#xff0c;想要描述几件事&#xff0c;就写几个简单句就行 英语是形合语言&#xff0c;形式上需要加上连接…

tomcat:设计模式用的好,下班就能早

tomcat作为一款经典的轻量级应用服务器&#xff0c;自然也使用了很多优雅的设计模式。 今天给大家简单介绍一下tomcat在初始化组件时使用的几种设计模式。 组合模式 在tomcat中&#xff0c;把不同的功能设计为了不同的组件&#xff0c;比如connector、engine、host、context等…

推荐五款实用的良心软件,无广告无弹窗

分享是一种神奇的东西,它使快乐增大,它使悲伤减小。 1.拼音输入法——手心输入法 如果你曾被输入法软件的弹屏骚扰&#xff0c;如果你仅需纯粹输入法不需要冗余功能&#xff0c;手心输入法将是你最好的选择&#xff0c;界面清爽简洁&#xff0c;无广告&#xff0c;精准的预测输…

CSI Tool 安装及配置记录

一、Ubuntu安装 1.下载Ubuntu 首先安装Ubuntu 14.04 LTS 64位下载地址&#xff08;页面中第一个链接&#xff09; 2.制作启动盘&#xff08;注意备份&#xff09; 可以使用官方的工具Rufus&#xff0c;下载地址&#xff1a;https://rufus.ie/ 打开Rufus&#xff0c;先备份…

wav转mp3,wav转换成mp3教程

很多使用音频文件的小伙伴&#xff0c;总会接触到不同类型的音频格式&#xff0c;根据需求不同需要做相关的处理。比如有人接触到了wav格式的音频&#xff0c;这是windows系统研发的一种标准数字音频文件&#xff0c;是一种占用磁盘体积超级大的音频格式&#xff0c;通常用于录…

超级好用的json格式化工具

理想的json格式化工具应该具备什么&#xff1f;你心中的json格式化工具是什么&#xff1f; Json.cn? No No No, 这个已经老掉牙了理想的json格式化工具应该支持搜索、定位、非法json容错&#xff0c;若实在无法格式化则应该给出具体的错误位置&#xff0c;并且可视区要大&…

【C++设计模式】学习笔记(3):策略模式 Strategy

目录 简介动机(Motivation)模式定义结构(Structure)要点总结笔记结语简介 Hello! 非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~ ଘ(੭ˊᵕˋ)੭ 昵称:海轰 标签:程序猿|C++选手|学生 简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金…

数组的操作

1.splice 1.splice 是数组的一个方法&#xff0c;使用这个方法会改变原来的数组结构&#xff0c;splice&#xff08;index &#xff0c;howmany &#xff0c; itemX&#xff09;&#xff1b;这个方法接受三个参数&#xff0c;我们在使用的时候可根据自己的情况传递一个参数&…

ChatGPT原理简明笔记

学习笔记&#xff0c;以李宏毅的视频讲解为主&#xff0c;chatGPT的官方博客作为补充。 自己在上古时期接触过人工智能相关技术&#xff0c;现在作为一个乐子来玩&#xff0c;错漏之处在所难免。 若有错误&#xff0c;欢迎各位神仙批评指正。 chatGPT的训练分为四个阶段&#x…

大数据技术原理与应用

一、大数据概述 1.1大数据时代 三次信息化浪潮 1.2大数据的概念和影响 大数据的4v特征 volume大量化、velocity快速化、variety多样化、value价值化 数据量大数据类型繁多 – 大数据是由结构化和非结构化数据组成的处理速度快价值密度低&#xff0c;商业价值高 – 连续不间…

二十种题型带你复习《概率论与数理统计》得高分(高数叔)

题型一 事件及概率的运算 知识点 注意&#xff1a; 1 互斥与对立事件 2 事件的差 注意&#xff1a; 1 德摩根律注意&#xff1a; 1 加法公式 2 减法公式(事件的差)题目 注意&#xff1a; 1 填空题注意&#xff1a; 1 德摩根律 2 三个事件的和的公式 3 两个事件的积事件为…

数据库关系模型

关系模型简述 形象地说&#xff0c;一个关系就是一个table。 关系模型就是处理table的&#xff0c;它由三个部分组成&#xff1a; 描述DB各种数据的基本结构形式&#xff1b;描述table与table之间所可能发生的各种操作&#xff1b;描述这些操作所应遵循的约束条件&#xff1…

你是真的“C”——详解指针知识

你是真的“C”——详解指针知识&#x1f60e;前言&#x1f64c;1、 指针是什么&#xff1f;&#x1f64c;2、指针和指针类型&#x1f64c;2 、1指针-整数2 、 2指针的解引用3、 野指针&#x1f64c;3、 1野指针成因3、 2如何规避野指针4、指针运算&#x1f64c;4、1 指针-整数4…

Flutter WebView 性能优化,让 h5 像原生页面一样优秀

大家好&#xff0c;我是 17。 WebView 的文章分两篇 在 Flutter 中使用 webview_flutter 4.0 | js 交互Flutter WebView 性能优化&#xff0c;让 h5 像原生页面一样优秀 本篇和大家一起讨论下性能优化的问题。 WebView 页面的体验上之所以不如原生页面&#xff0c;主要是因…

c#数据结构-有序列表和有序字典

有序列表和有序字典 有序列表和有序字典都是是一个键值对容器&#xff0c;像字典一样。 从习惯和描述推测&#xff0c; 列表控制一个数组有序列表使用比有序字典更少的内存如果一次性添加一堆数据&#xff0c;且这堆数据有序。那么有序列表比有序字典更快 有序列表大概长这样 …

最后一个单词的长度-力扣58-java

一、题目描述给你一个字符串 s&#xff0c;由若干单词组成&#xff0c;单词前后用一些空格字符隔开。返回字符串中 最后一个 单词的长度。单词 是指仅由字母组成、不包含任何空格字符的最大子字符串。示例 1&#xff1a;输入&#xff1a;s "Hello World"输出&#x…

聊聊火出圈的ChatGPT

前言 OpenAI 近期发布聊天机器人模型 ChatGPT&#xff0c;迅速火爆各大技术网站&#xff0c;就像一个突然激起的巨浪打破了沉寂已久的水面。它的出现无论是对人工智能的资本圈还是技术圈都感受到了春风回暖&#xff0c;前兔似锦的未来。 尤记得2015年谷歌开源的Tensorflow&am…

2.19、读者-写者问题

有读者和写者两组并发进程&#xff0c;共享一个文件&#xff0c;当两个或两个以上的读进程同时访问共享数据时不会产生副作用&#xff0c; 但若某个写进程和其他进程&#xff08;读进程或写进程&#xff09;同时访问共享数据时则可能导致数据不一致的错误。 因此要求: ①允许…