1_机器学习概述—全流程

news2024/12/23 17:47:28

文章目录

  • 1 机器学习定义
  • 2 机器学习常见应用框架(重点)
  • 3 机器学习分类
    • 3.1 监督学习(Supervised learning)
    • 3.2 无监督学习(Unsupervised learning)
    • 3.3 半监督学习(Semi-Supervised Learning)
  • 4 其他分类方法
  • 5 scikit-learn算法备忘单(重点)
  • 6 Ubuntu安装Python3
  • 7 机器学习算法(Top10)
  • 8 机器学习开发流程
    • 8.1 数据收集与存储
      • 8.1.1 机器学习可用公开数据集
    • 8.2 数据预处理(数据清洗和转换)
    • 8.3 特征工程
      • 8.3.1 类型特征转换之1-of-k(哑编码)
      • 8.3.2 文本数据抽取
    • 8.4 模型训练及测试
    • 8.5 模型的评估方式(重点)
      • 8.5.1 分类模型的评估方式
          • 混淆矩阵:
        • 8.5.1.1 准确率(Accuracy)(预测结果正确的百分比)
        • 8.5.1.2 精确率(Precision) (查的准)
        • 8.5.1.3 召回率(Recall)(查的全,对正样本的区分能力)
        • 8.5.1.4 F1 Measure
        • 8.5.1.5 ROC曲线
        • 8.5.1.6 AUC
      • 8.5.2 回归模型的评估方式
    • 8.6 投入使用(模型部署和整合)
    • 8.7 模型的监控与反馈

1 机器学习定义

定义:机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测

在这里插入图片描述

  • 算法(T):根据业务需要和数据特征选择的相关算法,也就是一个数学公式
  • 模型(E):基于数据和算法构建出来的模型
  • 评估/测试(P):对模型进行评估的策略

2 机器学习常见应用框架(重点)

1、sciket-learn(Python)

https://scikit-learn.org/stable/

2、Mahout(Hadoop生态圈基于MapReduce)
http://mahout.apache.org/

3、Spark MLlib
http://spark.apache.org/

3 机器学习分类

算法是核心,数据和计算是基础。这句话很好的说明了机器学习中算法的重要性。机器学习的几种分类:

  • 监督学习
    • 分类 : k-近邻算法、决策树、贝叶斯、逻辑回归(LR)、支持向量机(SVM) 神经网络
    • 回归 : 线性回归、岭回归
    • 标注 : 隐马尔可夫模型(HMM)
  • 无监督学习
    • 聚类 : k-means
  • 半监督学习

3.1 监督学习(Supervised learning)

概念:

用已知某种或某些特性的样本作为训练集,以建立一个数学模型,再用已建立的模型来预测未知样本,此种方法被称为有监督学习,是最常用的一种机器学习方法。是从标签化训练数据集中推断出模型的机器学习任务。

  • 判别式模型(Discriminative Model):直接对条件概率p(ylx)进行建模,常见判别模型有:线性回归、决策树、支持向量机SVM、k近邻、神经网络等;
  • 生成式模型(Generative Model):对联合分布概率p(x,y)进行建模,常见生成式模型有:隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等;
  • 判别式模型更直接,目标性更强;生成式模型更普适
  • 判别式模型关注的数据的差异性,寻找的是分类面;生成式模型关注数据是如何产生的,寻找的是数据分布模型
  • 由生成式模型可以产生判别式模型,但是由判别式模式没法形成生成式模型

3.2 无监督学习(Unsupervised learning)

概念:

与监督学习相比,无监督学习的训练集中没有人为的标注的结果,在非监督的学习过程中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。

  • 无监督学习试图学习或者提取数据背后的数据特征,或者从数据中抽取出重要的特征信息,常见的算法有聚类、降维、文本处理(特征抽取)等。
  • 无监督学习一般是作为监督学习的前期数据处理,功能是从原始数据中抽取出必要的标签信息。

3.3 半监督学习(Semi-Supervised Learning)

概念:

考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题,是监督学习和无监督学习的结合;

  • 主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习对于减少标注代价,提高学习机器性能具有非常重大的实际意义。
  • SSL的成立依赖于模型假设,主要分为三大类:平滑假设、聚类假设、流行假设;其中流行假设更具有普片性。
  • SSL类型的算法主要分为四大类:半监督分类、半监督回归、半监督聚类、半监督降维。
  • 缺点:抗干扰能力弱,仅适合于实验室环境,其现实意义还没有体现出来;未来的发展主要是聚焦于新模型假设的产生。

4 其他分类方法

  1. 分类

    通过分类模型,将样本数据集中的样本映射到某个给定的类别中

  2. 聚类

    通过聚类模型,将样本数据集中的样本分为几个类别,属于同一类别的样本相似性比较大

  3. 回归

    反映了样本数据集中样本的属性值的特性,通过函数表达样本映射的关系来发现属性值之间的依赖关系

  4. 关联规则

    获取隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现频率。

5 scikit-learn算法备忘单(重点)

https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
在这里插入图片描述

6 Ubuntu安装Python3

Ubuntu中 创建一个基于Python3的虚拟环境:

mkvirtualenv -p /usr/local/bin/python3.6 ml3

在ubuntu的虚拟环境当中运行以下命令

pip3 install Scikit-learn

然后通过导入命令查看是否可以使用:

import sklearn

7 机器学习算法(Top10)

算法名称算法描述
C4.5分类决策树算法,决策树的核心算法,ID3算法的改进算法。
CART分类与回归树(Classification and Regression Trees)
kNNK近邻分类算法;如果一个样本在特征空间中的k个最相似的样本中大多数属于某一个类别,那么该样本也属于该类别(物以类聚,人以群分)
NaiveBayes贝叶斯分类模型;该模型比较适合属性相关性比较小的时候。如果属性相关性比较大的时候,决策树模型比贝叶斯分类模型效果好(原因:贝叶斯模型假设属性之间是互不影响的)
SVM支持向量机,一种有监督学习的统计学习方法,广泛应用于统计分类和回归分析中。
EM最大期望算法,常用于机器学习和计算机视觉中的数据集聚领域
Apriori关联规则挖掘算法
K-Means聚类算法,功能是将n个对象根据属性特征分为k个分割(k<n);属于无监督学习
PageRankGoogle搜索重要算法之一
AdaBoost迭代算法;利用多个分类器进行数据分类

8 机器学习开发流程

  1. 数据收集
  2. 数据预处理 (清洗与转换,去除异常数据···)
  3. 特征提取
  4. 模型构建
  5. 模型测试评估
  6. 投入使用(模型部署与整合)
  7. 迭代优化

在这里插入图片描述

8.1 数据收集与存储

  • 数据来源:
    • 用户访问行为数据
    • 业务数据
    • 外部第三方数据
  • 数据存储:
    • 需要存储的数据:原始数据、预处理后数据、模型结果
    • 存储设施:mysql、HDFS、HBase、Solr、Elasticsearch、Kafka、Redis等
  • 数据收集方式:
    • Flume & Kafka

8.1.1 机器学习可用公开数据集

在实际工作中,我们可以使用业务数据进行机器学习开发,但是在学习过程中,没有业务数据,此时可以使用公开的数据集进行开发,常用数据集如下:

  • http://archive.ics.uci.edu/ml/datasets.html
  • https://aws.amazon.com/cn/public-datasets/
  • https://www.kaggle.com/competitions
  • http://www.kdnuggets.com/datasets/index.html
  • http://www.sogou.com/labs/resource/list_pingce.php
  • https://tianchi.aliyun.com/datalab/index.htm
  • http://www.pkbigdata.com/common/cmptIndex.html

8.2 数据预处理(数据清洗和转换)

  • 实际生产环境中机器学习比较耗时的一部分
  • 大部分的机器学习模型所处理的都是特征,特征通常是输入变量所对应的可用于模型的数值表示
  • 大部分情况下,收集得到的数据需要经过预处理后才能够为算法所使用,预处理的操作主要包括以下几个部分:
    • 数据过滤
    • 处理数据缺失
    • 处理可能的异常、错误或者异常值
    • 合并多个数据源数据
    • 数据汇总

8.3 特征工程

对数据进行初步的预处理,需要将其转换为一种适合机器学习模型的表示形式,对许多模型类型来说,这种表示就是包含数值数据的向量或者矩阵。

  • 将类别数据编码成为对应的数值表示(一般使用1-of-k方法)-dumy。
  • 从文本数据中提取有用的数据(一般使用词袋法或者TF-IDF)。
  • 处理图像或者音频数据(像素、声波、音频、振幅等<傅里叶变换>)。
  • 数值数据转换为类别数据以减少变量的值,比如年龄分段。
  • 对数值数据进行转换,比如对数转换。
  • 对特征进行正则化、标准化,以保证同一模型的不同输入变量的值域相同。
  • 对现有变量进行组合或转换以生成新特征,比如平均数 (做虚拟变量)不断尝试。

8.3.1 类型特征转换之1-of-k(哑编码)

  • 功能:将非数值型的特征值(类别类型的)转换为数值型的数据
  • 描述:假设变量的取值有 k 个,如果对这些值用 1 到 k 编序,则可用维度为 k的向量来表示一个变量的值。在这样的向量里,该取值所对应的序号所在的元素为1,其他元素均为0。

例子:

  • T1,T2,T3是特征;
  • A,B,C是文本类型数据,机器学习识别不了,需要转换,转换为数字型

在这里插入图片描述

8.3.2 文本数据抽取

  • 词袋法:将文本当作一个无序的数据集合,文本特征可以采用文本中的词条T进行体现,那么文本中出现的所有词条及其出现的次数就可以体现文档的特征。
  • TF-IDF:
    • 词条的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降;也就是说词条在文本中出现的次数越多,表示该词条对该文本的重要性越高,词条在所有文本中出现的次数越少,说明这个词条对该文本的重要性越高。
    • TF(词频)指某个词条在文本中出现的次数,一般会将其进行归一化处理(该词条数量/该文档中所有词条数量);
    • IDF(逆向文件频率)指一个词条重要性的度量,一般计算方式为总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。TF-IDF实际上是:TF * IDF

在这里插入图片描述

8.4 模型训练及测试

  • 模型选择:对特定任务最优建模方法的选择或者对特定模型最佳参数的选择。

  • 在训练数据集上运行模型(算法)并在测试数据集中测试效果,迭代进行数据模型的修改,这种方式被称为交叉验证(将数据分为训练集和测试集,使用训练集构建模型,并使用测试集评估模型提供修改建议)。

  • 模型的选择会尽可能多的选择算法进行执行,并比较执行结果。

8.5 模型的评估方式(重点)

8.5.1 分类模型的评估方式

在这里插入图片描述
对于二分类问题,机器预测的和实际的还是会有所偏差,所以我们引入以下几个概念来评价分类器的优良。

  • 模型的测试一般以下几个方面来进行比较,分别是准确率/召回率/精准率/F值。
    • 准确率(Accuracy)=提取出的正确样本数/总样本数。
    • 召回率(Recall)=正确的正例样本数/样本中的正例样本数——覆盖率。
    • 精准率(Precision)=正确的正例样本数/预测为正例的样本数。又称精确率。
    • F值=Precision * Recall * 2 / (Precision+Recall) (即F值为正确率和召回率的调和平均值)。

例如:

在这里插入图片描述

混淆矩阵:

在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类)

http://www2.cs.uregina.ca/~dbd/cs831/notes/confusion_matrix/confusion_matrix.html

https://en.wikipedia.org/wiki/Confusion_matrix

在这里插入图片描述

TP(True Positive):被预测成了正类的正类,即正确预测的正类

FP(False Positive):被预测成了正类的负类

TN(True Negetive):被预测成了负类的负类,即正确预测的负类

FN(False Negetive):被预测成了负类的正类

8.5.1.1 准确率(Accuracy)(预测结果正确的百分比)

准确率跟正类负类没多大关系,表示在预测结果中,正确预测的数量 / 样本总数。

8.5.1.2 精确率(Precision) (查的准)

在预测结果中,正确预测的正类数 / 预测为正类的数量 : TP / (TP+FP)

在这里插入图片描述

8.5.1.3 召回率(Recall)(查的全,对正样本的区分能力)

在预测结果中,正确预测的正类数 / 原本即为正类的数量 : TP / (TP+FN)

在这里插入图片描述

8.5.1.4 F1 Measure

用precision和recall两个指标不直观,索性把他们合并为一个变量——F-measure:Recall * Precision * 2 / (Recall + Precision)(越大越好,1为理想状态,此时precision为1,recall为1)

8.5.1.5 ROC曲线

ROC(Receiver Operating Characteristic)最初源于20世纪70年代的信号检测理论,描述的是分类混淆矩阵中FPR-TPR两个量之间的相对变化情况, ROC曲线的纵轴是“真正例率”(True Positive Rate 简称TPR),横轴是“假正例率” (False Positive Rate 简称FPR)。

如果二元分类器输出的是对正样本的一个分类概率值,当取不同阈值时会得到不同的混淆矩阵,对应于ROC曲线上的一个点。那么ROC曲线就反映了 FPR与TPR之间权衡的情况,通俗地来说,即在TPR随着FPR递增的情况下,谁增长得更快,快多少的问题。TPR增长得越快,曲线越往上屈,AUC就越大, 反映了模型的分类性能就越好。当正负样本不平衡时,这种模型评价方式比起 一般的精确度评价方式的好处尤其显著。
在这里插入图片描述

8.5.1.6 AUC

AUC 即 ROC 曲线对应的面积,面积越大越好。

AUC (Area Under Curve) 被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围一般在0.5和1之间。使用AUC值作为评价标准 是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好, 而AUC作为数值可以直观的评价分类器的好坏,值越大越好。

从AUC判断分类器(预测模型)优劣的标准:

  • AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
  • 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
  • AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
  • AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

8.5.2 回归模型的评估方式

回归结果度量

  • explained_varicance_score:可解释方差的回归评分函数
  • mean_absolute_error:平均绝对误差
  • mean_squared_error:平均平方误差
    在这里插入图片描述

8.6 投入使用(模型部署和整合)

  • 当模型构建好后,将训练好的模型存储到数据库中,方便其它使用模型的应用加载(构建好的模型一般为一个矩阵)
  • 模型更新需要周期性(一周,一个月)

8.7 模型的监控与反馈

  • 当模型一旦投入到实际生产环境中,模型的效果监控是非常重要的,往往需要关注业务效果和用户体验,所以有时候会进行A/B测试
  • 模型需要对用户的反馈进行响应操作,即进行模型修改,但是要注意异常反馈信息对模型的影响,故需要进行必要的数据预处理操作

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/385935.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每年来一次的系统重装和磁盘整理(备忘步骤)

前言 电脑用了一段时间&#xff0c;要么C盘炸裂&#xff0c;要么你无意更新CPU炸裂&#xff0c;你所遇到的各种问题&#xff0c;没有什么事重装解决不了的。 思路 首先&#xff0c;重要的东西都转存C盘之外的盘&#xff0c;重要的是养成习惯。我C盘基本没重要的东西&#xf…

redis数据结构的适用场景分析

1、String 类型的内存空间消耗问题&#xff0c;以及选择节省内存开销的数据类型的解决方案。 为什么 String 类型内存开销大&#xff1f; 图片 ID 和图片存储对象 ID 都是 10 位数&#xff0c;我们可以用两个 8 字节的 Long 类型表示这两个 ID。因为 8 字节的 Long 类型最大可以…

云HIS系统源码 医院his源码 云his源码

大型医院his系统源码 SaaS运维平台多医院入驻强大的电子病历完整文档 &#xff0c;有演示 一、系统概述&#xff1a; 基层卫生健康云是一款满足基层医疗机构各类业务需要的健康云产品。该产品能帮助基层医疗机构完成日常各类业务&#xff0c;提供病患挂号支持、病患问诊、电子…

【Linux学习】菜鸟入门——gcc与g++简要使用

一、gcc/g gcc/g是编译器&#xff0c;gcc是GCC(GUN Compiler Collection&#xff0c;GUN编译器集合)中的C编译器&#xff1b;g是GCC中的C编译器。使用g编译文件时会自动链接STL标准库&#xff0c;而gcc不会自动链接STL标准库。下面简单介绍一下Linux环境下&#xff08;Windows差…

阿里云ECS服务器的6大功能组件

阿里的云服务在国内可以说是首屈一指的了&#xff0c;因此他们家的云服务器也是最受欢迎的。那么&#xff0c;你知道阿里云服务器ECS有哪些功能组件吗&#xff1f;不清楚不要紧&#xff0c;下面服务器吧小编带大家来看看。 在了解之前我们来看一张阿里云服务器ECS的产品组件架…

3.SpringSecurity请求流转的本质

SpringSecurity请求流转的本质 1. SpringSecurity核心源码分析 分析SpringSecurity的核心原理&#xff0c;那么我们从哪开始分析&#xff1f;以及我们要分析哪些内容&#xff1f; 系统启动的时候SpringSecurity做了哪些事情&#xff1f;第一次请求执行的流程是什么&#xff…

51单片机串口通讯原理及程序源码-----day8

51单片机串口通讯原理及程序源码-----day8 1.定义单片机为TTL电平&#xff1a;高 5V 低 0V RS232电平&#xff1a; 计算机的串口高 -12V 低12V 所以计算机与单片机之间通讯时需要加电平转换芯片CH340T 、 MAX232。 2.通信分类&#xff1a; &#xff08;1&#xff09;并行通信通…

Python-异常处理-try-except-else-finally

文章目录1.异常2.try/except3.try/except/else3.try/except/else/finally4.异常错误列表5.作者答疑1.异常 执行 try 子句&#xff08;在关键字 try 和关键字 except 之间的语句&#xff09;。如果没有异常发生&#xff0c;忽略 except 子句&#xff0c;try 子句执行后结束。如…

【Spring6】入门

1、概述 1.1、Spring是什么&#xff1f; Spring 是一款主流的 Java EE 轻量级开源框架 &#xff0c;Spring 由“Spring 之父”Rod Johnson 提出并创立&#xff0c;其目的是用于简化 Java 企业级应用的开发难度和开发周期。Spring的用途不仅限于服务器端的开发。从简单性、可测…

办公学习常用浏览器:这4款浏览器高效简洁无广告,快收藏

在办公学习中&#xff0c;我们经常需要用到浏览器。关于浏览器相信大家并不陌生&#xff0c;市面上的浏览器多种多样&#xff0c;想要找到好用又高效的浏览器并不容易。我个人用过不下10款浏览器&#xff0c;最后只留下这4款&#xff0c;下面给大家分享无广告、高效简洁的浏览器…

02-前端-javaScript

文章目录JavaScript1&#xff0c;JavaScript简介2&#xff0c;JavaScript引入方式2.1 内部脚本2.2 外部脚本3&#xff0c;JavaScript基础语法3.1 书写语法3.2 输出语句3.3 变量3.3.1 全局变量var3.3.2 局部变量let3.3.3 常量const3.4 数据类型3.5 运算符3.5.1 \和区别 ▲3.5.2 …

三招通过Apollo和nacos的能力进行国际化热更新

通过Apollo和nacos的能力进行国际化热更新 1.apollo的自动刷新 Apollo&#xff08;阿波罗&#xff09;是一款可靠的分布式配置管理中心&#xff0c;有了它&#xff0c;我们可以用来做很多事情&#xff1a;配置的热更新&#xff0c;配置监听&#xff0c;灰度发布&#xff0c;微…

ESP32遥控器软硬件设计

一. 前言 做智能车 或者 四轴飞控怎么能少得了遥控器呢&#xff01;在这里给大家分享一个简单的基于ESP32遥控器的设计&#xff0c;包括软硬件以及3D外壳。 二. 硬件设计 1. 功能介绍 遥控器嘛&#xff0c;通信方式是最重要的&#xff0c;本设计支持 WIFI、蓝牙 和 2.4G&…

raft协议的一些理解

raft是工程上使用较为广泛的强一致性、去中心化、高可用的分布式协议。(类似的还有ZAB,GOSSIP) 大概理解一下,强一致性就是任意时刻客户端在不同机器读到的数据一致.注意跟最终一致性区别,比如数据库mysql的主从复制,主库写了再同步到从库,这个过程是异步的,主库写好就返回客户…

Python高性能编程

一、进程池和线程池 1.串行 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 import time import requests url_lists [ http://www.baidu.com, http://fanyi.baidu.com, http://map.baidu.com, http://music.baidu.com/, http://tieba.baid…

项目实战典型案例13——学情页面逻辑问题

学情页面逻辑问题一&#xff1a;背景介绍二&#xff1a;学情页面逻辑问题分析逻辑问题缓存滥用的问题三&#xff1a;LocalStorage基础知识数据结构特性应用场景localStorage常用方法四&#xff1a;总结一&#xff1a;背景介绍 本篇博客是对项目开发中出现的学情页面逻辑问题进…

buu [INSHack2017]rsa16m 1

题目描述&#xff1a; 打开的 rsa_16m 文件 &#xff1a; &#xff08;在此我只想说神人才找得到 c 的位置&#xff09; &#xff0c;这位置是真的难找啊 题目分析&#xff1a; 首先打开 description.md 文件&#xff0c;得到&#xff1a; 翻译下来&#xff1a; 当您需要真正…

青岛诺凯达机械盛装亮相2023济南生物发酵展,3月与您相约

BIO CHINA生物发酵展&#xff0c;作为生物发酵产业一年一度行业盛会&#xff0c;由中国生物发酵产业协会主办&#xff0c;上海信世展览服务有限公司承办&#xff0c;2023第10届国际生物发酵展&#xff08;济南&#xff09;于2023年3月30-4月1日在山东国际会展中心&#xff08;济…

王道C语言督学营OJ练习全解【24考研最新版】

前言 本篇博客是在博主参加王道408专业课前置课程-----C语言督学营的学习笔记&#xff0c;包含了从第一节课到最后一节课的所有OJ习题题解&#xff0c;文章中每一题都给出了详尽的代码&#xff0c;并在每一题的关键部位加上了注释&#xff0c;记录下来的目的是方便自己以后进行…

ElasticSearch从0到1——基础知识

1.ES是什么&#xff1f; 是一个开源的高扩展的分布式全文检索引擎&#xff0c;它可以近乎实时的存储、检索数据&#xff1b;本身扩展性很好&#xff0c;可以扩展到上百台服务器&#xff0c;处理PB级别的数据使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能&…