机器学习与数据挖掘——前言

news2024/9/29 9:22:32

如果有兴趣了解更多相关内容,欢迎来我的个人网站看看:瞳孔空间

这是从老师的PPT里面提取出来的,知识点分布比较零散,可能他做PPT的时候也没想那么多。

一:机器学习

机器学习的定义:一个计算机程序被称为可以学习,是指它能够针对某个任务T和某个性能指标P,从经验E中学习。这种学习的特点是,它在T上的被P所衡量的性能,会随着经验E的增加而提高。

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,从而在计算机上从数据中产生“模型”,用于对新的情况给出判断。

机器学习是一门多学科交叉专业,涵盖概率论知识、统计学知识、近似理论知识和复杂算法知识。机器学习推动人工智能快速发展,是第三次人工智能发展浪潮的重要推动因素。

典型的机器学习过程:
在这里插入图片描述

实施过程:
在这里插入图片描述

机器学习领域诞生了众多的经典理论:PAC学习理论、决策树、支持向量机SVM、Adaboost、循环神经网络RNN和LSTM、流形学习、随机森林Random Forest等,并走向实用。

在这里插入图片描述

经典的机器学习算法:

  • 上世纪50年代的图灵测试与塞缪尔开发的西洋跳棋程序
  • 上世纪60年代中到70年代末的发展几乎停滞
  • 上世纪80年代使用神经网络反向传播(BP)算法
  • 昆兰在1986年提出的“决策树”(ID3算法)
  • 上世纪90年代支持向量机(SVM)算法(1964年已被提出)
  • 2006年辛顿(Hinton)提出深度学习(Deep Learning)

机器学习相关概念的辨识:

  • 数据挖掘:Data Mining,简称DM
  • 知识发现:Knowledge Discovery in Database, 简称KDD
  • 模式识别:Pattern Recognition,简称PR
  • 统计:Statistics
  • 神经计算:Neuro Computing
  • 数据库:Databases
    在这里插入图片描述

机器学习算法分类:

  • 监督学习(Supervised Learning)
  • 无监督学习(Unsupervised Learning)
  • 半监督学习(Semi-Supervised Learning)
  • 自监督学习(Self-Supervised Learning)

监督学习

  • 监督学习中的数据集是有标签的,对于给出的样本是有答案的,这类机器学习称为监督学习
  • 根据标签类型的不同,监督学习分为分类问题和回归问题两类:
    • 分类是预测某一样东西所属的类别(离散的),比如给定一个人的身高、年龄、体重等信息,然后判断性别、是否健康等
    • 回归则是预测某一样本所对应的实数输出(连续的),比如预测某一地区人的平均身高
  • 大部分模型都是属于监督学习,包括线性分类器、支持向量机等。常见的监督学习算法有:k-近邻算法(k-Nearest Neighbors,KNN)、决策树(Decision Trees)、朴素贝叶斯(Naive Bayesian),支持向量机(SVM)等

回归的定义:假定同一个或多个独立变量存在相关关系,寻找相关关系的模型。不同于时间序列法的是:模型的因变量是随机变量,而自变量是可控变量。分为线性回归和非线性回归,通常指连续要素之间的模型关系,是因果关系分析的基础。(回归研究的是数据之间的非确定性关系)

在这里插入图片描述

线性回归算法寻找属性与预测目标之间的线性关系。通过属性选择与去掉相关性,去掉与问题无关的变量或存在线性相关性的变量。

在建立回归模型之前,可先进行主成分分析,消除属性之间的相关性。最后通过最小二乘法,算法得到各属性与目标之间的线性系数。
在这里插入图片描述

分类与聚类:

  • 分类:类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。属于监督学习
  • 聚类:事先不知道数据会分为几类,通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。属于无监督学习

二:数据挖掘

数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。

  • 数据库知识发现(Knowledge Discovery in Databases,KDD)
  • 数据挖掘(Data Mining DM)
  • 数据分析(Data Analysis)
  • 数据融合(Data Fusion)
  • 决策支持(Decision Supporting)

知识发现的定义:Fayyad,Piatetsky-Shapiro和Smyth在KDD96国际会议的会议论文《From Data Mining to Knowledge Discovery》一文中将KDD定义为:从大量数据中获取有效的、新颖的、有潜在作用的和最终可理解的模式的非平凡过程。

数据挖掘(Date Mining)是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在的有用的信息。广泛观点的定义:是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣的知识过程。

数据分析方法:

  • 关联分析(Association):如经典的啤酒与尿布案例
    • 市场组合分析
    • 套装产品分析
    • 目录设计
    • 交叉销售
  • 聚类分析(Clustering)
    • 客户细分
    • 市场细分
  • 神经网络(Neural Networks)
    • 倾向性分析
    • 客户保留
    • 目标市场
    • 欺诈检测

三:数据及数据类型

3.1:数据的基本概念

数据的属性:是对象的性质或特性

  • 属性也称为变量、字段、特性、特征或维
  • 如:眼球颜色、物体的温度等

对象(object)、样本(sample):用一组属性描述,对象也称为记录、点、向量、案例、样本、实体或事件

数据(Data) = 数据对象及其属性的集合

在这里插入图片描述

离散属性(Discrete Attribute):

  • 具有有限或无限可数个值,例如:邮政编码、计数
  • 通常用整数变量表示(注:二元属性是离散属性的一种特殊情况)

连续属性(Continuous Attribute):

  • 是取实数值的属性,例如:温度、高度或重量
  • 实践中,实数值只能用有限的精度测量和表示
  • 通常,连续属性用浮点变量表示

3.2:数据集的类型

3.2.1:记录数据

记录数据(Record Data):数据是记录的汇集,每个记录包含固定的数据字段(属性)集

  • 数据矩阵
  • 文档数据
  • 事务数据

记录数据——数据矩阵(Data Matrix):

  • 如果一个数据集中的所有数据对象都具有相同的数值属性集,则数据对象可看作多维空间中的点,其中每个维代表描述对象的一个不同属性
  • 数据对象集可用一个m*n的矩阵表示
    • m表示对象行数,一个对象一行
    • n表示属性列,一个属性一列

在这里插入图片描述

记录数据——文档数据(Text Data)

  • 每个文档表示为一个向量
    • 文档中的每个单词表示为向量的一个分量(属性)
    • 每个分量的值是对应词在文档中出现的次数
  • 每个单词表示为一个向量
    • 向量中的每个分量无物理意义
    • 一个文档表示为一个矩阵
      在这里插入图片描述
      在这里插入图片描述

记录数据——事务数据(Transaction Data):是一种特殊的记录数据

  • 每个记录(事务)涉及一个项的集合
  • 例如,一个杂货店。顾客一次购物所购买的商品的集合就构成一个事务,而购买的商品是项

在这里插入图片描述

3.2.2:基于图形的数据

基于图形的数据(Graphic Data)

  • 万维网
  • 分子结构

基于图形的数据——万维网:例如类图和HTML链接
在这里插入图片描述

基于图形的数据——分子结构:例如苯分子(C6H6):
在这里插入图片描述

3.2.3:有序数据

有序数据(Sequence Data)

  • 空间数据
  • 时间数据
  • 时序数据
  • 基因序列数据

有序数据——事务序列:
在这里插入图片描述
有序数据——基因序列数据:
在这里插入图片描述

有序数据——地理时空数据:
在这里插入图片描述

3.3:数据集的特点

  • 维度(dimensionality):超高维
    • 交易数据、Web文档、基因表达数据、文档词频数据、用户评分数据、WEB使用数据及多媒体数据等
  • 稀疏性(sparsity)
  • 分辨率(resolution)
    • 粒度(granularity),层次的问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/55480.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前端岗位初入职场后的最初一段时间需要做什么

文章题目有点长,叫 《前端岗位初入职场后的最初一段时间需要做什么》,说下写这篇文的初衷,在前端自学团里有很多刚毕业或者是刚从培训班出来的同学,在群里天天讨论着找工作和面试的事情,面试的题在很多app或者小程序可…

四、【React-Router6】高亮 NavLink

项目修改自 上一节 的 Demo 这里需要注意的变化 默认高亮样式类名如果依然是 active 则依然默认有效 6 里移除了 activeClassName ,如果我的高亮样式类名是 peiqi,需要配置 className 为一个函数 函数接收两个参数 isActive:是否激活isPendi…

Arduino开发实例-DIY双向访客计数器和自动灯光控制

双向访客计数器和自动灯光控制 1、应用介绍 本应用将使用 Arduino 创建双向访客柜台和自动灯光控制系统。该应用基于一对 IR(红外)传感器,可在出现中断时检测障碍物。实际上,该系统可以检测来自两个方向的访客。从而对进入的访客数量和离开的访客数量进行计数。 该双向访…

2023最新SSM计算机毕业设计选题大全(附源码+LW)之java高校心理健康咨询平台vknhv

毕业设计其实不难,主要毕业的时候任务太紧了,所以大家都非常忙没有时间去做,毕业设计还是早做准备比较好,多花点时间也可以做出来的,建议还是自己动手去做,比如先选一个题,这样就有方向&#xf…

GIS工具maptalks开发手册(三)01——绘制工具

GIS工具maptalks开发手册(三)01——绘制工具 效果 代码 1、html官方版 <!DOCTYPE html> <html> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1"> <title>交互 - 绘制…

vite + vue3.0 + ts 项目搭建

Welcome to vue3-elementplus-admin &#x1f44b; vite vue3 Pinia elementUi-plus 无限级菜单 权限管理 后台模板 &#x1f3e0; Homepage Author &#x1f464; xuxuxu-ni Github: xuxuxu-niQQ: 595485548QQ群: 157216616email: 595485548qq.com Prerequisites node…

安卓使用动画启动Acitvity

1.检查系统版本 动画过渡Activity适用于*Android5.0&#xff08;API21&#xff09;*及以上&#xff0c;在代码增加中检查版本增强代码健壮性。 2.指定自定义过渡动画。 过渡可以在xml文件中指定&#xff0c;也可以直接在代码中指定。使用Window.requestFeature()声明启动窗口…

C语言:结构体

1、结构体&#xff1a; 定义&#xff1a;结构是一些值的集合&#xff0c;这些值称为成员变量。结构的每个成员可以是不同类型的变量 结构的声明&#xff1a; struct tag {member-list;}variable-list;举例&#xff1a;声明一个学生类型&#xff0c;想通过学生类型来创建学生变…

【Matplotlib绘制图像大全】(二十七):Matplotlib将数组array保存为图像

前言 大家好,我是阿光。 本专栏整理了《Matplotlib绘制图像大全》,内包含了各种常见的绘图方法,以及Matplotlib各种内置函数的使用方法,帮助我们快速便捷的绘制出数据图像。 正在更新中~ ✨ 🚨 我的项目环境: 平台:Windows10语言环境:python3.7编译器:PyCharmMatp…

SpringBoot+Vue实现前后端分离的大学生志愿者管理系统

文末获取源码 开发语言&#xff1a;Java 使用框架&#xff1a;spring boot 前端技术&#xff1a;JavaScript、Vue.js 、css3 开发工具&#xff1a;IDEA/MyEclipse/Eclipse、Visual Studio Code 数据库&#xff1a;MySQL 5.7/8.0 数据库管理工具&#xff1a;phpstudy/Navicat JD…

【C++修炼之路】10. vector类

每一个不曾起舞的日子都是对生命的辜负 vector本节目标1. vector的介绍及使用1.1 vector的介绍1.2 vector的使用1.2.1 vector的定义&#xff08;构造函数&#xff09;1.2.2 vector iterator的使用1.2.3 vector的空间增长问题1.2.4 vector增删查改2. vector的模拟实现2.1 构造函…

Mellanox CX4 offload 卸载功能介绍

无状态功能卸载 cx4支持多种类型的无状态卸载&#xff0c;如下面列表所示。 Checksum OffloadLarge Send OffloadsReceive Side ScalingTransmit Side ScalingInterrupt ModerationLarge Receive OffloadsVLAN insertion and strippingFlow Steering at layers 2, 3 and 4Pac…

使用MotionLayout实现模拟启动页动画和轮播图

目录效果图展示启动页效果轮播图效果MotionLayout详解准备工作正题轮播图效果实现ConstraintSetTransitionCarousel浅述启动页的实现插入gif图源码在这里&#xff1a; 源码链接本文是用java写的效果图展示 下面是本博客我使用真机所实现的功能展现&#xff0c;方便大家根据自身…

化妆品行业的数字进化论:S2B2B电商网站如何助力化妆品企业打造增长新动能

近年来&#xff0c;伴随着国家经济的快速发展和消费者对“美”的追求日益强烈&#xff0c;大大推动了化妆品行业的蓬勃发展&#xff0c;根据公开数据显示&#xff0c;2021年我国化妆品零售总额达4026亿元&#xff0c;较2020年同比增长18.40%&#xff0c;我国目前已成为全球第二…

一篇文章让你全方位掌握git版本控制管理

注&#xff1a;侵权请联系作者删除 目录 1.引入&#xff1a; 2.Git 的工作区域和流程 3.stash区域 4.git基本操作 A.git add B.git commit c.git pull D.git fetch E.git branch F.git init 5.在项目中实际运用案例&#xff1a; A.在github上创建一个新仓库 B.复制刚创建…

matlab使用hampel滤波,去除异常值

此示例显示了Hampel用于检测和删除异常值的过程的 实现。 最近我们被客户要求撰写关于hampel滤波的研究报告&#xff0c;包括一些图形和统计输出。 产生一个包含24个样本的随机信号x。 重置随机数生成器以获得可重复的结果。 rng defaultlx 24; x randn(1,lx); 围绕x的每…

网页前端知识汇总(六)——如何让网页全部内容显示成灰色

最近很多做网站前端的技术员是不是都接到了老板的任务&#xff0c;让网站的网页显示效果都变成灰色&#xff0c;这个也是随某些事件的发生或者某些专题内容觉得需要这样做的&#xff0c;大部分用于大家都不愿意看到的专题事件如某某烈士&#xff0c;逝去的伟人等&#xff1b;大…

Scala013--Scala中的方法

因为Scala是一种函数式编程语言&#xff0c;因此在Scala中基本上都是方法和函数&#xff0c;但是需要注意的是&#xff0c;在Java中方法和函数是同一个意思&#xff0c;但是在Scala中函数和方法的含义不同&#xff1a; 方法&#xff1a;是类和对象的成员函数&#xff1a;是对象…

jeecgboot-前端组件封装代码示例

首先我们要知道 jeecgboot他前台的组件代码封装文件夹的位置在src-components中&#xff0c;这时我们其实可以观察他们代码的写法(个人感觉学习代码的最好的途径就是临摹他人高质量的代码、多看、多写)路径如图&#xff1a; 接下来我们会在标注3下实现一个简单的自定义组件 代码…

【Eureka】【源码+图解】【八】Eureka客户端的服务获取

【Eureka】【源码图解】【七】Eureka的下线功能 目录7. 获取服务7.1 初始化HeartBeat的task7.2 将task进一步包装成定时timerTask7.3 定时时间到&#xff0c;执行timeTask7.4 task获得线程资源&#xff0c;执行refreshRegistry()7.5 服务端接受请求7.6 获取Applications7. 获取…