机器学习与数据挖掘——前言

news2026/2/14 11:15:47

如果有兴趣了解更多相关内容，欢迎来我的个人网站看看：瞳孔空间

这是从老师的PPT里面提取出来的，知识点分布比较零散，可能他做PPT的时候也没想那么多。

一：机器学习

机器学习的定义：一个计算机程序被称为可以学习，是指它能够针对某个任务T和某个性能指标P，从经验E中学习。这种学习的特点是，它在T上的被P所衡量的性能，会随着经验E的增加而提高。

机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能，从而在计算机上从数据中产生“模型”，用于对新的情况给出判断。

机器学习是一门多学科交叉专业，涵盖概率论知识、统计学知识、近似理论知识和复杂算法知识。机器学习推动人工智能快速发展，是第三次人工智能发展浪潮的重要推动因素。

典型的机器学习过程：
在这里插入图片描述

实施过程：
在这里插入图片描述

机器学习领域诞生了众多的经典理论：PAC学习理论、决策树、支持向量机SVM、Adaboost、循环神经网络RNN和LSTM、流形学习、随机森林Random Forest等，并走向实用。

在这里插入图片描述

经典的机器学习算法：

上世纪50年代的图灵测试与塞缪尔开发的西洋跳棋程序
上世纪60年代中到70年代末的发展几乎停滞
上世纪80年代使用神经网络反向传播(BP)算法
昆兰在1986年提出的“决策树”（ID3算法）
上世纪90年代支持向量机(SVM)算法（1964年已被提出）
2006年辛顿(Hinton)提出深度学习(Deep Learning)

机器学习相关概念的辨识：

数据挖掘：Data Mining，简称DM
知识发现：Knowledge Discovery in Database，简称KDD
模式识别：Pattern Recognition，简称PR
统计：Statistics
神经计算：Neuro Computing
数据库：Databases

机器学习算法分类：

监督学习(Supervised Learning)
无监督学习(Unsupervised Learning)
半监督学习(Semi-Supervised Learning)
自监督学习(Self-Supervised Learning)

监督学习

监督学习中的数据集是有标签的，对于给出的样本是有答案的，这类机器学习称为监督学习
根据标签类型的不同，监督学习分为分类问题和回归问题两类：
- 分类是预测某一样东西所属的类别（离散的），比如给定一个人的身高、年龄、体重等信息，然后判断性别、是否健康等
- 回归则是预测某一样本所对应的实数输出（连续的），比如预测某一地区人的平均身高
大部分模型都是属于监督学习，包括线性分类器、支持向量机等。常见的监督学习算法有：k-近邻算法（k-Nearest Neighbors，KNN)、决策树(Decision Trees)、朴素贝叶斯(Naive Bayesian)，支持向量机(SVM)等

回归的定义：假定同一个或多个独立变量存在相关关系，寻找相关关系的模型。不同于时间序列法的是：模型的因变量是随机变量，而自变量是可控变量。分为线性回归和非线性回归，通常指连续要素之间的模型关系，是因果关系分析的基础。（回归研究的是数据之间的非确定性关系)

在这里插入图片描述

线性回归算法寻找属性与预测目标之间的线性关系。通过属性选择与去掉相关性，去掉与问题无关的变量或存在线性相关性的变量。

在建立回归模型之前，可先进行主成分分析，消除属性之间的相关性。最后通过最小二乘法，算法得到各属性与目标之间的线性系数。
在这里插入图片描述

分类与聚类：

分类：类别是已知的，通过对已知分类的数据进行训练和学习，找到这些不同类的特征，再对未分类的数据进行分类。属于监督学习
聚类：事先不知道数据会分为几类，通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。属于无监督学习

二：数据挖掘

数据挖掘可以视为机器学习和数据库的交叉，它主要利用机器学习界提供的技术来分析海量数据，利用数据库界提供的技术来管理海量数据。

数据库知识发现(Knowledge Discovery in Databases，KDD)
数据挖掘(Data Mining DM)
数据分析(Data Analysis)
数据融合(Data Fusion)
决策支持(Decision Supporting)

知识发现的定义：Fayyad，Piatetsky-Shapiro和Smyth在KDD96国际会议的会议论文《From Data Mining to Knowledge Discovery》一文中将KDD定义为：从大量数据中获取有效的、新颖的、有潜在作用的和最终可理解的模式的非平凡过程。

数据挖掘(Date Mining)是从大型数据库或数据仓库中提取人们感兴趣的知识，这些知识是隐含的、事先未知的、潜在的有用的信息。广泛观点的定义：是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣的知识过程。

数据分析方法：

关联分析(Association)：如经典的啤酒与尿布案例
- 市场组合分析
- 套装产品分析
- 目录设计
- 交叉销售
聚类分析(Clustering)
- 客户细分
- 市场细分
神经网络(Neural Networks)
- 倾向性分析
- 客户保留
- 目标市场
- 欺诈检测

三：数据及数据类型

3.1：数据的基本概念

数据的属性：是对象的性质或特性

属性也称为变量、字段、特性、特征或维
如：眼球颜色、物体的温度等

对象(object)、样本(sample)：用一组属性描述，对象也称为记录、点、向量、案例、样本、实体或事件

数据(Data) = 数据对象及其属性的集合

在这里插入图片描述

离散属性(Discrete Attribute)：

具有有限或无限可数个值，例如：邮政编码、计数
通常用整数变量表示（注：二元属性是离散属性的一种特殊情况）

连续属性(Continuous Attribute)：

是取实数值的属性，例如：温度、高度或重量
实践中，实数值只能用有限的精度测量和表示
通常，连续属性用浮点变量表示

3.2：数据集的类型

3.2.1：记录数据

记录数据(Record Data)：数据是记录的汇集，每个记录包含固定的数据字段(属性)集

数据矩阵
文档数据
事务数据

记录数据——数据矩阵(Data Matrix)：

如果一个数据集中的所有数据对象都具有相同的数值属性集，则数据对象可看作多维空间中的点，其中每个维代表描述对象的一个不同属性
数据对象集可用一个m*n的矩阵表示
- m表示对象行数，一个对象一行
- n表示属性列，一个属性一列

在这里插入图片描述

记录数据——文档数据(Text Data)

每个文档表示为一个向量
- 文档中的每个单词表示为向量的一个分量（属性）
- 每个分量的值是对应词在文档中出现的次数
每个单词表示为一个向量
- 向量中的每个分量无物理意义
- 一个文档表示为一个矩阵

记录数据——事务数据(Transaction Data)：是一种特殊的记录数据

每个记录（事务）涉及一个项的集合
例如，一个杂货店。顾客一次购物所购买的商品的集合就构成一个事务，而购买的商品是项

在这里插入图片描述

3.2.2：基于图形的数据

基于图形的数据(Graphic Data)

万维网
分子结构

基于图形的数据——万维网：例如类图和HTML链接
在这里插入图片描述

基于图形的数据——分子结构：例如苯分子(C₆H₆)：
在这里插入图片描述

3.2.3：有序数据

有序数据(Sequence Data)

空间数据
时间数据
时序数据
基因序列数据

有序数据——事务序列：
在这里插入图片描述
有序数据——基因序列数据：

有序数据——地理时空数据：
在这里插入图片描述

3.3：数据集的特点

维度(dimensionality)：超高维
- 交易数据、Web文档、基因表达数据、文档词频数据、用户评分数据、WEB使用数据及多媒体数据等
稀疏性(sparsity)
分辨率(resolution)
- 粒度(granularity)，层次的问题

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/55480.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

前端岗位初入职场后的最初一段时间需要做什么

前端岗位初入职场后的最初一段时间需要做什么

文章题目有点长，叫《前端岗位初入职场后的最初一段时间需要做什么》，说下写这篇文的初衷，在前端自学团里有很多刚毕业或者是刚从培训班出来的同学，在群里天天讨论着找工作和面试的事情，面试的题在很多app或者小程序可…

阅读更多...

四、【React-Router6】高亮 NavLink

四、【React-Router6】高亮 NavLink

项目修改自上一节的 Demo 这里需要注意的变化默认高亮样式类名如果依然是 active 则依然默认有效 6 里移除了 activeClassName ，如果我的高亮样式类名是 peiqi，需要配置 className 为一个函数函数接收两个参数 isActive：是否激活isPendi…

阅读更多...

Arduino开发实例-DIY双向访客计数器和自动灯光控制

Arduino开发实例-DIY双向访客计数器和自动灯光控制

双向访客计数器和自动灯光控制 1、应用介绍本应用将使用 Arduino 创建双向访客柜台和自动灯光控制系统。该应用基于一对 IR（红外）传感器，可在出现中断时检测障碍物。实际上，该系统可以检测来自两个方向的访客。从而对进入的访客数量和离开的访客数量进行计数。该双向访…

阅读更多...

2023最新SSM计算机毕业设计选题大全（附源码+LW）之java高校心理健康咨询平台vknhv

2023最新SSM计算机毕业设计选题大全（附源码+LW）之java高校心理健康咨询平台vknhv

毕业设计其实不难，主要毕业的时候任务太紧了，所以大家都非常忙没有时间去做，毕业设计还是早做准备比较好，多花点时间也可以做出来的，建议还是自己动手去做，比如先选一个题，这样就有方向&#xf…

阅读更多...

GIS工具maptalks开发手册(三)01——绘制工具

GIS工具maptalks开发手册(三)01——绘制工具

GIS工具maptalks开发手册(三)01——绘制工具效果代码 1、html官方版 <!DOCTYPE html> <html> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1"> <title>交互 - 绘制…

阅读更多...

vite + vue3.0 + ts 项目搭建

vite + vue3.0 + ts 项目搭建

Welcome to vue3-elementplus-admin 👋 vite vue3 Pinia elementUi-plus 无限级菜单权限管理后台模板 🏠 Homepage Author 👤 xuxuxu-ni Github: xuxuxu-niQQ: 595485548QQ群: 157216616email: 595485548qq.com Prerequisites node…

阅读更多...

安卓使用动画启动Acitvity

安卓使用动画启动Acitvity

1.检查系统版本动画过渡Activity适用于*Android5.0（API21）*及以上，在代码增加中检查版本增强代码健壮性。 2.指定自定义过渡动画。过渡可以在xml文件中指定，也可以直接在代码中指定。使用Window.requestFeature()声明启动窗口…

阅读更多...

C语言：结构体

C语言：结构体

1、结构体： 定义：结构是一些值的集合，这些值称为成员变量。结构的每个成员可以是不同类型的变量结构的声明： struct tag {member-list;}variable-list;举例：声明一个学生类型，想通过学生类型来创建学生变…

阅读更多...

【Matplotlib绘制图像大全】（二十七）：Matplotlib将数组array保存为图像

【Matplotlib绘制图像大全】（二十七）：Matplotlib将数组array保存为图像

前言大家好，我是阿光。本专栏整理了《Matplotlib绘制图像大全》，内包含了各种常见的绘图方法，以及Matplotlib各种内置函数的使用方法，帮助我们快速便捷的绘制出数据图像。正在更新中~ ✨ 🚨 我的项目环境：平台：Windows10语言环境：python3.7编译器：PyCharmMatp…

阅读更多...

SpringBoot+Vue实现前后端分离的大学生志愿者管理系统

SpringBoot+Vue实现前后端分离的大学生志愿者管理系统

文末获取源码开发语言：Java 使用框架：spring boot 前端技术：JavaScript、Vue.js 、css3 开发工具：IDEA/MyEclipse/Eclipse、Visual Studio Code 数据库：MySQL 5.7/8.0 数据库管理工具：phpstudy/Navicat JD…

阅读更多...

【C++修炼之路】10. vector类

【C++修炼之路】10. vector类

每一个不曾起舞的日子都是对生命的辜负 vector本节目标1. vector的介绍及使用1.1 vector的介绍1.2 vector的使用1.2.1 vector的定义（构造函数）1.2.2 vector iterator的使用1.2.3 vector的空间增长问题1.2.4 vector增删查改2. vector的模拟实现2.1 构造函…

阅读更多...

Mellanox CX4 offload 卸载功能介绍

Mellanox CX4 offload 卸载功能介绍

无状态功能卸载 cx4支持多种类型的无状态卸载，如下面列表所示。 Checksum OffloadLarge Send OffloadsReceive Side ScalingTransmit Side ScalingInterrupt ModerationLarge Receive OffloadsVLAN insertion and strippingFlow Steering at layers 2, 3 and 4Pac…

阅读更多...

使用MotionLayout实现模拟启动页动画和轮播图

使用MotionLayout实现模拟启动页动画和轮播图

目录效果图展示启动页效果轮播图效果MotionLayout详解准备工作正题轮播图效果实现ConstraintSetTransitionCarousel浅述启动页的实现插入gif图源码在这里： 源码链接本文是用java写的效果图展示下面是本博客我使用真机所实现的功能展现，方便大家根据自身…

阅读更多...

化妆品行业的数字进化论：S2B2B电商网站如何助力化妆品企业打造增长新动能

化妆品行业的数字进化论：S2B2B电商网站如何助力化妆品企业打造增长新动能

近年来，伴随着国家经济的快速发展和消费者对“美”的追求日益强烈，大大推动了化妆品行业的蓬勃发展，根据公开数据显示，2021年我国化妆品零售总额达4026亿元，较2020年同比增长18.40%，我国目前已成为全球第二…

阅读更多...

一篇文章让你全方位掌握git版本控制管理

一篇文章让你全方位掌握git版本控制管理

注：侵权请联系作者删除目录 1.引入： 2.Git 的工作区域和流程 3.stash区域 4.git基本操作 A.git add B.git commit c.git pull D.git fetch E.git branch F.git init 5.在项目中实际运用案例： A.在github上创建一个新仓库 B.复制刚创建…

阅读更多...

matlab使用hampel滤波,去除异常值

matlab使用hampel滤波,去除异常值

此示例显示了Hampel用于检测和删除异常值的过程的实现。最近我们被客户要求撰写关于hampel滤波的研究报告，包括一些图形和统计输出。产生一个包含24个样本的随机信号x。重置随机数生成器以获得可重复的结果。 rng defaultlx 24; x randn(1,lx); 围绕x的每…

阅读更多...

网页前端知识汇总（六）——如何让网页全部内容显示成灰色

网页前端知识汇总（六）——如何让网页全部内容显示成灰色

最近很多做网站前端的技术员是不是都接到了老板的任务，让网站的网页显示效果都变成灰色，这个也是随某些事件的发生或者某些专题内容觉得需要这样做的，大部分用于大家都不愿意看到的专题事件如某某烈士，逝去的伟人等；大…

阅读更多...

Scala013--Scala中的方法

Scala013--Scala中的方法

因为Scala是一种函数式编程语言，因此在Scala中基本上都是方法和函数，但是需要注意的是，在Java中方法和函数是同一个意思，但是在Scala中函数和方法的含义不同： 方法：是类和对象的成员函数：是对象…

阅读更多...

jeecgboot-前端组件封装代码示例

jeecgboot-前端组件封装代码示例

首先我们要知道 jeecgboot他前台的组件代码封装文件夹的位置在src-components中，这时我们其实可以观察他们代码的写法(个人感觉学习代码的最好的途径就是临摹他人高质量的代码、多看、多写)路径如图： 接下来我们会在标注3下实现一个简单的自定义组件代码…

阅读更多...

【Eureka】【源码+图解】【八】Eureka客户端的服务获取

【Eureka】【源码+图解】【八】Eureka客户端的服务获取

【Eureka】【源码图解】【七】Eureka的下线功能目录7. 获取服务7.1 初始化HeartBeat的task7.2 将task进一步包装成定时timerTask7.3 定时时间到，执行timeTask7.4 task获得线程资源，执行refreshRegistry()7.5 服务端接受请求7.6 获取Applications7. 获取…

阅读更多...

推荐文章

最新文章