数据挖掘与机器学习 1. 绪论

news2024/9/20 16:08:31

于高山之巅,方见大河奔涌;于群峰之上,便觉长风浩荡

                                                                      —— 24.3.22

一、数据挖掘和机器学习的定义

1.数据挖掘的狭义定义

背景:大数据时代——知识贫乏

数据挖掘的狭义定义:

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但是又潜在有用的信息或知识的过程

数据源必须是真实的、大量的、含噪声的

发现的是用户感兴趣的知识

发现的知识要可接受、可理解、可运用

并不要求发现放之四海而皆准地知识,仅支持特定的发现问题即可

从知识发现过程来看:可以把数据挖掘视为知识发现过程中的一个基本步骤,也就是数据分析环节

2.⭐Fayyad数据挖掘过程主要包含七个阶段:

①数据清理

②数据集成

③数据选择

④数据变换

⑤数据挖掘

⑥模式评估

⑦知识表示

3.数据挖掘和机器学习的定义

数据挖掘是一种深层次地数据分析方法,需要对涉及到地海量数据进行管理与分析

数据库领域的研究为数据挖掘提供数据管理技术对于利用计算机对历史数据的分析,就是误码通常所说的机器学习

机器学习的定义:

机器学习是利用经验来改善计算机系统自身的性能,机器学习需要:

①通过数据分析建立模型

②利用算法对模型进行优化

③使计算机不断模拟人的学习行为来获取新的知识和技能,不断改善性能从而实现自我完善

机器学习方法构成地三元素

①模型        ②策略        ③算法

可简单表示为:机器学习 = 模型+策略 + 算法

模型是从数据中抽象用来描述客观世界的数学模型

机器学习的根本目的是构建一个模型来描述历史的数据规律,通过这个模型对未来进行预测

策略是选择模型的标准

假设空间往往包括多个模型,策略来确定哪一个模型是最好的

算法是指学习模型的具体计算方法,即在确定寻找最优模型的策略后,机器学习的问题归结于最优化问题,其优化算法是指求解模型参数最优解的算法

4.数据挖掘和机器学习、数据库的关系:

利用数据库提供的技术来管理海量数据,利用机器学习方法来分析挖掘数据背后的知识

数据挖掘注重运用算法或其他某种模式解决实际问题,偏实践和应用

机器学习注重相关机器学习算法的理论研究和算法优化,为数据挖掘提供了理论方法,偏理论和学术

数据挖掘技术是机器学习技术的一个实际应用

广义上来看,同属于知识发现的范畴,只是侧重点不同

相关术语:

①人工智能AI是一个大的领域概念

②机器学习是人工智能的一个重要领域

③统计学主要是利用机器学习来对数据挖掘产生影响

④机器学习和数据库是数据挖掘两大支撑技术

⑤模式识别是机器学习的一个工程应用

⑥机器学习可以从数据中实现系统的构建,而模式识别是对数据中模式和规律性的识别

⑦神经网络是机器学习中一个重要的方法,深度学习就是多层次的神经网络,是神经网络的高级阶段

5.习题

1.

2.

3.

4.

5.

6.

二、机器学习过程及其发展历程

1.机器学习基本过程

①第一步 数据集准备:机器学习是数据贪婪的,数据采集是最基础、最重要的一步,从不同的数据源收集数据,数据集是构建机器学习模型的起点。

②第二步 数据预处理:数据预处理是指对数据进行清洗、归约转换等。通过对数据进行各种检查和校正以纠正缺失值、异常、标准化等问题。通过预处理将数据结构化以便满足模型训练的需要。第一和第二步属于机器学习初级阶段
③第三步模型选择:根据具体任务特定问题的要求,选择合适的模型,根据机器学习模型对于训练数据处理方式的不同,机器学习算法可以大致可分为:监督学习无监督学习强化学习等。

④第四步模型训练:机器学习过程的核心是模型训练通过训练历史经验数据,对选择的模型的参数进行不断优化,最小化模型预测带来的误差。

第三和第四部属于机器学习中级阶段。

⑤第五步模型评估优化:在训练好模型之后,利用在数据预处理中准备好的测试数据集对模型进行测试。对模型评估结束后,还可以通过调参对训练过程进行优化。

⑥第六步应用预测:使用完全训练好的模型在新数据上做预测,这是机器学习过程的最后一步,在此阶段默认该模型已准备就绪,可以用于实际应用。

第五和第六步属于机器学习高级阶段,实现智能的目标。

2.机器学习的发展历程

数据挖掘与机器学习的本质是一样的

区别:

①数据挖掘更接近于数据端

②机器学习更接近于智能端

人工智能发展的三个时期:

3.习题

1.

2.

3.

4.

5.

6.

三、机器学习算法及数据隐私权

1.机器学习算法分类

我们通过系统的反馈方法的不同,将机器学习算法分为:无监督学习、有监督学习、强化学习

数据集的相关定义:

训练集、验证集、测试集

①训练集

训练集也称为样本数据集,是用于训练构造模型的数据集,通过设置模型参数、训练模型、建立机器学习模型

训练集由数据对象组成,每个对象所属类别已知,在构造模型时,需要输入一定数量的训练集,选取的训练集是否合适直接影响到分类器性能的好坏

②验证集

训练集训练出的多个模型对验证集数据进行预测,并记录模型准确率,从而选出效果最佳的模型所对应的参数,也就是说验证集用来调整模型参数。当模型无需人为设定超参数,所有参数都通过学习得到时就不需要验证集

③测试集

用于测试基于训练集构造的模型的性能。在模型产生后,由模型判定测试集对象的所属类别与测试集已知的所属类别进行比较,得出分类器的正确率等一系列评价性能指标。

2.机器学习的三类方法

①无监督学习:

无监督学习也叫无导师学习,实际应用中,在无法预先知道样本标签的情况下,训练数据类别未知,需要根据样本间的相似性对样本集进行划分,使类内的距离最小化类间的距离最大化。无监督学习常见包括聚类、降维关联规则等。

聚类是基于样本间的相似性来对样本进行划分,常见的聚类算法有:

习题

1.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1537208.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OceanPen Art AI绘画系统 运营教程(二)AI视频AI创作PPT

在一个崇高的目标支持下,不停地工作,即使慢,也一定会获得成功。 —— 爱因斯坦 演示站点: ai.oceanpen.art 官方论坛: www.jingyuai.com 登陆后台 ppt密匙设置 导航菜单配置 Key池管理 二、前端显示 体验站点…

Mysql---DML

文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 一.DML概述 DML(Data Manipulation Language)是MySQL中用于操作数据库中数据的语言。DML语句用于插入、更新和删除数据库中的记录,以及查询和修改数据库中的数…

Redisson分布式锁(WatchDog分析,浅浅看下源码)

带大家简单了解下Redisson的看门狗机制,这个面试中也比较常见。 目录 WatchDog(看门狗)机制开启WatchDog(看门狗)浅看下源码 WatchDog(看门狗)机制 Redisson看门狗机制是用于解决在业务运行时间…

WSL2的安装步骤

WSL2(Windows Subsystem for Linux 2)是微软公司开发的一项创新性技术,它在Windows操作系统上提供了一个完整的Linux内核,并允许用户在Windows环境中运行Linux发行版。之前想在Windows上使用Linux系统必须先安装VirtualBox或VMWar…

PTA 抢红包 25分 (JAVA)

题目描述 没有人没抢过红包吧…… 这里给出N个人之间互相发红包、抢红包的记录,请你统计一下他们抢红包的收获。 输入格式: 输出格式: 按照收入金额从高到低的递减顺序输出每个人的编号和收入金额(以元为单位,输出小…

JsonUtility.ToJson 和UnityWebRequest 踩过的坑记录

项目场景: 需求:我在做网络接口链接,使用的unity自带的 UnityWebRequest ,数据传输使用的json,json和自定义数据转化使用的也是unity自带的JsonUtility。使用过程中发现两个bug。 1.安全验证失败。 报错为&#xff1a…

day-24 跳跃游戏 III

思路:dfs方法,从开始节点开始进行深度优先遍历,利用一个数组vis[]记录该位置是否被访问过,如果遍历到一个已经访问的位置,返回false 如果遍历到某位置的值为0,返回true code: class Solution {public boo…

006_【基础篇】springboot整合Mybatis

SpringBoot 整合 Mybatis 只需要两步: 案例: 创建数据库 在 IDEA 提供的插件的内置的数据库图形化界面(其他图形化界面软件也可以,都一样) 中创建以下数据库: create database if not exists mybatis;use mybatis…

类于对象(上)--- 类的定义、访问限定符、计算类和对象的大小、this指针

在本篇中将会介绍一个很重要和很基础的Cpp知识——类和对象。对于类和对象的篇目将会有三篇,本篇是基础篇,将会介绍类的定义、类的访问限定符符和封装、计算类和对象的大小、以及类的 this 指针。目录如下: 目录 1. 关于类 1.1 类的定义 2 类…

Spring Boot项目中使用MyBatis连接达梦数据库6

在开发中,使用Spring Boot框架结合MyBatis来操作数据库是一种常见的做法。本篇博客将介绍如何在Spring Boot项目中配置MyBatis来连接达梦数据库6,并提供一个简单的示例供参考。(达梦六不仅分表还分模式.) 我拿SYSTEM表的LPS模式下面Student表做案例。 1.…

AI系统性学习—LangChain入门

文章目录 1、LangChain入门1.1 简介1.2 架构1.3 核心概念1.2 快速入门1.3 安装 2、LangChain Prompt Template2.1 什么是提示词模版2.1 创建一个提示词模版2.2 聊天消息提示词模版2.3 模版追加示例 3、语言模型3.1 LLM基础模型3.2 LangChain聊天模型3.3 自定义模型3.4 输出解析…

Word文档密码设置:Python设置、更改及移除Word文档密码

给Word文档设置打开密码是常见的Word文档加密方式。为Word文档设置打开密码后,在打开该文档时,需要输入密码才能预览及编辑,为Word文档中的信息提供了有力的安全保障。如果我们需要对大量的Word文档进行加密、解密处理,Python是一…

JavaScript parseInt() 函数

JavaScript parseInt() 函数 从官方理解: parseInt() 函数解析字符串并返回整数。 radix 参数用于指定使用哪种数字系统,例如基数为 16(十六进制)表示字符串中的数字应从十六进制数解析为十进制数。 如果 radix 参数被省略&…

基于迭代正则化的边缘投影轮廓测量修复

文章名称:Inpainting For Fringe Projection Profilometry Based on Iterative Regularization 代码地址: 💡 摘要:本文提出了一种基于迭代正则化技术的新的条纹投影轮廓术(Fringe Projection Profilometry, FPP&…

CrossOver 23 用户可以免费升级到 CrossOver24吗?CrossOver用户如何升级呢?

也就是上个月(2024年2月底)左右,CrossOver 刚刚更新了 24 版本,CrossOver更新的内容有哪些,大家可以参考这篇文章:CrossOver24.0新功能介绍,这篇文章详细介绍了CrossOver24有哪些新特点&#xf…

Harbor高可用(nginx和keepalived)

Harbor高可用(nginx和keepalived) 文章目录 Harbor高可用(nginx和keepalived)1.Harbor高可用集群部署架构1.1 主机初始化1.1.1 设置网卡名和ip地址1.1.2 设置主机名1.1.3 配置镜像源1.1.4 关闭防火墙1.1.5 禁用SELinux1.1.6 设置时…

软考90-上午题-【操作系统】-死锁

一、同类资源分配不当引起死锁 系统中有m个资源&#xff0c;被n个进程共享&#xff0c;每个进程都要求k个资源。 当m < n*k时&#xff0c;即&#xff1a;资源数<进程所要求的总数时&#xff0c;可能会引起死锁。&#xff08;但是不一定&#xff01;&#xff09; 例如&…

初识数据库|数据库的特点、分类以及作用

数据库系统&#xff08;DateBase System&#xff0c;简称DBS&#xff09;是指在计算机系统中引入数据库后的系统构成&#xff0c;由计算机硬件&#xff0c;操作系统&#xff0c;DBMS&#xff0c;DB&#xff0c;应用程序和用户以及数据库开发和管理人员等组成。 &#xff08;一…

RK3568 安装Miniconda3

下载链接:https://download.csdn.net/download/smile_5me/89012477?spm=1001.2014.3001.5503 需要RK3568运行Ubuntu,之前的文章有关于如何安装Ubuntu以及遇到的问题 1、 拷贝 Miniconda3-latest-Linux-aarch64.sh 到开发板 2、运行安装 Miniconda3-latest-Linux-aarch64.…

Maven 环境一键部署

文章目录 一、场景说明二、脚本职责三、参数说明四、操作示例五、注意事项 一、场景说明 本自动化脚本旨在为提高研发、测试、运维快速部署应用环境而编写。 脚本遵循拿来即用的原则快速完成 CentOS 系统各应用环境部署工作。 统一研发、测试、生产环境的部署模式、部署结构、…