数据挖掘(1)--基础知识学习

news2024/9/24 6:30:52

前言

自20世纪90年代以来,随着数据库技术应用的普及,数据挖掘( Data Mining )技术已经引起了学术界、产业界的极大关注,其主要原因是当前各个单位已经存储了超大规模,即海量规模的数据,未来能够真正发挥这些数据的实际价值。由于数据分析和管理工作的应用需要,需将这些数据转换成有用的信息和知识,即从传统的数据统计向数据挖掘与分析进行转换。另外,通过数据挖掘技术获取的信息和知识还可以广泛应用于各个行业领域,包括市场开拓与分析、商务管理、生产控制、工程设计和科学探索等方面。(摘自《数据挖掘:方法与应用》徐华)

正文

1.数据挖掘的历史和发展

a.基本描述

数据挖掘(DataMining,DM)又称数据库中的知识发现(Know ledge Discover in Database, KDD)是涉及机器学习、人工智能、数据库理论以及统计学等学科的交叉研究领域。
数据挖掘就是从数据库的大量数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。

并非所有与数据库相关的操作与分析都属于数据挖掘研究的范畴。

数据挖掘(Data Mining,DM)是知识发现(KDD)最核心的部分。
数据挖掘数学理论基础的发展,与统计学的发展密不可分。

b.典型的知识发现过程 

 c.典型的数据挖掘系统结构

 

d. 数据挖掘中还存在许多问题有待进一步研究

数据挖掘中还存在许多问题有待进一步研究,包括下列几个研究方向:
①算法效率和可伸缩性
②处理不同类型的数据和数据源
③数据挖掘系统的交互性
④数据挖掘中的信息保护与数据安全
⑤探索新的应用领域
⑥数据挖掘结果的可用性、确定性及可表达性
⑦可视化数据挖掘

3.数据挖掘的研究内容和功能 

a.研究内容 

数据挖掘所发现的知识最常见的有以下五类:
①广义知识(General ization)
广义知识指类别特征的概括性描述知识,反映同类事物共同性质,
它是对数据的概括、精炼和抽象
②关联知识(Assoc iati on)
关联知识反映一个事件和其他事件之间依赖或关联的知识,又称依
赖(Dependency) 关系
③分类知识(Classif icat ion &Cluster ing)
分类知识用来反映同类事物共同性质的特征型知识和不同事物之间
的差异型特征知识
④预测型知识(Predi ct ion)
预测型知识根据时间序列型数据,由历史的和当前的数据去推测未
来的数据,也可以认为是以时间为关键属性的关联知识
⑤偏差型知识(Devi at ion)
偏差型知识是对差异和极端特例的描述,揭示事物偏离常规的异常
现象,如标准类外的特例,数据聚类外的离群值等 

b.数据挖掘的主要功能

1.类/概念描述:特征化和区分
对含有大量数据的数据集合进行描述性的总结并获得简明、准确的描述,这种描述就称为类/概念描述(Class/ConceptDescr iption)。。
这种描述可以通过下述方法得到:
(1)数据特征化
(2)数据区分
(3)数据特征化和比辑

2.关联分析
关联分析(Association Analysis) 就是从给定的数据集中发现频繁出现的项集模式知识,又称为关联规则age(X,“20..29”)^income(X,“20..29K") >buys(X,“PC”)[support = 2%, confidence = 60%]

3.分类和预测

数据挖掘相关的研究工作中常常还力图构建一个模型或者描述函数来刻画或者区分不同的类型与概念,以实现对于未来潜在的预测需求。例如在实际工作中,往往会根据气候的类型来对相关国家进行分类,分为热带国家、温带国家和寒带国家。实际生活中,会根据小汽车的排量对小汽车进行分类。分为小排量汽车、大排量汽车等类型。在实际应用数据挖掘技术解决相关问题的过程中,常常会采用分类技术与方法解决对未知的结果或者未知量化特征的预测。

4.聚类分析
聚类分析(无论是在学习还是在归类预测时)所分析处理的数据均是无(事先确定)类别归属的。
聚类原则:

最大化类内的相似性

最小化类间的相似性 

5.孤立点分析
大部分数据挖掘方法将孤立点视为噪声或异常而丢弃,但是孤立点可以使用统计试验检测。 

6.演变分析
数据演变分析(Evolution Analysis) 就是对随时间变化的数据对象的变化规律和趋势进行建模描述。 

4.数据挖掘常用的技术和工具

a.数据挖掘常用的技术

预测技术、聚类分析、进化计算、模糊逻辑、对策树、统计分析、决策与控制理论、并行计算海童存储、关联规则技术、粗糙集技术、灰色系统、人工智能、知识推理、可视化技术

b.数据挖掘的十大经典算法

1.决策树分类器C4.5(分类算法)

2.K-均值算法(聚类算法)

3.支持向量机(分类算法)

4.Apriori算法(频繁模式分析算法)

5.最大期望估计算法(集成弱分类器)

6.PageRank算法(排序算法)

7.AdaBoost算法(集成弱分类器)

8.K最近邻分类算法(分类算法)

9.朴素贝叶斯算法(分类算法)

10.分类与回归树算法(聚类算法)


C4.5 (61 votes)
K-Means (60 votes)
SVM (58 votes)
Apriori (52 votes)
EM (48 votes)
PageRank (46 votes)
AdaBoost (45 votes)
kNN (45 votes)
Naive Bayes (45 votes)
CART (34 votes)

c.数据挖掘的工具

1、基于神经网络的工具
神经网络用于分类、特征挖掘、预测和模式识别。
2、基于规则和决策树的工具
其主要优点是:规则和决策树都是可读的。
3、基于模糊逻辑的工具
该方法应用模糊逻辑进行数据查询、排序等。
4、综合多方法的工具
这类工具一般规模较大,适用于大型数据库(包括并行数据库)

5.数据挖掘应用热点

数据挖掘技术源于商业的直接需求,并在各种领域都有广泛的使用价值。
1.金融领域的应用
2.网络金融交易方面
3.零售业务应用
4.医疗电信领域应用

6.数据挖掘面对的主要问题

a.挖掘方法所面临的问题

(1)在实际使用数据挖掘方法发现知识时,通常会希望所采用的挖掘方法能够实现从不同类型的数据中挖掘不同种类的知识。

(2)  数据挖掘的对象往往是大规模海量数据,挖掘算法的性能也是数据挖掘过程中常常引起关注的重要问题之一。

(3)描述性数据挖掘任务中需要对所分析的频繁模式或者规律进行相应的模式评估

(4)数据挖掘工作服务的对象往往是具有不同专业背景的用户。在挖掘方法中如何融合相关的背景知识使挖掘工作更有针对性,也是挖掘方法研究的一个重要问题。

(5)在挖掘方法的使用过程中,往往被挖掘对象都是带有噪声和不完全的数据。

(6)近年来,随着并行计算技术的成熟和云计算技术平台的构建,未来对于海量数据的挖掘方法往往要求能够具有并行化、分布式和增量性的特点。

(7)挖掘算法要能够主动集成所发现的知识,即实现知识的融合。

b.用户交互性的问题

(1)在用户交互性问题上,需要提出一种面向数据挖掘的查询语言以实现即时数据挖掘。(2)需要针对用户的数据挖掘结果的表示和可视化呈现技术,以一种直观方式呈现挖掘的结果。即开展面向数据挖掘技术的计算可视化方法研究。

(3)用户往往需要在多个抽象层次实现交互式挖掘,即要求整个数据挖掘过程具有可交互性。

c.应用与社会影响

(1)在应用方面。迫切需要开展面向领域的数据挖掘,并实现常人无法感知和不可见的数据挖掘。(2)在数据挖掘的应用过程中还需要加强对于数据安全性、完整性和隐私性的保护。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/376745.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【设计模式】5.原型模式

概述 用一个已经创建的实例作为原型,通过复制该原型对象来创建一个和原型对象相同的新对象。 结构 原型模式包含如下角色: 抽象原型类:规定了具体原型对象必须实现的的 clone() 方法。具体原型类:实现抽象原型类的 clone() 方…

【IP技术】ipv4和ipv6是什么?

IPv4和IPv6是两种互联网协议,用于在互联网上标识和寻址设备。IPv4(Internet Protocol version 4)是互联网协议的第四个版本,是当前广泛使用的互联网协议。IPv4地址由32位二进制数构成,通常表示为4个十进制数&#xff0…

使用python测试框架完成自动化测试并生成报告-实例练习

练习一: 使用unittest 完成自动化测试并使用HttpTestRunner生成报告 1、写个简单的计算器功能,大小写转换功能,随机生成字符串功能 2、编写测试用例,不同的数据(你能想到的所有测试用例),并进行断言。除0的…

GitHub 标星 15w,如何用 Python 实现所有算法?

学会了 Python 基础知识,想进阶一下,那就来点算法吧!毕竟编程语言只是工具,结构算法才是灵魂。 新手如何入门 Python 算法? 几位印度小哥在 GitHub 上建了一个各种 Python 算法的新手入门大全。从原理到代码&#xf…

蒸汽波风格图不会画?AI作画帮你秒级出图

在最近几年,AI图像生成技术在视觉艺术领域得到了广泛应用,可以通过数据和机器学习技术来创作出非常有趣的艺术品。今天我就带来的图片风格是:蒸汽波混搭二次元。 蒸汽波混搭二次元图像的创作,大都是以现有的二次元图像作为基础&a…

配置CentOS 7

1:配置CentOS71.1:安装需注意如果出现类似提示,勾选复选框,并点击确定。1.2:选择安装项选择开始安装后,需等待….1.3:选择语言1.4:安装信息摘要大部分采用默认项设置自动分区网络设置…

筑基八层 —— 问题思考分析并解决

目录 零:移步 一.修炼必备 二.问题思考(先思考) 三.问题解答 零:移步 CSDN由于我的排版不怎么好看,我的有道云笔记相当的美观,请移步有道云笔记 一.修炼必备 1.入门必备:VS2019社区版&#x…

华为OD机试模拟题 用 C++ 实现 - 双十一(2023.Q1)

最近更新的博客 【华为OD机试模拟题】用 C++ 实现 - 最多获得的短信条数(2023.Q1)) 文章目录 最近更新的博客使用说明双十一题目输入输出示例一输入输出示例二输入输出Code使用说明 参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,通过率才会高。 …

Linux系统基础命令(一)

一、图形界面和终端界面 图形界面:是指采用图形方式显示的计算机操作用户界面。 终端界面:是指黑底白字的命令行界面。 什么是tty呢? tty:终端设备的统称。 tty一词源于Teletypes,或者teletypewriters,…

高精度真空度程序控制在真空解冻过程中的应用

摘要:为了解决目前各种真空冷冻过程中存在的真空压力还是人工手动调节,无法进行可编程准确自动控制的问题,本文提出了具体解决方案。解决方案的基本原理是根据动态平衡法,具体实现是依据不同的真空压力设定值分别采用电动针阀调节…

WebRTC入门与提高-WebRTC原理(STUN/TURN/SDP)

1 WebRTC入门本章目的:(1)了解什么WebRTC(2)掌握WebRTC通话原理(3)学完该课程的收获1.1 什么是WebRTCWebRTC(Web Real-Time Communication)是 Google于2010以6829万美元从…

华为OD机试模拟题 用 C++ 实现 - 旋转骰子(2023.Q1)

最近更新的博客 【华为OD机试模拟题】用 C++ 实现 - 最多获得的短信条数(2023.Q1)) 文章目录 最近更新的博客使用说明旋转骰子题目输入输出示例一输入输出示例二输入输出Code使用说明 参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,通过率才会高。…

C++ Primer Plus 第6版 读书笔记(3) 第3章 处理数据

目录 3.1 简单变量 3.1.1 变量名 *位与字节 3.1.4 无符号类型 3.1.7 C如何确定常量的类型 C是在 C 语言基础上开发的一种集面向对象编程、泛型编程和过程化编程于一体的编程语言,是C语言的超集。本书是根据2003年的ISO/ANSI C标准编写的,通过大量短…

linux基本功系列之free命令实战

文章目录前言一. free命令介绍二. 语法格式及常用选项三. 参考案例3.1 查看free相关的信息3.2 以MB的形式显示内存的使用情况3.3 以总和的形式显示内存的使用情况3.4 周期性的查询内存的使用情况3.5 以更人性化的形式来查看内存的结果输出总结前言 大家好,又见面了…

音视频开发 RTMP协议发送H.264编码及AAC编码的音视频(C++实现)

RTMP(Real Time Messaging Protocol)是专门用来传输音视频数据的流媒体协议,最初由Macromedia 公司创建,后来归Adobe公司所有,是一种私有协议,主要用来联系Flash Player和RtmpServer,如FMS,Red5…

华为OD机试题,用 Java 解【出租车计费】问题

最近更新的博客 华为OD机试题,用 Java 解【停车场车辆统计】问题华为OD机试题,用 Java 解【字符串变换最小字符串】问题华为OD机试题,用 Java 解【计算最大乘积】问题华为OD机试题,用 Java 解【DNA 序列】问题华为OD机试 - 组成最大数(Java) | 机试题算法思路 【2023】使…

粘性定位解析

粘性定位可认为是相对定位和固定定位的结合,元素在跨越特定阈值前表现为相对定位,之后表现为固定定位。粘性定位的元素依赖于用户的滚动,在 relative 与 fixed 定位之间切换。 须指定 top、right、bottom 、left 四个阈值其中之一&#xff0c…

【java】Java线程池实现原理及业务中的实践

文章目录一、写在前面1.1 线程池是什么1.2 线程池解决的问题是什么二、线程池核心设计与实现2.1 总体设计2.2 生命周期管理2.3 任务执行机制2.3.1 任务调度2.3.2 任务缓冲2.3.3 任务申请2.3.4 任务拒绝2.4 Worker线程管理2.4.1 Worker线程2.4.2 Worker线程增加2.4.3 Worker线程…

IBEA论文解读

这篇文章讨论了决策者的偏好信息通常是如何能整合到多目标搜索中的。 主要的思想是:首先是用二元性能指标的形式定义最优目标,然后在选择过程中直接使用这个指标 如何根据任意的偏好信息设计MOEAs? 当x1支配x2时,指标值就变为负值…

华为OD机试题,用 Java 解【最多等和不相交连续子序列】问题

最近更新的博客 华为OD机试题,用 Java 解【停车场车辆统计】问题华为OD机试题,用 Java 解【字符串变换最小字符串】问题华为OD机试题,用 Java 解【计算最大乘积】问题华为OD机试题,用 Java 解【DNA 序列】问题华为OD机试 - 组成最大数(Java) | 机试题算法思路 【2023】使…