【数据挖掘】1、综述:背景、数据的特征、数据挖掘的六大应用方向、有趣的案例

news2025/1/12 8:56:30

目录

  • 一、背景
    • 1.1 学习资料
    • 1.2 数据的特征
    • 1.3 数据挖掘的应用案例
    • 1.4 获取数据集
    • 1.5 数据挖掘的定义
  • 二、分类
  • 三、聚类
  • 四、关联分析
  • 五、回归
  • 六、可视化
  • 七、数据预处理
  • 八、有趣的案例
    • 8.1 隐私保护
    • 8.2 云计算的弹性资源
    • 8.3 并行计算
  • 九、总结

一、背景

1.1 学习资料

推荐书籍如下:

在这里插入图片描述

Google Scholar:搜学术期刊

开源数据集:UCI Machine Learing Repository

开源 GUI 工具,方便快速上手:WEKA

KDD nuggets: 数据挖掘网站

在这里插入图片描述

1.2 数据的特征

数据是最底层的概念,其中有价值的才能称作信息。

大数据有三个特征:

  • Volumn:容量够大,TB 变为 ZB 等。
  • Variety:多样:从结构化的二维 excel 表格,到非结构化的文字、声音、图像、视频等待加工的数据。
  • Velocity:速度:从静态数据集,到动态高 QPS 的流式数据处理,对算法有很高要求。
    在这里插入图片描述

1.3 数据挖掘的应用案例

大数据的应用场景:

  • 安防预测:预测疑犯行为,提前防火,而不是事后疲于救火。
    在这里插入图片描述
  • 对症下药:
    在这里插入图片描述
  • APP 地理位置可视化:
    在这里插入图片描述
  • 商店购物:区域热力图、人员轨迹、停留时间 =》 精准营销(推荐商品)
    在这里插入图片描述
  • 情感分析:文字识别,分析情感
    在这里插入图片描述
  • 体育数据分析:2000 年左右国外真实案例,小牌球队,利用数据挖掘分析各球员的特点,组织球队布阵,取得商业成功,也将此真实故事拍成了电影《点球成金》。
    在这里插入图片描述
  • 美女挖掘:通过非诚勿扰各女嘉宾的信息(包括身高、面部关键点度量、家庭背景、对心动男生的期待等),挖掘大众心中的心动女生有何特征。
    在这里插入图片描述

1.4 获取数据集

越来越多公开数据集出现:法律公开(允许自由使用),技术容易获取(易结构化,易清洗)。下面是一些公开数据集网址,可以多多使用。

在这里插入图片描述

政府其实有极多数据,其也会开放很多数据,如下,方便大家做多维数据融合挖掘:

在这里插入图片描述

1.5 数据挖掘的定义

不同于以往的数据处理,而是针对大量数据,发掘出有趣、有用、隐含的信息。

在这里插入图片描述

数据清洗后变为信息,信息挖掘得到知识,知识通过领域模型得到有用的决策。

在这里插入图片描述

ETL 如下:

在这里插入图片描述

工业界数据挖掘和可视化软件有很多:

在这里插入图片描述

二、分类

分类任务是通过给定一些训练集,训练后得到分类模型模型,下面几种模型是常用的分类模型:

  • 决策树
  • K 近临
  • 神经网络
  • SVM

在这里插入图片描述

分类的本质其实是,得到分界面:

在这里插入图片描述

我们需要的是黑色的线(因为是平滑的),因为绿色的线是过拟合(即死记硬背的模型,并未东西出数据规律)

在这里插入图片描述

数据的训练集和预测集需要不同,才能体现模型的有效性。

在这里插入图片描述

混淆矩阵,是各种模型指标的定义根基:

  • TP:即数据本身的ActualValue即为 Positive,且其预测得到的 PredictedValue 也 Truely 预测为 Positive,即预测对了。
  • TN:即数据本身的ActualValue即为 Negative,且其预测得到的 PredictedValue 也 Truely 预测为 Negative,即预测对了。
  • FP:即数据本身的ActualValue即为 Negative,且其预测得到的 PredictedValue 却 Falsely 预测为 Positive,即预测错了。
  • FN:即数据本身的ActualValue即为 Positive,且其预测得到的 PredictedValue 也 Falsely 预测为 Negative,即预测错了。

基于这些概念:又衍生了最常用的两个呈反比的指标:例如预测集共 500 个,其中 200 个为 A 类,300 个为 B 类。模型预测出其中 50 个为 A 类(其中预测对的是 30 个)。

  • Precision准确率:模型真正预测对的数量 / 「模型预测」「出的」数量。即 30 / 50。
  • Recall查全率: 模型真正预测对的数量 / 「总预测集」的「对的」数量。即 30 / 200。
    在这里插入图片描述

P - R 曲线如下:

  • Precision 和 Recall 二者的「PR曲线呈反比关系」(纵轴为 Precision,横轴为 Recall,每个点位不同的业务阈值。因为二者呈反比关系,故一般选「适中」的业务阈值来使得 P 和 R 可以「兼顾」):
    • 因为模型输出都是介于 0 到 1 的得分,如 0.7,标识有 70%的概率是 A类。
    • 而应用层可以定义阈值,若高于阈值则视为「业务视为:输出 A 类」,反之若低于阈值则视为「业务视为:输出非 A 类」。
      • 如果业务把阈值定的很高(例如 0.999)那么输出结果很少但很准确, 即「Recall低(漏了很多结果)」而「Precision高(判断很准确,很严格)」。
      • 如果业务把阈值定的很低(例如 0.001)那么输出结果很多但很多误报,即「Recall高(一个结果都没漏)」而「Precision低(判断很不准,都在误报)」。
        在这里插入图片描述

三、聚类

聚类不同于分类(并没有「事先人为定义的标签」,而是根据各点之间的「距离」度量的),其只是将一批数据集聚为不同的堆。

在这里插入图片描述

聚类分为平铺聚类和层次型聚类,如下图:

  • 比如:都是中国人类,但又细分为南方人+北方人、其中北方人又分为东北、中原、西北人等。
    在这里插入图片描述

四、关联分析

商店购买记录,分析各商品的关联性。

在这里插入图片描述

在这里插入图片描述

五、回归

线性回归:其实可以拟合出线性方程、二元方程、多项式方程等。其「线性」二字的含义是参数和自变量之间是线性关系(即下图中的 beta 和 x)

在这里插入图片描述

回归同样存在过拟合问题(下图一是欠拟合太简单了,下图三是过拟合死记硬背所有训练数据不具备扩展性,下图二是适中的也是最好的模型):

在这里插入图片描述

六、可视化

通过所见即所得,充分展示出数据,更容易发挥人的分析能力:拿到数据后,先做可视化大概估计数据分布,再确定详细挖掘算法。

同样数据挖掘后,再把结果可视化,让人为评判效果。来确定下一步挖掘方向。

在这里插入图片描述

可视化需要以受众易理解的语言、图表形式(如右下图的驾驶舱)进行:

在这里插入图片描述

有很多图表,可以酷炫地展示结果,让人更易理解挖掘的价值。

在这里插入图片描述

七、数据预处理

我们拿到的通常是脏数据:其可能缺失(如未填写年龄)或错误(如年龄填写为负数),因此需要清洗

在这里插入图片描述

数据清洗通常很累,但缺必不可少的地基工作:

在这里插入图片描述

八、有趣的案例

8.1 隐私保护

1990 年互联网兴起时,隐私性很好,你并不知道互联网对面是谁在操作键盘。

但现在 21 世纪,隐私性已经完全没有了,所有的时间、空间、身份、行为习惯均被记录并分析。

在这里插入图片描述

基于隐私保护的数据挖掘,是目前很新兴的研究领域:即收集数据、又保护用户隐私。

在这里插入图片描述

下图即为有隐私保护的数据挖掘,让挖掘者并不知道个体的数据,但可以获得宏观的数据,且保证获得的数据是真实的:

在这里插入图片描述

8.2 云计算的弹性资源

根据客户的实际需求,动态扩缩容资源。

在这里插入图片描述

8.3 并行计算

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Nvidia 的 TK1 尺寸很小,但计算性能是家用电脑的 10 倍以上。

在这里插入图片描述

在这里插入图片描述

九、总结

数据挖掘的必备元素:数据、算法、算力

在这里插入图片描述

没有银弹算法、没有银弹参数:通常先用简单算法验证效果(降低心智负担),后期再用复杂算法优化。

在这里插入图片描述

不能总是宏观看待问题,也要结合微观,才能详细挖掘数据规律:

在这里插入图片描述

两条曲线有关系,但不一定有因果关系:

在这里插入图片描述

避免幸存者偏差,来误解数据:

在这里插入图片描述

避免片面理解数据,避免以偏概全:

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/372809.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言刷题(3)——“C”

各位CSDN的uu们你们好呀,今天小雅兰的内容还是做几道题噢,好好复习一下之前的知识点,现在,就让我们开始复习吧 牛客网在线编程_编程学习|练习题_数据结构|系统设计题库 倒置字符串_牛客题霸_牛客网 BC40 竞选社长 BC41 你是天才…

vitepress 就这几步操作,博客就搭好啦?

Ⅰ、什么是vitepress 💎 vitepress 使用场景 简单的说 ,只要 会用 markdown 语法,就能构建自己的 「博客、笔记、使用文档」等系统 ; ✨ vitepress 优势 优势介绍傻瓜式操作只需要配置 菜单 和 对应的 markdown 就能实现博客、笔…

OKR 与 KPI有何异同?各部门OKR实例【小bu】

OKR 与 KPI,如何本土化是关键 近期公司计划对去年实施的绩效考核方案进行优化,公司以往采用 KPI 绩效考核方式,产生了一些争议。一方面,执行期间部分部门一度忽略指标设置的真实目的,导致出现短视思维和行为&#xff1…

Vision Transformer学习了什么-WHAT DO VISION TRANSFORMERS LEARN? A VISUAL EXPLORATION

WHAT DO VISION TRANSFORMERS LEARN? A VISUAL EXPLORATION 文章地址 代码地址 摘要 视觉转换器( Vision Transformers,ViTs )正在迅速成为计算机视觉的事实上的架构,但我们对它们为什么工作和学习什么知之甚少。虽然现有研究对卷积神经网络的机制进…

LabVIEW控制DO通道输出一个精确定时的数字波形

LabVIEW控制DO通道输出一个精确定时的数字波形如何使用数据采集板卡的DO通道输出一个精确定时的数字波形?解答:产生一个数字波形首先需要创建一个布尔数组,把波形序列信息放到该布尔数组中,然后通过一个布尔数组至数字转换vi来产生数字波形。…

【C++】仿函数、lambda表达式、包装器

1.仿函数 仿函数是什么?仿函数就是类中的成员函数,这个成员函数可以让对象模仿函数调用的行为。 函数调用的行为:函数名(函数参数)C中可以让类实现:函数名(函数参数)调用函数 自己写一个仿函数: 重载()运算符 cla…

chatgpt的原理 第四部分

五、ChatGPT 终于说到了主角,能看到这里的,可以关注一下 JioNLP 公众号吗?我写的也够累的。 ChatGPT 模型上基本上和之前 GPT-3 都没有太大变化,主要变化的是训练策略变了,用上了强化学习。 强化学习 几年前&#xf…

【Linux驱动开发100问】如何编译Linux内核?

🥇今日学习目标:如何编译Linux内核? 🤵‍♂️ 创作者:JamesBin ⏰预计时间:10分钟 🎉个人主页:嵌入式悦翔园个人主页 🍁专栏介绍:Linux驱动开发100问 如何编译…

【论文笔记】Deep 3D-to-2D Watermarking == Google ==CVPR‘2022

Deep 3D-to-2D Watermarking: Embedding Messages in 3D Meshes and Extracting Them from 2D Renderings 本文工作:提出了一个端到端的框架来从2D渲染图像中提取水印信息,且对 不同光照和相机位姿 的渲染结果具有鲁棒性。 1.1 本文工作概述 核心贡献&…

metaRTC新增纯C版JSON支持

概述 JSON 是轻量级的文本数据交换格式,它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。 简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 metaRTC新版本新增了纯C版的JSON支…

操作系统权限提升(十五)之绕过UAC提权-基于白名单DLL劫持绕过UAC提权

系列文章 操作系统权限提升(十二)之绕过UAC提权-Windows UAC概述 操作系统权限提升(十三)之绕过UAC提权-MSF和CS绕过UAC提权 操作系统权限提升(十四)之绕过UAC提权-基于白名单AutoElevate绕过UAC提权 注:阅读本编文章前,请先阅读系列文章,以…

pytorch学习日记之图片的简单卷积、池化

导入图片并转化为张量 import torch import torch.nn as nn import matplotlib.pyplot as plt import numpy as np from PIL import Image mymi Image.open("pic/123.png") # 读取图像转化为灰度图片转化为numpy数组 myimgray np.array(mymi.convert("L"…

GNURadio RTL-SDR之FM接收

环境配置与准备: PC操作系统: Windows10 64位系统。RTL-SDR: 包括射频主板和天线。Radioconda:GNURadio windows方案之一,安装radioconda-2023.02.24-Windows-x86_64,官方下载和操作指导: InstallingGR - GNU Radioht…

spring框架--全面详解(学习笔记)

目录 1.Spring是什么 2.Spring 框架特点 3.Spring体系结构 4.Spring开发环境搭建 5.spring中IOC和DI 6.Spring中bean的生命周期 7.Spring Bean作用域 8.spring注解开发 9.Spring框架中AOP(Aspect Oriented Programming) 10.AOP 实现分类 11.A…

并发编程之死锁问题介绍

一、本文概览 死锁问题在并发编程中是一个非常致命的问题,问题一旦产生,只能通过重启机器、修改代码来修复问题,下面我们通过一小段文章内容介绍下死锁以及如何死锁的预防 二、什么是死锁? 在介绍死锁之前,先来明确下什…

对象分配策略

对象创建后,究竟何去何从,对象在堆中又会经历哪些过程,本篇就会详细解释对象创建后直到对象被回收的整个过程。之前博主已经写过Minor GC、Major GC、Full GC的区别,而本篇也主要根据这几个GC开展。 对象回收过程流程如下图所示: 正常的对象生存过程&a…

NetSuite Saved Search中When Ordered By Field 与 Keep Dense_Rank辨析

今朝的题目是一个隐藏的宝藏话题,Saved Search中我们极少用的一个功能--When Ordered By Field和Keep Dense_Rank。 假如你碰到一个需求,要求是:“在销售历史中按照客户别,取最早交易日期的销售金额,以识别VIP客户”。…

QML Animation动画详解

1.Animation简介 Animation类型提供了四个属性: alwaysRunToEnd:该属性接收布尔类型的参数。该属性保存动画是否运行到完成才停止。当loops属性被设置时,这个属性是最有用的,因为动画将正常播放结束,但不会重新启动。…

PMP值得考吗?

第一,PMP的价值体现 1、PMP是管理岗位必考证书。 多数企业会选择优先录用持PMP证书的管理人才,PMP成为管理岗位的必考证书。PMP在很多外企和国内中大型企业非常受重视,中石油、中海油、华为等等都会给内部员工做培训。 这些机构对项目管理…

超简单 华为OD机试用Python实现 -【无向图染色问题 or 红黑图】(2023-Q1 新题)

华为OD机试题 华为OD机试300题大纲无向图染色问题 or 红黑图题目描述输入描述输出描述说明示例一输入输出示例二输入输出Python 代码实现华为OD机试300题大纲 参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,通过率才会高。 华为 OD 清单查看地址:blog…