【数据挖掘】1、综述：背景、数据的特征、数据挖掘的六大应用方向、有趣的案例

news2025/4/28 16:48:31

一、背景

1.1 学习资料

推荐书籍如下：

在这里插入图片描述

Google Scholar：搜学术期刊

开源数据集：UCI Machine Learing Repository

开源 GUI 工具，方便快速上手：WEKA

KDD nuggets: 数据挖掘网站

在这里插入图片描述

数据是最底层的概念，其中有价值的才能称作信息。

大数据有三个特征：

大数据的应用场景：

越来越多公开数据集出现：法律公开（允许自由使用），技术容易获取（易结构化，易清洗）。下面是一些公开数据集网址，可以多多使用。

在这里插入图片描述

政府其实有极多数据，其也会开放很多数据，如下，方便大家做多维数据融合挖掘：

在这里插入图片描述

不同于以往的数据处理，而是针对大量数据，发掘出有趣、有用、隐含的信息。

在这里插入图片描述

数据清洗后变为信息，信息挖掘得到知识，知识通过领域模型得到有用的决策。

在这里插入图片描述

ETL 如下：

在这里插入图片描述

工业界数据挖掘和可视化软件有很多：

在这里插入图片描述

分类任务是通过给定一些训练集，训练后得到分类模型模型，下面几种模型是常用的分类模型：

在这里插入图片描述

分类的本质其实是，得到分界面：

在这里插入图片描述

我们需要的是黑色的线（因为是平滑的），因为绿色的线是过拟合（即死记硬背的模型，并未东西出数据规律）

在这里插入图片描述

数据的训练集和预测集需要不同，才能体现模型的有效性。

在这里插入图片描述

混淆矩阵，是各种模型指标的定义根基：

TP：即数据本身的ActualValue即为 Positive，且其预测得到的 PredictedValue 也 Truely 预测为 Positive，即预测对了。
TN：即数据本身的ActualValue即为 Negative，且其预测得到的 PredictedValue 也 Truely 预测为 Negative，即预测对了。
FP：即数据本身的ActualValue即为 Negative，且其预测得到的 PredictedValue 却 Falsely 预测为 Positive，即预测错了。
FN：即数据本身的ActualValue即为 Positive，且其预测得到的 PredictedValue 也 Falsely 预测为 Negative，即预测错了。

基于这些概念：又衍生了最常用的两个呈反比的指标：例如预测集共 500 个，其中 200 个为 A 类，300 个为 B 类。模型预测出其中 50 个为 A 类（其中预测对的是 30 个）。

P - R 曲线如下：

Precision 和 Recall 二者的「PR曲线呈反比关系」（纵轴为 Precision，横轴为 Recall，每个点位不同的业务阈值。因为二者呈反比关系，故一般选「适中」的业务阈值来使得 P 和 R 可以「兼顾」）：
- 因为模型输出都是介于 0 到 1 的得分，如 0.7，标识有 70%的概率是 A类。
- 而应用层可以定义阈值，若高于阈值则视为「业务视为：输出 A 类」，反之若低于阈值则视为「业务视为：输出非 A 类」。
  - 如果业务把阈值定的很高（例如 0.999）那么输出结果很少但很准确，即「Recall低（漏了很多结果）」而「Precision高（判断很准确，很严格）」。
  - 如果业务把阈值定的很低（例如 0.001）那么输出结果很多但很多误报，即「Recall高（一个结果都没漏）」而「Precision低（判断很不准，都在误报）」。