数据仓库与数据挖掘小结

news2024/11/27 12:48:52

更加详细的只找得到pdf版本 

填空10分
判断并改错10分
计算8分
综合20分

客观题

填空10分
判断并改错10分--错的要改

mooc中的--尤其考试题

 

名词解释12分

4个,每个3分

经常碰到的专业术语

简答题40分

5个,每道8分

综合

roc曲线

类似于和计算相关的题目

C1

什么是数据挖掘?概念是什么?

哪些操作属于数据挖掘操作,哪些操作不属于
数据:海量、多源异构

操作:从大量的数据中提取出有趣的(重要、隐含、以前未知、潜在有用)模式或知识。

数据分析与数据挖掘有区别
数据挖掘AKA知识发现KDD

数据挖掘的流程

在数据管理的视角下,数据挖掘的流程是什么?有哪些环节?一定要注意是一个迭代反馈的过程
 

数据集成

不同数据源中描述同一条数据对象《变成一个比较统一的数据信息

数据清理

错误、异常、冗余、缺失

进入数据仓库

按主题存储数据

选择、变换

把数据仓库中的数据变成与数据挖掘任务相关的数据集
选择:选择相关数据、属性特征
变换:格式可能不满足算法要求、数据量纲;特征转换--相乘相除etc…

得到和任务相关的数据集,可供我们使用算法

数据挖掘

设计或选择合适的模型,用于任务相关的数据上,得到模式

知识评估

若不满足,考虑到之前所有步骤--哪个或哪几个步骤不合适


反复试验的过程

数据挖掘的任务

分类回归

利用历史记录预测未来的值--预测问题

聚类

相关性分析与关联分析-关联规则挖掘

异常检测

预测性任务

描述性任务

关联规则挖掘-物品之间共线关系

C2

数据集的主要特征

维度、分辨率、稀疏性

识别数据属性值中的异常的方法

画图【箱线图】、统计的3σ原则

标称【标称属性中的二分属性->对称二分与不对称二分】、序数、数值,如何计算这些数据类型的相似度?如果数据的属性是混合类型的数据类型的相似度怎么计算?【核心

数据对象的相似性度量问题【两个行的相似性】【属性之间的相似性是两个列】

相似性和相异性此涨彼消

标称

p为属性个数,m是两个对象属性取值相等的个数,p-m两个对象取值不相等的个数

二分
需要四个指标
 

非对称:
取0的可能性更高:尽管差异性很大但是因为取0概率高导致差异性不准
 

序数

取值转换为数值类型--把级别从低到高排序;
取值按公式转换
 

数值

用距离衡量
 

常用距离

闵氏距离

曼哈顿距离-出租车距离-沿着街道走走折线--高维
 

上确界距离

文档

余弦相似度
 

混合类型

f:每个属性
dij(f):在f属性上的相异度
前面为权重

属性之间的相关性

单相关和复相关

正相关和负相关

线性相关和非线性相关

不相关、完全相关、不完全相关

画散点图
相关系数

线性:

协方差

皮尔森相关系数

等级

最大信息系数MIC:用于度量高维数据中属性变量之间强相关性
 

属性和属性间的计算属于相关性分析--方法

C3

数据预处理主要包括哪些步骤?

数据清理、数据集成、数据转换、数据约减
 

简述数据清理的主要任务、常用方法、流程

处理缺失数据、平滑噪声、识别或移除异常(属性值的异常)、解决数据不一致的问题…
 

常用方法
 

缺失值

删除;
插补
 

异常值

噪音

不一致

实体识别技术

流程
 

流程:

右侧是数据清理的过程,首先import data导入数据,集中相关数据,处理缺失值,标准化【max-min这种,目标是统一特征维度的量纲】、规范化【变换后吻合一个分布zscore】,重复性检测、修正错误与丰富,导出

常用离散化方法有哪些?【看下游任务】

无监督

分箱

直方图

聚类(k-means)

有监督--类标签指导下

基于熵的方法

不断离散化

如何识别冗余属性?

通过相关性分析发现冗余属性
 

数值属性:相关系数、协方差
标称类型:卡方检验
 

常用的约减方法--前三个对数据量压缩,PCA是无监督的降维

回归

聚类

抽样

PCA

数据量的压缩

有参

回归

只保留参数wb,想生成数据集的时候直接在x上随机采样生成y值

无参

聚类

对每个簇抽样

抽样

有放回、无放回、分层

维度压缩

无监督pca

把原始的属性描述的特征空间映射为正交矩阵空间,尽可能多的保留原始数据信息
消除冗余--维度彼此独立
pca通过做正交矩阵分解,得到主成分,选前k个重要特征作为新的空间中的特征,把所有数据对象由前k个特征的线性组合表示

属性子集选择

Method1:删除冗余属性、删除不重要的…得到子集
Method2:添加最重要的、次重要的…得到子集
 

Vs

属性选择得到的特征有具体含义,PCA没有【黑箱】-可能可以得到非常好的特征提取但是可解释性差


 

olap

数仓的基本架构

简述数仓的数据模型及各模型特点

数据仓库与数据库的区别

关联规则挖掘

方法与评估指标
 

 两阶段

频繁项集的产生--关联规则的产生

频繁项集的实现

用了性质缩小频繁项集的空间

关联规则挖掘的内容

评估指标--常用支持度和置信度,并不一定是一个有意义的关联规则,

提升度

聚类

聚类和分类的区别

kmeans和DBSCAN的原理和流程和优缺点特点,对kmeans的缺点有哪些办法可以解决

k值需要确定

设置不同k值求sse,考虑拐点附近的k值

初始聚类中心的选择

第一个随机选,下一个选离当前选择的最远的

对噪声点和异常敏感【因为均值敏感】

使用k-medoids用真实数据对象作为中心-复杂度高-由簇中的数据对象替代;用k中位数

球形簇【基于距离】

空簇

选sse贡献最大的点作为簇中心,从簇中选一个对sse贡献最大的点,
 

尺寸:

密度:
 



非凸:
 

解决:
 

k取较大值分为多个小簇再合并

纵轴:第k个最近邻距离的变化范围
横轴:数据对象按最近邻距离编码
大部分数据对象的第k个最近邻的变化变化幅度不大,拐点飙升-异常点,当k取大,距离大
由此判断k

聚类的评估指标--有监督【和分类一样】和无监督【规范化的互信息与轮廓系数】

标准化的互信息-Y是聚类标签,C是真实标签-I(Y,C)互信息=H(C )-H(Y|C)yc依赖性越高越好

分类

roc怎么画

tpr是召回率
 

评估指标--精度召回率fscore

决策树、贝叶斯、集成

贝叶斯:易于实现,结果比较好,鲁棒的
有可能有依赖


集成
 

对于不稳定的分类器才有提升效果

评估框架--bootstrap cosostation??交叉验证的bootstrap

二分类问题

正事例
 

异常

异常的类型

异常的方法

基于统计、距离、密度、

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1318939.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器视觉技术与应用实战(开运算、闭运算、细化)

开运算和闭运算的基础是膨胀和腐蚀,可以在看本文章前先阅读这篇文章机器视觉技术与应用实战(Chapter Two-04)-CSDN博客 开运算:先腐蚀后膨胀。开运算可以使图像的轮廓变得光滑,具有断开狭窄的间断和消除细小突出物的作…

C语言数据结构-----二叉树(3)二叉树相关练习题

前言 前面详细讲述了二叉树的相关知识,为了巩固,做一些相关的练习题 文章目录 前言1.某二叉树共有 399 个结点,其中有 199 个度为 2 的结点,则该二叉树中的叶子结点数为?2.下列数据结构中,不适合采用顺序存…

【MySQL】MySQL表的操作-创建查看删除和修改

文章目录 1.创建表2.查看表结构3.修改表4.删除表 1.创建表 语法: CREATE TABLE table_name (field1 datatype,field2 datatype,field3 datatype ) character set 字符集 collate 校验规则 engine 存储引擎;说明: field 表示列名datatype 表示列的类型…

GitHub推荐:下载工具-Motrix

项目地址 GitHub - agalwood/Motrix: A full-featured download manager. 项目简介 Motrix是一个开源的下载工具,支持BT下载、Magnet下载。且下载支持最高64个线程,基本可以说下载速度的上限取决于你的带宽。是一款很不错的下载工具。 项目截图

机器视觉技术与应用实战(Chapter Two-03)

2.5 图像滤波和增强 滤波的作用是:图像中包含需要的信息,也包含我们不感兴趣或需要屏蔽的干扰,去掉这些干扰需要使用滤波。 增强的作用是:通过突出或者抑制图像中某些细节,减少图像的噪声,增强图像的视觉效…

介绍strncpy函数

strncpy函数需要引用#include <string.h>头文件 函数原型&#xff1a; char *_Dest 是字符串的去向 char *_Source是字符串的来源 size_t_Count是复制字符串的大小 #include <stdio.h> #include <string.h> int main() { char arr[128] { \0 }; …

『亚马逊云科技产品测评』在当前飞速发展的AI人工智能时代云服务技术哪家强?

授权声明&#xff1a;本篇文章授权活动官方亚马逊云科技文章转发、改写权&#xff0c;包括不限于在 Developer Centre, 知乎&#xff0c;自媒体平台&#xff0c;第三方开发者媒体等亚马逊云科技官方渠道 文章目录 引言一、亚马逊&阿里云发展历史介绍1.1 亚马逊发展历史1.2…

人工智能中的核心概念

1 概述 人工智能英文缩写为AI&#xff0c;是一种由人制造出来的机器&#xff0c;该机器可以模仿人的思想和行为&#xff0c;从而体现出一种智能的反应。 人工智能的产业链分为基础层、技术层、应用层三个层次。 基础层包括&#xff1a;芯片、大数据、算法系统、网络等多项基础…

云计算:Vmware 安装 FreeNAS

目录 一、实验 1.Vmware 安装 FreeNAS 2.配置Web界面 二、问题 1.iSCSI如何限定名称 2.LUN和LVM的区别 一、实验 1.Vmware 安装 FreeNAS &#xff08;1&#xff09;环境准备 VMware Workstation 17 FreeNAS相关安装部署镜像: 官网地址&#xff1a; https://download…

Amazon EC2使用测评

前言 每月/750小时为期 12 个月&#xff0c;通过 AWS 免费套餐使用创建就有750个小时的免费使用额度是真的很香&#xff0c;几乎可以免费使用一年&#xff0c;对于一些喜欢自己搭建博客的用户几乎是发福利&#xff0c;整整一年的免费使用&#xff0c;对于新手来说确实很好&…

Spring Boot+Mybatis设置sql日志打印

在全局配置文件添加以下内容&#xff1a;logging.level.com.demo.mapperdebug&#xff0c;com.demo.mapper&#xff1a;src下的mapper路径&#xff0c;debug&#xff1a;设置日志打印级别为debug&#xff0c;亦可设置为&#xff1a;ERROR、WARN、INFO application.properties …

【JAVA-Day68】异常处理的奥秘:深度解析 Java try-catch-finally 机制,高效应对异常问题

异常处理的奥秘&#xff1a;深度解析 Java try-catch-finally 机制&#xff0c;高效应对异常问题 &#x1f680; 异常处理的奥秘&#xff1a;深度解析 Java try-catch-finally 机制&#xff0c;高效应对异常问题 &#x1f680;摘要引言为什么要捕获异常 &#x1f60a;异常捕获的…

人工智能在金融与商业领域的智能化变革

导言 随着人工智能技术的不断发展&#xff0c;金融和商业领域正迎来一场智能化的变革。随着人工智能的不断发展&#xff0c;其在金融和商业领域的应用正成为业界瞩目的焦点。本文将深入探讨人工智能在金融和商业应用中的关键技术、应用场景以及对未来的影响。 1. 关键技术与算…

FPGA简易加减法计算器设计

题目要求&#xff1a; &#xff08;1&#xff09;设计10以内的加减法计算器。 &#xff08;2&#xff09;1个按键用于指定加法或减法&#xff0c;一个用于指定加数或被加数&#xff0c;还有两个分别控制加数或被加数的增加或减少。 &#xff08;3&#xff09;设置的结果和计算的…

饥荒Mod 开发(十三):木牌传送

饥荒Mod 开发(十二)&#xff1a;一键制作 饥荒Mod 开发(十四)&#xff1a;制作屏幕弹窗 一键传送源码 饥荒的地图很大&#xff0c;跑地图太耗费时间和饥饿值&#xff0c;如果大部分时间都在跑图真的是很无聊&#xff0c;所以需要有一个能够传送的功能&#xff0c;不仅可以快速…

一种解决Qt5发布release文件引发的无法定位程序输入点错误的方法

目录 本地环境问题描述分析解决方案 本地环境 本文将不会解释如何利用Qt5编译生成release类型的可执行文件以及如何利用windeployqt生成可执行的依赖库&#xff0c;请自行百度。 环境值操作系统Windows 10 专业版&#xff08;22H2&#xff09;Qt版本Qt 5.15.2Qt Creator版本5.0…

数字滤波器设计——Matlab实现数字信号处理<1>

目录 一.实验内容 二.代码分析 1.信号产生部分 2.利用傅立叶级数展开的方法&#xff0c;自由生成所需的x(t) 3.通过选择不同的采样间隔T&#xff08;分别选T>或<1/2fc&#xff09;&#xff0c;从x(t)获得相应的x(n) 3.对获得的不同x(n)分别作傅立叶变换&#xff0c…

[elementPlus] teleported 在 ElSubMenu中的用途

如图 一个菜单对应的路由结构如上图 如果做适配窄屏幕 如果在 <ElSubMenu :index"route.path" >中不加入 teleported 就会出现问题 加上就OK了 <ElSubMenu :index"route.path" teleported>

git 切换远程地址分支 推送到指定地址分支 版本回退

切换远程地址 1、切换远程仓库地址&#xff1a; 方式一&#xff1a;修改远程仓库地址 【git remote set-url origin URL】 更换远程仓库地址&#xff0c;URL为新地址。 git remote set-url https://gitee.com/xxss/omj_gateway.git 方式二&#xff1a;先删除远程仓库地址&…

前端对接 —— 周末

1.点击校验 点击校验 宇哥 记得过滤 不能校验的数据&#xff08;我后端还要检验吗&#xff1f;&#xff09; 2.前端数据对接 这个可以吗&#xff1f; 这种的可以吗&#xff1f;