数据分析与数据挖掘期末复习,附例题及答案

news2024/11/28 20:53:10

文章目录

  • 一、概述
    • 1.数据挖掘能做什么?
    • 2.数据挖掘在哪些方面有应用?
    • 3.数据挖掘与数据分析的区别?
    • 4.数据挖掘的四大类模型
    • 5.什么是数据挖掘?
    • 6.数据挖掘的常用方法?
  • 二、数据
    • 1.余弦相似度、欧几里得距离
    • 2.近似中位数
  • 三、数据预处理
    • 1.数据预处理主要有哪些方法,每个方法主要内容是什么?
    • 2.在数据挖掘中为什么要对数据进行预处理?
    • 3.可以使用概念分层来泛化数据,对于数值属性和分类属性一般可以如何生成概念分层
    • 4.距离阈值相关例题(重要)
    • 5.规范化例题(重要)
    • 6.等宽分箱例题(重要)
  • 四、数据仓库与OLAP
    • 1.数据库与数据仓库的区别?
    • 2.简述数据仓库体系结构
    • 3.简述数据仓库的设计步骤
    • 4.简述OLAP和数据仓库的关系
    • 5.简述有哪些OLAP基本操作
    • 6.学生成绩管理系统设计


提示:以下是本篇文章正文内容,下面案例可供参考

一、概述

1.数据挖掘能做什么?

在这里插入图片描述

2.数据挖掘在哪些方面有应用?

在这里插入图片描述

3.数据挖掘与数据分析的区别?

数据分析更多采用统计学的知识,对源数据进行描述性和探索性分析,从结果中发现价值信息来评估和修正现状。而数据挖掘不仅仅用到统计学的知识,还要用到机器学习的知识,这里会涉及到模型的概念。数据挖掘具有更深的层次,来发现未知的规律和价值

4.数据挖掘的四大类模型

在这里插入图片描述

5.什么是数据挖掘?

数据挖掘(Data Mining)就是从大量的数据中,提取隐藏在其中的,事先不知道的、但潜在有用的信息的过程。(简单讲:从海量数据中找到有价值的金矿)

6.数据挖掘的常用方法?

频繁模式、分类与回归、聚类分析、离群点分析

二、数据

1.余弦相似度、欧几里得距离

对于向量x和y,计算指定的相似性或距离度量
求x=(1,1,1,1),y=(2,2,2,2)的余弦相似度、欧几里得距离。

在这里插入图片描述

2.近似中位数

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

三、数据预处理

1.数据预处理主要有哪些方法,每个方法主要内容是什么?

数据清洗:去掉数据中的噪声,纠正不一致

数据集成:将多个数据源合并成一致的数据存储,构成一个完整的数据集

数据转换:将一种格式的数据转换成另一种格式的数据

数据规约:通过聚集、删除冗余属性或聚类等方法来压缩数据

2.在数据挖掘中为什么要对数据进行预处理?

数据预处理的目的是使得数据更易于数据挖掘模型处理

3.可以使用概念分层来泛化数据,对于数值属性和分类属性一般可以如何生成概念分层

数值属性:概念分层可以根据数据的分部自动地构造
分类属性:如果分类属性是序数属性,可以使用类似于处理连续属性方法的技术以减少分类值的个数
如果分类属性是标称的或者无序的,就需要使用其他方法。

4.距离阈值相关例题(重要)

在这里插入图片描述
引例:使用例3.2中的数据,求出距离阈值为6,非邻点样本的阈值部分为2的噪声数据。

5.规范化例题(重要)

在这里插入图片描述
在这里插入图片描述

6.等宽分箱例题(重要)

用等宽分箱技术对排序后的数据集D=(0,0,2,2,2,4,8,8,8,12,12,12,12,15,15,16,16,16,16,21,21,21,25,25,25,25,25,28,28,29,34,34,34,34,37,37,44,44,44,58,58,58,58,58,63,63,66,66,66,69,74,74,74,78,78)进行离散化,使得每箱宽度不大于5,形成概念分层。
在这里插入图片描述

四、数据仓库与OLAP

1.数据库与数据仓库的区别?

1.数据库存储的是原始数据,没有经过任何加工;
数据仓库是为了满足数据分析需要设计的,
对源数据进行了ELT过程,数据抽取工作分抽取、清洗、转换、装载

2.数据仓库的数据量要比数据库大很多

2.简述数据仓库体系结构

数据从操作型数据库、文件、网络等数据源,通过ETL集成工具进行数据抽取、清洗、转换、加载等工作,进入到数据仓库和数据集市中,进而通过OLAP服务器支持前台的多维分析,查询报表、数据挖掘等操作

3.简述数据仓库的设计步骤

概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库生成、数据仓库运行与维护

4.简述OLAP和数据仓库的关系

数据仓库与OLAP的关系是互补的,现代OLAP系统一般以数据仓库为基础,即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取

5.简述有哪些OLAP基本操作

OLAP允许用户从多种角度分析多维数据,包括以下五种基本操作:上卷、下钻、切片、切块、旋转

6.学生成绩管理系统设计

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1174839.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

刚入职因为粗心大意,把事情办砸了,十分后悔

刚入职,就踩大坑,相信有很多朋友有我类似的经历。 5年前,我入职一家在线教育公司,新的公司福利非常好,各种零食随便吃,据说还能正点下班,一切都超出我的期望,“可算让我找着神仙公司…

数据结构与算法【02】—线性表

CSDN系列专栏:数据结构与算法专栏 针对以前写的数据结构与算法系列重写(针对文字描述、图片、错误修复),改动会比较大,一直到更新完为止 前言 通过前面数据结构与算法基础知识我们知道了数据结构的一些概念和重要性,那么本章总结…

新技术前沿-2023-应用GPT提问模板写技术文章

参考一份万能的GPT提问模版!直接套用! 参考用GPT写技术文章是真爽! 参考码住这篇 8200 字 ChatGPT 实战指南!! 1 GPT提问模板 想让GPT回答的内容符合我们所希望的,最最重要的一点就在于我们如何提问。提问…

NFS服务以及静态路由及临时IP配置

目录 一、NFC服务基础知识 1、NFS服务初相识 2、NFS服务工作原理 二、NFC服务基础操作 1、NFS服务端配置 2、NFS服务 - exports 相关参数 3、NFS服务 - 命令相关 三、RPC 远程调度 四、静态路由及临时IP配置 1、Linux 静态路由相关命令 2、Linux 临时IP地址添加与删除…

【漏洞复现】Nginx_0.7.65_空字节漏洞

感谢互联网提供分享知识与智慧,在法治的社会里,请遵守有关法律法规 文章目录 1.1、漏洞描述1.2、漏洞等级1.3、影响版本1.4、漏洞复现1、基础环境2、漏洞扫描3、漏洞验证 1.1、漏洞描述 1.2、漏洞等级 1.3、影响版本 0.7.65 1.4、漏洞复现 1、基础环…

Redis那些事儿(三)

文章目录 1. 前言2. 常用api介绍3. 需求假设(获取离我最近的停车场)4. 代码示例 1. 前言 接着上一篇Redis那些事儿(二) ,这一篇主要介绍Redis基于Geo数据结构实现的地理服务,它提供了一种方便的方式来存储和…

linux 创建git项目并提交到gitee(保姆式教程)

01、git安装与初始化设置 mhzzjmhzzj-virtual-machine:~/work/skynetStudy$ apt install mhzzjmhzzj-virtual-machine:~/work/skynetStudy$ git config --global user.name "用户名" mhzzjmhzzj-virtual-machine:~/work/skynetStudy$ git config --global user.ema…

Instant-NGP论文笔记

文章目录 论文笔记 论文笔记 instant-ngp的nerf模型与vanilla nerf的模型架构相同。 instant-ngp的nerf模型包含两个MLP,第一个MLP就两个全连接,输入维度是32(16层分辨率x2),输出是16(用于预测密度&#x…

SpringBoot配置文件优先级

1.idea临时属性 说明:Program arguments配置--server.port8082 --ab;意思是将端口改成了8082。这个优先级最高。 2.resource 说明:创建config文件里面的yml文件。 3.jar包同级(yml) 说明:创建一个yml文件…

机器学习中的关键组件

机器学习中的关键组件 数据 每个数据集由一个个样本组成,大多时候,它们遵循独立同分布。样本有时也叫作数据点或数据实例,通常每个样本由一组称为特征或协变量的属性组成。机器学习会根据这些属性进行预测,预测得到的称为标签或…

平面扫描(Plane-sweeping)深度体会

先看文章 三维重建之平面扫描算法(Plane-sweeping)_plane sweeping_小玄玄的博客-CSDN博客 Plane Sweeping | 平面扫描 - 知乎 (zhihu.com) 注意平面Dm,这是其中一个平面,平面上有一个M点,这个点也再物体上。所以会被摄像机看到…

Idea去掉显示的测试覆盖率

一.启东时 误点击了 快捷键调出 【Ctrl 】【Alt】【F6】

优雅的 Dockerfile 是怎样炼成的?

Docker 简介 目前,Docker 主要有两个形态:Docker Desktop 和 Docker Engine。 Docker Desktop 是专门针对个人使用而设计的,支持 Mac(已支持arm架构的M系芯片) 和 Windows 快速安装,具有直观的图形界面&a…

数据结构—字符串

文章目录 7.字符串(1).字符串及其ADT#1.基本概念#2.ADT (2).字符串的基本操作#1.求子串substr#2.插入字符串insert#3.其他操作 (3).字符串的模式匹配#1.简单匹配(Brute-Force方法)#2.KMP算法I.kmp_match()II.getNext() #3.还有更多 小结附录:我自己写的string 7.字符…

手搭手Ajax实现搜索地址自动补全功能

输入单词后,自动提示出要搜索的信息,点击某个内容后,自动补全至搜索框。 比如: 如何实现搜索自动补全功能 键盘事件:keyup按键弹起事件发送ajax请求,请求中提交用户输入的搜索内容,后端接收内容后&#x…

23种设计模式-Java语言实现

因为要准备一个考试所以又重新接触到了设计模式,之前只是别人说什么就是什么,记下就好了,完全不理解其中的思想以及为什么要用(虽然现在也不太理解…) 先慢慢总结吧,常读常新。 23种设计模式 “每一个模式描述了一个在我们周围不…

C++进阶篇4---set和map

一、关联式容器 在初阶篇中,我们已经接触过STL中的部分容器,比如:vector、list、deque等,这些容器统称为序列式容器,因为其底层为线性序列的数据结构,里面存储的是元素本身。 那什么是关联式容器&#xff1…

【unity实战】Unity实现2D人物双击疾跑

最终效果 前言 我们要实现的功能是双击疾跑,当玩家快速地按下同一个移动键两次时能进入跑步状态 我假设快速按下的定义为0.2秒内,按下同一按键两次 简单的分析一下需求,实现它的关键在于获得按键按下的时间,我们需要知道第一次…

eBPF BCC开源工具简介

目录 官方链接 编译安装 ubuntu版本 安装 examples tools hello_world.py demo 运行报错 网上目前的解决办法 错误分析过程 python版本检测 libbcc库检查 python3 bcc库检查 正常输出 监控进程切换 运行输出 监控CPU直方图 缓存命中率监控:caches…

英语——分享篇——每日200词——201-400

201——feel——[fi:l]——vt.摸,感觉,认为;n.感觉,触摸——feel——f斧头(编码)ee眼睛(象形)l棍子(编码)——斧头用眼看,棍子用手摸——The metal felt smooth and cold.——这种金属摸起来冰冷而光滑。 202——cleve…