大数据技术与应用——数据可视化(山东省大数据职称考试)

news2024/12/18 21:22:53

  大数据分析应用-初级

第一部分 基础知识

       一、大数据法律法规、政策文件、相关标准

       二、计算机基础知识

       三、信息化基础知识

       四、密码学

       五、大数据安全

       六、数据库系统

       七、数据仓库.

第二部分 专业知识

       一、大数据技术与应用

       二、大数据分析模型

       三、数据科学


数据可视化

  • 大数据分析应用-初级
  • 前言
  • 一、BI(Business Intelligence)的概念及应用
  • 二、常见可视化图形的概念
  • 练习题目


前言

数据可视化

1、了解BI(Business Intelligence)的概念及应用。

2、了解常见可视化图形(散点图、折线图、饼图、环图、柱状图)的概念,具有初步的可视化图形展示数据的能力。


一、BI(Business Intelligence)的概念及应用

一、概念

定义

  • 商业智能(Business Intelligence,简称 BI)是一套完整的解决方案,用于将企业中现有的数据进行有效的整合、提取、分析和展示。它帮助企业的管理者和决策者通过数据洞察企业的运营状况、发现问题、识别机会,从而做出更明智的业务决策。
  • 从技术角度讲,BI 涵盖了数据仓库(Data Warehouse)、联机分析处理(OLAP - On - Line Analytical Processing)、数据挖掘(Data Mining)和报表工具(Reporting Tools)等多种技术。数据仓库是存储大量结构化数据的系统,为后续的分析提供数据基础。OLAP 允许用户从多个维度对数据进行快速分析,例如按时间、地域、产品类别等维度分析销售数据。数据挖掘则侧重于发现数据中的潜在模式和关系,如通过关联规则挖掘发现购买某种产品的客户同时也可能购买其他相关产品。报表工具用于以直观的图表和表格形式展示分析结果。

数据处理流程

  • 数据收集:从各种数据源(如企业资源规划系统 ERP、客户关系管理系统 CRM、数据库、文件系统等)获取数据。这些数据源可能包含结构化数据(如数据库中的表格数据)、半结构化数据(如 XML 或 JSON 格式的数据)和非结构化数据(如文本文件、图像等,不过在传统 BI 中主要关注结构化数据)。
  • 数据清洗:对收集到的数据进行预处理,包括处理缺失值(如用均值、中位数或其他合适的方法填充缺失的数值)、纠正错误数据(如将错误的日期格式更正)、去除重复数据等操作,以提高数据质量。
  • 数据转换:将数据转换为适合分析的形式。例如,将数据标准化,使不同范围的数值能够在同一尺度上进行比较;或者对数据进行编码,将分类数据转换为数字形式以便于计算机处理。
  • 数据分析:这是核心步骤,运用统计分析、数据挖掘等方法对数据进行处理。例如,计算销售数据的平均值、中位数、标准差等统计指标,或者通过聚类分析将客户分为不同的群体,以便进行针对性的营销。
  • 数据可视化与报告:将分析结果以直观的图表(如柱状图、折线图、饼图等)、图形(如地图、流程图等)和报告的形式展示出来,使决策者能够快速理解数据含义。

二、BI的应用

BI可以应用于各个行业和领域,包括但不限于:

  • 金融行业:客户行为分析、风险管理等。通过BI,金融机构可以更好地了解客户需求,优化产品和服务,同时降低风险。
  • 零售业:销售数据分析、库存管理等。BI可以帮助零售商追踪销售数据,分析市场趋势,优化库存管理,降低成本。
  • 医疗保健:患者数据分析、资源配置等。通过BI,医疗机构可以更好地了解患者需求,优化资源配置,提高服务质量。
  • 制造业:生产流程优化、质量控制等。BI可以帮助制造商优化生产流程,提高产品质量,降低成本。
  • 销售和市场营销:BI可以追踪销售数据、分析市场趋势、评估市场份额和竞争对手活动,帮助企业制定有效的销售策略。
  • 供应链管理:BI可以监控供应链运作情况,优化库存管理,降低成本并提高效率。
  • 客户关系管理:BI可以帮助企业了解顾客需求、分析顾客行为和偏好,提供个性化的产品和服务。
  • 财务管理:BI可以对企业财务数据进行分析和预测,帮助企业管理风险、优化财务决策。
  • 人力资源管理:BI可以分析员工数据、评估绩效和满意度,帮助企业招聘、培训和留住人才。

二、常见可视化图形的概念

散点图(Scatter Plot)

  • 概念:散点图是一种用笛卡尔坐标系展示两个变量之间关系的图形。它将数据集中的每个数据点以坐标(x,y)的形式绘制在平面上,其中 x 轴和 y 轴分别代表两个不同的变量。通过观察这些点的分布情况,可以直观地发现变量之间是否存在某种关联,如正相关(点的分布呈现从左下角到右上角的趋势)、负相关(从左上角到右下角的趋势)或者没有明显的相关性(点的分布比较杂乱)。
  • 应用场景示例:假设研究学生的学习时间和考试成绩之间的关系。将学习时间作为 x 轴变量,考试成绩作为 y 轴变量,每个学生的数据点(学习时间,考试成绩)就构成了散点图。如果大部分点呈现从左下角到右上角的趋势,就可以初步判断学习时间和考试成绩可能存在正相关关系,即学习时间越长,考试成绩越高。
  • 制作要点
    • 确定 x 轴和 y 轴所代表的变量,要确保变量的选择有实际意义,能够体现出想要探究的关系。
    • 适当调整坐标轴的刻度范围,以完整地展示数据点的分布情况,避免数据点过于集中在某个区域或者超出坐标轴范围。

折线图(Line Chart)

  • 概念:折线图主要用于展示数据随时间或其他连续变量的变化趋势。它通过将一系列数据点按照顺序用直线连接起来,清晰地反映出数据的增减变化情况。折线图中的横轴通常代表时间或其他连续的序列,纵轴代表相应的数据值。
  • 应用场景示例:在股票市场中,用折线图来展示某只股票在一段时间内(如一个月、一年)的价格走势。横轴是日期,纵轴是股票价格。通过折线的上升和下降,可以很直观地看到股票价格的波动情况,投资者可以据此分析股票的走势,如上涨趋势、下跌趋势或者盘整阶段。
  • 制作要点
    • 数据点的顺序要按照时间或连续变量的顺序排列,这样连接起来的折线才能正确地反映变化趋势。
    • 为了更清晰地展示趋势,可以添加趋势线(如线性趋势线、多项式趋势线等),并且标注出关键的数据点(如最大值、最小值、转折点等)。

饼图(Pie Chart)

  • 概念:饼图是用于展示各部分占总体比例关系的圆形统计图表。整个圆代表总体,各个扇形的大小表示相应部分占总体的百分比。饼图能够直观地呈现出各部分之间的相对大小关系。
  • 应用场景示例:分析一家公司的业务收入来源结构。假设公司有产品 A、产品 B 和服务 C 三种主要业务,将公司的总收入看作一个整体(即 100%),分别计算产品 A、产品 B 和服务 C 的收入占总收入的百分比,然后用饼图展示。通过扇形的大小,可以快速看出哪种业务收入占比最大,哪种业务占比最小。
  • 制作要点
    • 一般情况下,饼图的部分数量不宜过多,否则会导致图形过于复杂,难以区分各部分。通常建议不超过 6 - 7 个部分。
    • 要按照一定的顺序(如从大到小等)排列扇形,并且标注出每个扇形所代表的类别名称和占比数值,最好还能加上不同的颜色或图案来增强区分度。

环图(Doughnut Chart)

  • 概念:环图可以看作是中间有一个空洞的饼图。它和饼图类似,也是用于展示各部分占总体的比例关系。不过,环图可以在中间的空洞部分添加其他信息,如总数值、另一个相关的指标等,并且可以通过嵌套环来展示更复杂的层次结构。
  • 应用场景示例:在市场调研中,调查消费者对不同品牌手机的偏好情况。用外环表示不同品牌手机的市场占有率,在内环的空洞部分可以显示总的调查人数或者手机市场的总规模。如果要进一步细分品牌手机的不同型号的市场占有率,还可以通过嵌套的内层环来展示。
  • 制作要点
    • 与饼图类似,部分数量过多会使图形复杂。对于嵌套环图,要注意合理安排各层环所代表的内容,并且确保每层环的比例计算正确,颜色搭配要清晰,便于区分不同的层次。

柱状图(Bar Chart)

  • 概念:柱状图是一种以长方形的长度为变量来展示数据的统计图。它通常用于比较不同类别之间的数据大小。柱状图的横轴代表不同的类别,纵轴代表数据的数值大小,每个类别对应的数值用一个垂直的柱子来表示,柱子的高度与该类别数据的大小成正比。
  • 应用场景示例:比较不同城市的人口数量。将城市名称作为横轴的类别,人口数量作为纵轴的数据。每个城市对应的柱子高度就反映了该城市的人口数量,通过柱子的高低对比,可以很容易地看出哪个城市人口最多,哪个城市人口最少。
  • 制作要点
    • 柱子之间要保持适当的间隔,以便区分不同的类别。间隔过窄会使图形显得拥挤,间隔过宽可能会影响视觉上的比较效果。
    • 可以添加数据标签在柱子上,直接显示每个类别对应的数值,并且根据需要可以对柱子进行颜色填充或图案装饰,增强视觉吸引力。同时,要注意纵轴刻度的起始值,避免因为刻度设置不当而造成数据对比的误导。


练习题目

单选题

(1)以下哪项不是 BI 的核心技术?( )

A. 数据仓库

B. 机器学习算法(如深度学习)

C. 联机分析处理(OLAP)

D. 报表工具

答案:B

解析:BI 主要涵盖数据仓库、联机分析处理(OLAP)和报表工具等技术。数据仓库用于存储数据,OLAP 用于多角度分析数据,报表工具用于展示结果。机器学习算法(如深度学习)虽然在数据分析中有应用,但不是 BI 的核心技术,BI 更侧重于传统的数据处理和分析方式来支持商业决策。

(2)BI 在企业中的主要作用是( )

A. 代替人工进行数据分析

B. 存储海量数据

C. 帮助管理者做出更明智的决策

D. 进行数据加密

答案:C

解析:BI 的主要目的是整合、分析企业数据,通过数据洞察来帮助企业的管理者和决策者发现问题、识别机会,从而做出更明智的业务决策。它不是完全代替人工分析,数据存储主要是数据仓库的功能,数据加密不是其主要作用。

(3)要展示一个班级学生的身高分布情况,最合适的图形是( )

A. 折线图

B. 饼图

C. 柱状图

D. 散点图

答案:C

解析:柱状图适合用于比较不同类别(这里是不同身高区间)之间的数据大小。可以将身高区间作为横轴,每个区间内的学生人数作为纵轴,通过柱子的高度直观地比较各身高区间的人数多少。折线图主要用于展示变化趋势,饼图用于展示比例关系,散点图用于展示两个变量之间的关系,都不适合展示身高分布情况。

(4)如果想观察某产品的市场份额随时间的变化情况,应该选择( )

A. 环图

B. 折线图

C. 散点图

D. 柱状图

答案:B

解析:折线图用于展示数据随时间或其他连续变量的变化趋势。在这里,将时间作为横轴,产品的市场份额作为纵轴,通过折线的变化可以清晰地看到市场份额随时间的增减情况。环图主要用于展示比例关系,散点图用于展示两个变量的关系,柱状图主要用于比较不同类别之间的数据大小,不符合要求。

多选题

(1)BI 的数据处理流程包括以下哪些步骤?( )

A. 数据收集

B. 数据清洗

C. 数据转换

D. 数据分析

E. 数据可视化与报告

答案:ABCDE

解析:BI 的数据处理流程是一个完整的体系。首先要从各种数据源收集数据,然后对收集的数据进行清洗,去除错误和不完整的数据。接着进行数据转换,使其适合分析。之后进行数据分析,挖掘有价值的信息。最后通过数据可视化与报告的方式将分析结果展示出来。

(2)BI 可以应用于以下哪些企业领域?( )

A. 销售与市场营销

B. 财务管理

C. 供应链管理

D. 人力资源管理

答案:ABCD

解析:在销售与市场营销领域,可用于销售分析、客户分析和营销活动评估等;在财务管理领域,可用于财务报表分析、预算与成本控制、财务风险管理;在供应链管理领域,用于库存管理、供应商管理和物流配送管理等;在人力资源管理领域,可用于员工绩效分析、人力资源规划等。

(3)以下哪些图形可以用于展示数据的比例关系?( )

A. 饼图

B. 环图

C. 柱状图

D. 散点图

答案:AB

解析:饼图是专门用于展示各部分占总体比例关系的图形,整个圆代表总体,各个扇形表示各部分占比。环图和饼图类似,也用于展示各部分占总体的比例关系,还可以在中间添加其他信息。柱状图主要用于比较不同类别之间的数据大小,散点图用于展示两个变量之间的关系,它们一般不用于展示比例关系。

(4)散点图可以帮助我们发现( )

A. 变量之间的正相关关系

B. 变量之间的负相关关系

C. 变量之间的因果关系

D. 变量之间没有明显相关性

答案:ABD

解析:通过观察散点图中点的分布情况,可以直观地发现变量之间是否存在正相关(点从左下角到右上角分布)、负相关(点从左上角到右下角分布)或者没有明显的相关性(点分布杂乱)。但是散点图本身不能确定变量之间的因果关系,因果关系需要通过更深入的实验或分析来确定。

判断题

(1)BI 主要关注非结构化数据。( )

答案:错误

解析:传统的 BI 主要关注结构化数据,如数据库中的表格数据,尽管现在也在逐渐融合半结构化和非结构化数据处理技术,但结构化数据仍然是其重点关注的对象,因为结构化数据更易于按照既定的规则进行处理和分析。

(2)数据仓库是 BI 的一个组成部分。( )

答案:正确

解析:数据仓库是 BI 的重要组成部分,它为后续的数据分析提供了数据存储的基础,将企业中各个数据源的数据整合到一个数据仓库中,方便进行统一的管理和分析。

(3)在制作饼图时,部分数量越多越好。( )

答案:错误

解析:在制作饼图时,一般部分数量不宜过多,否则会导致图形过于复杂,难以区分各部分。通常建议不超过 6 - 7 个部分,这样才能直观地展示各部分占总体的比例关系。

(4)折线图的横轴必须是时间。( )

答案:错误

解析:折线图的横轴通常是时间或其他连续变量。它主要用于展示数据随时间或连续变量的变化趋势,但不局限于时间,例如可以是产品的编号(如果产品编号有顺序意义)等连续的序列。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2261795.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

window QT/C++ 与 lua交互(mingw + lua + LuaBridge + luasocket)

一、环境与准备工作 测试环境:win10 编译器:mingw QT版本:QT5.12.3 下载三种源码: LuaBridge源码:https://github.com/vinniefalco/LuaBridge LUA源码(本测试用的是5.3.5):https://www.lua.org/download.html luasocket源码:https://github.com/diegonehab/luasocket 目…

Docker在Ubuntu和CentOS系统下的安装

目录 1. 各版本平台支持情况2. 在Ubuntu系统下安装docker3. 常见报错4. Docker的镜像源修改5. Docker目录修改6. 在CentOS系统下安装docker 1. 各版本平台支持情况 (1)平台支持情况如下: Server 版本 桌面版本 2. 在Ubuntu系统下安装docker…

图形化界面MySQL(MySQL)(超级详细)

目录 1.官网地址 1.1在Linux直接点击NO thanks..... 1.2任何远端登录,再把jj数据库给授权 1.3建立新用户 优点和好处 示例代码(MySQL Workbench) 示例代码(phpMyAdmin) 总结 图形化界面 MySQL 工具大全及其功…

IP数据云查询IP归属地信息

互联网时代,我们每天都会面对大量的网站或App,但你们是否知晓,所有程序员进行程序或者系统的开发都离不开查询IP地址,这是由于对于每个安全的网站/软件来说,基础的服务日志,登录IP等就离不开IP归属地离线库&#xff0c…

PH热榜 | 2024-12-17

1. Eden 标语:一键用AI生成网页评论。 介绍:Eden是一款人工智能驱动的社交插件,只需点击表情符号就能在任何网页上评论。它能自动总结网页内容并生成个性化评论。 想调侃朋友、表达喜爱,还是快速评论几句?用Eden&…

Hadoop学习笔记(包括hadoop3.4.0集群安装)(黑马)

Hadoop学习笔记 0-前置章节-环境准备 0.1 环境介绍 配置环境:hadoop-3.4.0,jdk-8u171-linux-x64 0.2 VMware准备Linux虚拟机 0.2.1主机名、IP、SSH免密登录 1.配置固定IP地址(root权限) 开启master,修改主机名为…

ChatGPT Search开放:实时多模态搜索新体验

点击访问 chatTools 免费体验GPT最新模型,包括o1推理模型、GPT4o、Claude、Gemini等模型! ChatGPT Search:功能亮点解析 本次更新的ChatGPT Search带来了多项令人瞩目的功能,使其在搜索引擎市场中更具竞争力。 1. 高级语音模式&…

php基础:正则表达式

1.正则表达式 正则表达式是用于描述字符排列和匹配模式的一种语法规则。它主要用于字符串的模式分割、匹配、查找及替换操作。到目前为止,我们前面所用过的精确(文本)匹配也是一种正则表达式。 在PHP中,正则表达式一般是由正规字…

PHP代码审计学习(一)--命令注入

1、漏洞原理 参数用户可控&#xff0c;程序将用户可控的恶意参数通过php可执行命令的函数中运行导致。 2、示例代码 <?php echorec-test; $command ping -c 1 .$_GET[ip]; system($command); //system函数特性 执行结果会自动打印 ?> 通过示例代码可知通过system函…

CTFHub-ssrf

技能树--Web--SSRF 内网访问 开启题目 尝试访问位于127.0.0.1的flag.php吧 进入环境 根据提示输入即可 127.0.0.1/flag.php 伪协议读取文件 开启题目 尝试去读取一下Web目录下的flag.php吧 进入环境&#xff0c;根据提示输入 file:///var/www/html/flag.php 鼠标右键查看…

Stable Diffusion Controlnet常用控制类型解析与实战课程 4

本节内容&#xff0c;是stable diffusion Controlnet常用控制类型解析与实战的第四节课程。上节课程&#xff0c;我们陆续讲解了几个与图像风格约束相关的控制类型&#xff0c;本节课程我们再学习一些实用价值较高的控制类型&#xff0c;看一看他们提供了哪些控制思路。 一&…

DC-8笔记

靶机信息 官网地址:DC: 8 ~ VulnHub DC-8 is another purposely built vulnerable lab with the intent of gaining experience in the world of penetration testing.This challenge is a bit of a hybrid between being an actual challenge, and being a "proof of c…

购物商城案例 1-- VueCli创建项目,调整目录,vant组件库

基于VueCli创建项目 调整目录&#xff0c;新增两个目录 修改路由和App.vue 路由中规则清空 新建文件夹api和utils api文件夹&#xff1a;发请求的一些文件 utils文件夹&#xff1a;工具函数方法 vant组件库&#xff1a;第三方vue组件库 vant-ui 找到vant官网&#xff0c;进入va…

npm : 无法加载文件 D:\nodejs\npm.ps1

问题描述 npm run serve 启动一个Vue项目&#xff0c;报错如下&#xff1a; npm : 无法加载文件 D:\nodejs\npm.ps1&#xff0c;因为在此系统上禁止运行脚本。有关详细信息&#xff0c;请参阅 https:/go.microsoft.com/fwlink/? LinkID135170 中的 about_Execution_Policies。…

12.17双向链表,循环链表

循环单向链表 1.头文件test.h #ifndef __TEST_H_ #define __TEST_H_#include<stdio.h> #include<stdlib.h>typedef struct node {union{int len;int data;};struct node *next; }looplink,*looplinkPtr;//创建 looplinkPtr create();//判空 int empty(); //申请…

【多模态】MiniCPM-V多模态大模型使用学习

MiniCPM-V模型使用 前言1. 模型文件下载和选择2. 环境安装配置3. 模型微调3.1 qlora微调minicpm-v-int43.2 lora微调minicpm-v3.3 merge_lora3.4 lora微调后量化int4 4. 模型推理4.1 huggingface API4.2 swift API(A) swift&#xff08;不支持batch inference&#xff09;(B) s…

VMware ubuntu12.04怎么设置静态IP联网

记得刚开始学习嵌入式就是从ubuntu12.04的环境开始学习的C语言&#xff0c;当时没有弄清楚怎么设置静态IP联网&#xff0c;现在写一篇文章。 1.首先&#xff0c;关闭ubuntu的网络&#xff1b; 2.电脑使用的是wifi,将VMware桥接到该网卡上&#xff1b; 3.在虚拟机设置里面选择桥…

vs 调试

常用&#xff1a; 调试->窗口-> 断点 监视 自动窗口 局部变量 调用堆栈 内存 反汇编&#xff08;也可以右键&#xff0c;转到反汇编&#xff09; 寄存器 快捷键&#xff1a; F5:启用调试&#xff0c;经常用来跳到下一个断点处 F9创建断点和取消断点。断点的重要作用&…

从构想到实现:EasyOne 多模态 AI 产品开发历程

在人工智能技术飞速发展的今天&#xff0c;智能产品和服务已经从单一的应用向多模态智能系统进化。随着大语言模型、计算机视觉、语音识别等领域的突破&#xff0c;开发集成多种 AI 技术的平台变得日益重要。为此&#xff0c;我们开发了 EasyOne&#xff0c;一个全新的 AI 多模…

游戏引擎学习第43天

仓库 https://gitee.com/mrxiao_com/2d_game 介绍运动方程 今天我们将更进一步&#xff0c;探索运动方程&#xff0c;了解真实世界中的物理&#xff0c;并调整它们&#xff0c;以创建一种让玩家感觉愉悦的控制体验。这并不是在做一个完美的物理模拟&#xff0c;而是找到最有趣…