【大数据分析】

news2024/11/24 19:57:51

系列文章目录

文章目录

  • 系列文章目录
  • 前言
  • 一、数据分析框架
  • 二、数据分析方法
    • 1.数据清洗&数据探索
    • 2.数据清洗之异常值判别
    • 3.数据清洗之缺失值处理
    • 4.数据探索
    • 5.结构优化
  • 三、大数据可视化
    • 1.大数据可视化概念
      • 1.1 定义
      • 1.2 数据可视化的意义
    • 2.可视化类型和模型
      • 2.1 科学可视化
      • 2.2 科学可视化的研究重点
      • 2.3 体可视化
      • 2.4 体可视化
      • 2.5 科学可视化的组成
      • 2.6 信息可视化
    • 3.光与视觉特性
      • 3.1 光的特性
      • 3.2 三基色原理
      • 3.3 黑白视觉特性
      • 3.4 彩色视觉特性
      • 3.5 数据可视化的基本特征
      • 3.6 数据可视化模型
      • 3.7 数据可视化基本图表
    • 4.视觉编码
      • 4.1 视觉感知
      • 4.2 数据维度
      • 4.3 可视化分析方法的常用
    • 5.关键技术
      • 5.1 定义
      • 5.2 可视化关键技术
      • 5.3 渲染技术
  • 总结


前言

一、数据分析框架

业务理解->数据理解->数据准备->建立模型->模型评估

二、数据分析方法

1.数据清洗&数据探索

数据探索:

  • 特征描述
  • 分布推断
  • 结构优化

数据清洗:

  • 异常值判别
  • 缺失值处理
  • 数据结构统一

2.数据清洗之异常值判别

1、物理判别法
根据经验客观判别由于外界干扰、人为误差等原因造成的数据偏离,判断异常值
2、统计判别法

  • 给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值。
  • 常用的方法(数据来源于同一分布,且是正态的):拉依达准则、肖维勒准则、格拉布斯准则、秋克逊准则、t检验。

在这里插入图片描述

3.数据清洗之缺失值处理

在数据缺失严重时,会对分析结果造成较大影响,因此对剔除的异常值以及缺失值,要采用合理的方法进行填补,常见的方法有平均值填充、K最近距离法、回归法、极大似线估计法等

  • 平均值填充
    取所有对象(或与该对象具有相同决策属性值的对象)的平均值来填充该缺失的属性值

  • K最近距离法
    先根据歇式距高或相关分析确定距高缺失数据样本最近的K个样本,将这K个值加权平均来估计缺失数据值

  • 回归
    基于完整的数据集,走立回归方程(模型),对于包含空值的对象,将已知属性值代入方程来钻计来知属性值,以此估计值来进行填充;但当变量不是线性相关或预测变量高度相关时会导致估计偏差

  • 极大似然估计
    在给定完全数据和前一次选代所得到的赛;数估计的情况下计算完全数据对应的对数!似然品教的条件期望;(E步),后用极大i化对数似然通敏以确!定参数的使,并用于;下步的选代(M步)

  • 多重插补法
    由包含m个描补值的向量代替每一个缺失位,然后对新产生的m个数据集使用相同的方法处理,得到处理结果后,综合结果最终得到对目标变量的估计

随着数据量的增大,异常值和缺失值对整体分析结果的影响会逐渐变小,因此在“大数据”模式下,数据清洗可忽略异常值和缺失值的影响,而侧重对数据结构合理性的分析

4.数据探索

通过数据探索,初步发现数据特征、规律,为后续数据建模提供输入依据,常见的数据探索方法有数据特征描述、相关性分析、主成分分析等。
在这里插入图片描述
数据特征描述:
在这里插入图片描述
数据概率分布:
概率分布可以表述随机变量取值的概率规律,是掌握数据变化趋势和范围的一个重要手段。
在这里插入图片描述
参数检验
在已知总体分布的条件下(一般要求总体服从正态分布),对一些主要的参数(均值,百分数,方差,相关系数等)进行检验。
例如:U检验、T检验(单样本T检验,配对样本T检验,两个独立样本t检验)

检验方法名称问题类型假设适用条件抽样方法
单样本T-检验判断一个总体平均数等于已知数总体平均数等于A总体服从正态分布从总体中抽取一个样本
F一检验判断两总体方差相等两总体方差相等总体服从正态分布从两个总体中各抽取一个样本
独立样本T一检验判断两总体平均数相等两总体平均救相等总体展从正态分布,两总体方程相等从两个总体中各物取一个样本
配对样本T-检验判断指标实验前后平均数相等指标实验前后平均数相等总体服从正态分布,两组数据是同一实验对象在实验前后的测试值抽取一组试验对象,在试验前测得试验对象某指标的值,进行试验后再测得试验对象该指标的取值
二项分布假设检验随机抽样实验的成功概率的检验总体概率等于P总体服从二项分布从总体中抽取一个样本

非参数检验
一般是在不知道数据分布的前提下,检验数据的分布情况(不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一次性假设进行检验)
例如:卡方检验,秩和检验,二项检验,游程检验,K-量检验等

检验方法名称问题类型假设
卡方检验检测试剂观测频数与理论频数之间是否存在差异观测频数与理论频数无差异
K-S检验检测实际观测频数与理论频数之间是否存在差异服从正态分布
游程检验检测一组观测值是否有明显变化趋势无明显变化趋势
二项分布假设检验通过样本数据检验样本的总体是否服从指定的概率为P的二项分布服从二项分布

结论:

  1. 参数检验是针对参数做的假设,非参数检验是针对总体分布情况做的假设。
  2. 二者的根本区别在于参数检验要利用到总体的信息,以总体分布和样本信息对总体参数作出推断;非参数检验不需要利用总体的信息。

5.结构优化

在这里插入图片描述

三、大数据可视化

1.大数据可视化概念

1.1 定义

数据:聚焦于数据的采集、清理、预处理、分析、挖掘
图形:聚焦于解决对光学图像进行接收,提取信息、加工变换模式识别及存储显示
可视化:聚焦于解决将数据转换成图形,并进行交互处理
数据空间:是由n维属性和m个元素组成的数据集所构成的多维信息空间
数据开发:是指利用一定的算法和工具对数据进行定量的推演和计算
数据分析:指对多维数据进行切片、块、旋转等动作剖析数据,从而能多角度侧面观察数据
数据可视化:是指将大型数据集中的数据以图形形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程

数据可视化根据可视化原理不同可划分为几何技术、面向像素技术、基于图标的技术、基于层次的技术、基于图像的技术、和分布式技术等

1.2 数据可视化的意义

  1. 视觉是人类获得信息的最主要途径
  2. 能帮助我们提高理解和处理数据的效率
  3. 可以在小空间中展示大规模数据
  4. 在工业4.0、智能交通、人工智能、其它

2.可视化类型和模型

2.1 科学可视化

科学可视化最初称为“科学计算中的可视化”,(Visualzation In Scientific Computing,VISC),运用计算机图形学和图像处理的研究成果创建视觉图像,替代数字;

2.2 科学可视化的研究重点

  1. 判断可视化对象的类别,进行可视化表现
  2. 将研究对象以最接近真实的效果绘制,用视觉、触觉等交互方式理解和研究

2.3 体可视化

体可视化研究对象主要是体数据,即三维数据,其绘制技术包括等值面的抽取技术,直接体绘制

流场可视化,运用计算机图形学和图像学技术,将流场数据转换为二维或三维–计算流体力学的手段

大规模数据可视化-高效快捷

2.4 体可视化

  1. 颜色映射方法
  2. 等值线方法-等值线的疏密程度判断现象的数量变化趋势
  3. 立体图法和层次分割法
  4. 矢量数据场和直接法和流线法-通过记录坐标的方式尽可能将地理实体的空间位置表现出来

2.5 科学可视化的组成

可视化流水线模型
模拟->预处理->映射->绘制->解释

2.6 信息可视化

信息可视化是1989年斯图尔特卡德、约克·麦金利和乔治·罗伯逊提出的,利用计算机将非空间数据的信息对象的特征值抽取、转换、映射、高度抽象与整合,用图形、图像、动画等方式表示信息对象内容特征和语义的过程;

3.光与视觉特性

3.1 光的特性

可见光的波长由780nm到380nm变化时,人眼的感觉依次是红橙黄绿青蓝紫;
在这里插入图片描述

3.2 三基色原理

三基色原理是根据色度学中著名的格拉兹曼法则和配色实验总结出来的。

自然界中几乎所有的彩色都由3种线性无关的色光按一定比例混配得到,合成的彩色亮度由3种色光的亮度之和决定,色度由3种色光所占的比例决定;

线性无关是指3种色光必须相互独立,其中任何一种色光都不能由其他两种色光混配得到;

  • 人的视觉只能分辨颜色的三种变化,即亮度、色调和色饱和度;
  • 任何彩色均可以由3中线性无关的彩色混合得到,称为三基色;
  • 合成彩色光的亮度等于三基色分量亮度之和,即符合亮度相加定律;
  • 光谱组成成分不同的光在视觉上可能具有相同的颜色外貌,即相同的彩色感觉;
  • 在由两个成分组成的混合色中,如果一个成分连续变化,混合色也连续变化;

补色律:每种颜色都有一个相应的补色;
中间色律:任何两个非补色的色光相混合,可产生出它们两个色调之间的新的中间色调;

3.3 黑白视觉特性

  • 视敏特性:指人眼对不同波长和光具有不同的灵敏度,即辐射功率相同的各色光具有不同的亮度感觉。在相同的辐射功率条件下,人眼感到最亮的是黄绿光,最暗的是红光和紫光;
  • 亮度感觉:亮度感觉不仅仅取决于景物给出的亮度值,还与周围的平均亮度有关,是一个主观量;
  • 人眼感光适应性:适应性是指随着外界光的强弱变化,人眼能自动调节感光灵敏度的特性;
  • 亮度视觉范围:与环境亮度有关
  • 亮度可见度阈值:人眼对亮度变化的分辨力是有限的,人眼无法区分非常微弱的亮度变化。通常用亮度极差来表示人眼刚刚能感觉到的两者的差异
  • 人眼视觉的掩盖效应:如果是在空间和时间上不均匀的背景中,测量可见度阈值,可见度阈值就会增大,即人员会丧失分辨一些亮度的能力;
  • 对比度:把景物或重现图像最大亮度和最小亮度的比值称为对比度;
  • 亮度层次:画面最大亮度与最小亮度之间可分辨的亮度极差数称为亮度层次或灰度层次;
  • 视觉惰性:人眼的视觉有惰性,这种惰性现象称为视觉残留;
  • 闪烁:观察者观察按时间重复的亮度脉冲,当脉冲重复频率不够高时,人眼就有一亮一暗的感觉
  • 视角:观看景物时,景物大小对眼睛形成的张角
  • 分辨力:当与人眼相隔一定距离的两个黑点靠近到一定程度时,人眼就分辨不出有两个黑点的存在,而只感觉到是连在一起的一个点,这种现象表明人眼分辨景物细节的能力是有一定极限的;

3.4 彩色视觉特性

  • 辨色能力:亮度、色调和饱和度称为彩色的三要素。人眼对不同波长的谱色光有不同的色调感觉。人眼的彩色视觉的辨色能力共有3000-4000种。人眼对彩色感觉具有非单一性。颜色感觉相同,光谱组成可以不同;
  • 彩色细节分辨力:画面最大亮度和最小亮度之间可以分辨的亮度极差数称为亮度层次或灰度层次。人眼对彩色细节的分辨力对比黑白细节的分辨力要低。只有对黑白细节分辨力的1/3~1/5
  • 混色特性:包括时间混色,空间混色和双眼混色等

3.5 数据可视化的基本特征

  • 易懂性
  • 必然性
  • 多维性
  • 片面性
  • 专业性

3.6 数据可视化模型

可视化流水线
在这里插入图片描述
循环模型
在这里插入图片描述

3.7 数据可视化基本图表

  • 原始数据绘图用于可视化原始数据的属性值,直观呈现数据特征,其代表性方法包括:数据轨迹、柱状图、折线图、直方图、饼图、等值线图、散点图、气泡图、维恩图、热力图和雷达图等;
  • 简单统计值标绘:盒须图
  • 多视图协调关联

4.视觉编码

4.1 视觉感知

视觉感知是指客观事物通过人的视觉器官在人脑中形成的直接反映;
视觉通道:用于控制几何标记的展示特性,包括标记的位置、大小、形状、方向、色调、饱和度、亮度等

4.2 数据维度

基于任务分类的数据类型(TTT,data Type by Task Taxonomy)。
七类:一维线性数据、二维数据、三维数据、多维数据、时态数据、树形数据和网状数据;
在这里插入图片描述

4.3 可视化分析方法的常用

  1. 主成分分析(Principal Component Analysis ,PCA)是一种利用线性映射来进行数据降维的方法,同时去除数据相关性,以最大限度保持原始数据的方差信息,从而进行有效的特征提取;
  2. 聚类分析:
    系统聚类分析:将变量由多变少的一种方法,先将距离最小的变量归为一类,再将其合并,合并后将新类计算相互间的距离,再将距离最小的新类合并,直到所有的变量归为一类为止。距离的定义有最短距离法、最长距离法、中心法、类平均法、中间距离法、离差平和法;
    动态聚类法:动态聚类先设定好数值K,然后将所有样本分成K类作为聚核,再计算每个样本到聚核的距离,与聚核距离最小的样本归为一类,这样样本被分为K类;

5.关键技术

5.1 定义

  1. 数据空间:是由n维属性和m个元素组成的数据集所构成的多维信息空间;
  2. 数据开发:是指利用一定的算法和工具对数据进行定量的推演和计算;
  3. 数据分析:是指对多维数据进行切片、块、旋转等动作剖析数据,从而多角度观察;
  4. 数据可视化:利用数据分析和开发工具发现其中未知信息的处理过程;

5.2 可视化关键技术

  • 数据信息的符号表达技术
  • 数据表达模型技术
  • 数据交互技术
  • 数据渲染技术
  • 可视化设计与开发模型

5.3 渲染技术

渲染的功能是把三维坐标系中的场景显示出来。在计算机中,三维世界是由坐标系和坐标系的点构成的,还包括物体的材质、纹理、光照等信息。渲染是完成从数据到显示的过程,主要存在三种渲染技术:深度缓存技术、光线跟踪技术和辐射度技术。

1、基于CPU渲染

  • 早期的渲染都是基于CPU来完成,但由于当时图形化技术没有达到真实感绘制的效果,所以依靠单线程CPU运行计算的速度也是能达到要求;
  • 现在的渲染方式多采用多核CPU和GPU结合的方式,多核CPU对渲染速度的提升影响极大。几乎所有的CPU渲染软件都能对CPU的多线程实现良好的支持,也就是说,核心线程数量越多,渲染的效率越高;

2、基于GPU的渲染

  • GPU是能够从硬件上支持多边形转换与光源处理的显示芯片,其作用是计算多边形的3D位置和处理动态光线效果,也可以称为"几何处理"

3、集群渲染技术
集群渲染是指一组计算机通过通信协议连接在一起的计算机群,能够将工作负载从一个超载的计算机迁移到集群中。目标是使用主流的硬件设备组成网格计算能力,达到超级计算机的性能。典型的超级计算机厂商有IBM、SGI、以及一些科研组织。

集群计算机通常分为SMP和MPP两种

  1. SMP(symmetric multiprocessing,对称处理),计算机的I/O总线,多处理器,内存等所有的控制都运行在一个操作系统中(Unix、Linux)
  2. MPP(massively parallel processing,大规模并行处理):每个处理器都有属于自己的操作系统,通过通信协议连接,可以同时处理同一程序的不同部分。

集群渲染技术优点:

  • 多颗多核处理器的密集式服务器渲染节点将计算能力发挥极致
  • 满足高速带宽的任务分发管理中心
  • 支持多应用,需要复杂运算的场景统一部署
  • 兼容多操作系统,多软件
  • 实时监控渲染动态,随时调整任务
  • 数据共享,易操作,易管理
  • 稳定性,安全的数据与足够的网络带宽环境
  • 单机具备升级空间,系统具备扩容性

4、云渲染:由客户端处理的图形渲染转移至服务器端;


总结

分享:

石上偈
无材可去补苍天,枉入红尘若许年;
此系身前身后事,倩谁记去做奇传?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1296887.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

试块二维码制作

记号笔传统方式对试块进行标识,试块表面空间有限能记录的内容不多,标识错误,导致难以辨识,防止混淆和拿错!通过个试块进行二维码标识,微信扫码即可了解试块详细信息、生产日期、浇筑部位、强度等信息&#…

【AIGC】大语言模型的采样策略--temperature、top-k、top-p等

总结如下: 图片链接 参考 LLM解码-采样策略串讲 LLM大模型解码生成方式总结 LLM探索:GPT类模型的几个常用参数 Top-k, Top-p, Temperature

python爬取robomaster论坛文章数据,携带登录信息

一. 内容简介 python爬取robomaster论坛文章数据。 二. 软件环境 2.1vsCode 2.2Anaconda version: conda 22.9.0 2.3代码 三.主要流程 3.1 接口分析,以及网页结构分析 # 这是文章链接,其实id就是文章的id # https://bbs.robomaster.com/forum.php?modview…

数据库对象介绍与实践:视图、函数、存储过程、触发器和物化视图

文章目录 一、视图(View)1、概念2、基本操作1)创建视图2)修改视图3)删除视图4)使用视图 3、使用场景4、实践 二、函数(Function)1、概念2、基本操作1)创建函数2&#xff…

一文说清google最新大模型Gemini

随着AI技术的快速发展,谷歌和其他科技巨头在研究和部署上的竞争也越来越激烈。本月12月6号谷歌CEO哈萨比斯在谷歌官网发文,宣布推出万众瞩目的多模态大模型Gemini。标题明晃晃写着“最大”、“最强”,主打的就是一个干爆GPT-4。 一、Gemini的…

公网域名如何解析到内网IP服务器——快解析域名映射外网访问

在本地搭建主机应用后,由于没有公网IP或没有公网路由权限,在需要发布互联网时,就需要用到外网访问内网的一些方案。由于内网IP在外网不能直接访问,通常就用通过外网域名来访问内网的方法。那么,公网域名如何解析到内网…

WordCount 源码解析 Mapper,Reducer,Driver

创建包 com.nefu.mapreduce.wordcount ,开始编写 Mapper , Reducer , Driver 用户编写的程序分成三个部分: Mapper 、 Reducer 和 Driver 。 ( 1 ) Mapper 阶段 ➢ 用户自定义的 Mapper 要继承自己的父…

Linux,Web网站服务(一)

1.准备工作 为了避免发生端口冲突,程序冲突等现象,建议卸载使用RPM方式安装的httpd [rootnode01 ~]# rpm -e http --nodeps 挂载光盘到/mnt目录 [rootnode01 ~]# mount /dev/cdrom /mnt Apache的配置及运行需要apr.pcre等软件包的支持,因此…

ubuntu20 安装docker

一.官网安装文档 (基本按官方文档安装) Install Docker Engine on Ubuntu | Docker Docs 二.安装步骤 1.docker 需要64位操作系统、linux内核要在3.1以上 #uname -r 2.卸载可能存在的旧版本 #sudo apt-get remove docker docker-engine docker-ce …

使用STM32 HAL库进行GPIO控制的实例

✅作者简介:热爱科研的嵌入式开发者,修心和技术同步精进, 代码获取、问题探讨及文章转载可私信。 ☁ 愿你的生命中有够多的云翳,来造就一个美丽的黄昏。 🍎获取更多嵌入式资料可点击链接进群领取,谢谢支持!…

Redis 环境搭建

文章目录 第1关:Redis 环境搭建 第1关:Redis 环境搭建 编程要求 根据上述相关知识,在右侧命令行中完成 Redis 集群的部署与安装。 安装完成后,使用 echo “cluster nodes”|redis-cli -p 7001 -c >/root/test.txt 将结果保存。…

Kubernetes(K8s)数据存储-09

数据存储 在前面已经提到,容器的生命周期可能很短,会被频繁地创建和销毁。那么容器在销毁时,保存在容器中的数据也会被清除。这种结果对用户来说,在某些情况下是不乐意看到的。为了持久化保存容器的数据,kubernetes引…

SpringBoot集成Spring Security+jwt+kaptcha验证(简单实现,可根据实际修改逻辑)

参考文章 【全网最细致】SpringBoot整合Spring Security JWT实现用户认证 需求 结合jwt实现登录功能,采用自带/login接口实现权限控制 熟悉下SpringSecurity SpringSecurity 采用的是责任链的设计模式,是一堆过滤器链的组合,它有一条很…

2013年全国硕士研究生入学统一考试管理类专业学位联考数学试题——解析版

文章目录 2013 级考研管理类联考数学真题一、问题求解(本大题共 15 小题,每小题 3 分,共 45 分)下列每题给出 5 个选项中,只有一个是符合要求的,请在答题卡上将所选择的字母涂黑。真题(2013-01&…

每天学习一点shell系列(2)—函数的参数传递

参考博客:shell 脚本-10函数_eno_zeng的博客-CSDN博客 $n 或 ${n} :函数内使用 $n 或 ${n} 访问对应的参数, 数字代表参数的前后顺序, $1 代表第一个参数, $2 代表第三个参数, $n 代表第n个参数;当n>10时,需要使用${n}来获取参…

基于 ESP32-S3 的 Walter 开发板

Walter 是一款基于 ESP32-S3 且拥有 5G LTE 连接功能的新型开源开发套件。 近日,比利时公司 DPTechnics BV 推出了一款基于乐鑫 ESP32-S3 且拥有 5G LTE 连接功能的新型开源开发套件。该套件即将在 Crowd Supply 平台上发布,您可以点击此处了解详情。 无…

【Fastadmin】一个完整的轮播图功能示例

目录 1.效果展示: 列表 添加及编辑页面同 2.建表: 3.使用crud一键生成并创建控制器 4.html页面 add.html edit.html index.php 5.js页面 6.小知识点 1.效果展示: 列表 添加及编辑页面同 2.建表: 表名:fa_x…

[足式机器人]Part2 Dr. CAN学习笔记-数学基础Ch0-9阈值选取-机器视觉中应用正态分布和6-sigma

本文仅供学习使用 本文参考: B站:DR_CAN Dr. CAN学习笔记-数学基础Ch0-9阈值选取-机器视觉中应用正态分布和6-sigma 5M1E——造成产品质量波动的六因素 人 Man Manpower 机器 Machine 材料 Material 方法 Method 测量 Measurment 环境 Envrionment DMAI…

OpenCVForUnity的首部姿态识别功能

手势识别功能 插件名称:OpenCVForUnity 效果 关键代码 HandPoseEstimationMediaPipeExample MediaPipeHandPoseEstimator 第二步: 性能问题,功能是不错,可是一个手部识别的demo,cpu直接飙满了,这哪行。…

Spring基于注解开发

Component的使用 基本Bean注解&#xff0c;主要是使用注解的方式替代原有的xml的<bean>标签及其标签属性的配置&#xff0c;使用Component注解替代<bean>标签中的id以及class属性&#xff0c;而对于是否延迟加载或是Bean的作用域&#xff0c;则是其他注解 xml配置…