DAMA-DMBOK2重点知识整理CDGA/CDGP——第14章 大数据与数据科学

news2025/1/9 14:34:05

目录

一、分值分布

二、重点知识梳理

1、引言

1.1 业务驱动因素

1.2 原则

1.3 基本理念

2、活动

2.1 定义大数据战略和业务需求

2.2 选择数据源

2.3 获得和接收数据源

2.4 制定数据假设和方法

2.5 集成和调整数据进行分析

2.6 使用模型探索数据

2.7 部署和监控

3、工具

3.1 大规模并行处理(MPP)

3.2 基于分布式文件的数据库

4、方法

4.1 解析建模

4.2 大数据建模

5、实施指南

5.1 战略一致性

5.2 就绪评估/风险评估

6、大数据和数据科学治理


一、分值分布

        CDGA:4分(4单选)

        CDGP:10分(2单选 4多选)

                考点:

                        业务驱动和原则;

                        基本概念;

                        活动;

                        工具和技术;

二、重点知识梳理

1、引言

语境关系图:

1.1 业务驱动因素

业务驱动因素:期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大业务驱动力。

1.2 原则

原则:组织应仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理。

1.3 基本理念

数据科学

  • 组成部分:
    • 1)数据挖掘
    • 2)统计分析
    • 3)机器学习
  • 依赖:
    • 1)丰富的数据源。
    • 2)信息组织和分析。
    • 3)信息交付。
    • 4)展示发现和数据洞察。
  • 数据科学的过程:
    • 1)定义大数据战略和业务需求。
    • 2)选择数据源。
    • 3)采集和提取数据资料。
    • 4)设定数据假设和方法。
    • 5)集成和调整数据进行分析。
    • 6)使用模型探索数据。
    • 7)部署和监控。

大数据

  • 定义(3V):
    • 1)数据量大(Volume)。大数据的量非常大(通常大于100TB,在1PB~1EB范围内)。
    • 2)数据更新快(Velocity)。指数据被捕获、生成或共享的速度。大数据通常实时地生成、分发及进行分析。
    • 3)数据类型多样/可变(Variety/Variability)。指抓取或传递数据的形式。大数据需要多种格式储存。通常,数据集内或跨数据集的数据结构是不一致的。
    • 4)数据黏度大(Viscosity)。指数据使用或集成的难度比较高。
    • 5)数据波动性大(Volatility)。指数据更改的频率,以及由此导致的数据有效时间短。
    • 6)数据准确性低(Veracity)。指数据的可靠程度不高。
  • 大数据架构:

数据湖:数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。

  • 数据湖可提供的场景:
    • 1)数据科学家可以挖掘和分析数据的环境。
    • 2)原始数据的集中存储区域,只需很少量的转换(如果需要的话)。
    • 3)数据仓库明细历史数据的备用存储区域。
    • 4)信息记录的在线归档。
    • 5)可以通过自动化的模型识别提取流数据的环境

        数据湖可以作为Hadoop其他数据存储系统集群服务数据转换和数据集成等数据处理工具的一种复合配置来实施。这些处理程序使跨基础架构的分析简化软件变得更加便利,从而使配置结合在起。

        数据湖的风险在于,它可能很快会变成数据沼泽——杂乱、不干净、不一致。为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要。为了理解数据湖中的数据是如何关联和连接的,数据架构师或者数据工程师通常使用单一键值或其他技术(语义模型、数据模型等),科学家和其他可视化开发人员通过这些技术数据即可知道如何使用数据湖中存储的信息

基于服务的架构(Services-Based Architecture,SBA):为一种立即提供(如果不是完全准确或完整)数据的方法,并使用相同的数据源来更新完整、准确的历史数据集。

  • SBA组件:
    • 1)批处理层(Batch Layer)。数据湖作为批处理层提供服务,包括近期的和历史的数据。
    • 2)加速层(Speed Layer)。只包括实时数据。
    • 3)服务层(Serving Layer)。提供连接批处理和加速层数据的接口

机器学习:机器学习(Machine Learning)探索了学习算法的构建和研究,它可以被视为无监督学习和监督学习方法的结合

  • 无监督学习:通常被称为数据挖掘
    • 算法类型:基于找到的那些隐藏的规律(数据挖掘)
  • 监督学习:是基于复杂的数学理论,特别是统计学、组合学和运筹学。
    • 算法类型:基于通用规则(如将SPAM邮件与非SPAM邮件分开)。
  • 强化学习:即没有通过教师的认可就实现了目标优化,如驾驶车辆
    • 算法类型:基于目标的实现(如在国际象棋中击败对手)。

语义分析:媒体监控和文本分析是从大量非结构化或半结构化数据(如事务数据、社交媒体、博客和Web新闻网站)中检索并获得见解的自动化方法,用于感知人们对品牌、产品、服务或其他类型主题的感觉和看法。使用自然语言处理(NLP)分析短语或句子、语义察觉情绪,并揭示情绪的变化,以预测可能的情景

数据和文本挖掘:数据挖掘(Data mining)是一种特殊的分析方法,它使用各种算法揭示数据中的规律。它最初是机器学习的一个分支,属于人工智能的一个子领域。

  • ◼ 数据挖掘(Data mining)技术:
    • 1)剖析(Profiling)。
    • 2)数据缩减(Data reduction)。
    • 3)关联(Association)。
    • 4)聚类(Clustering)。
    • 5)自组织映射(Self-organizing maps)。

预测分析:预测分析(Predictive Analytics)是有监督学习的子领域,用户尝试对数据元素进行建模,并通过评估概率估算来预测未来结果。预测分析深深植根于数学,特别是统计学,与无监督学习拥有许多相同的组成部分,对预期预测结果进行测量时差异是可控的。

基于可能事件(购买、价格变化等)与可变因素(包括历史数据)的概率模型开发。

预测模型的最简单形式是预估(Forecast)。

规范分析(Prescriptive Analytics):它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。规范分析预计将会发生什么,何时会发生,并暗示它将会发生的原因。

运营分析(Operational Analytics):运营BI或流式分析,是从运营过程与实时分析的整合中产生的。运运营分析包括跟踪和整合实时信息流,根据行为预测模型得出结论,并触发自动响应和警报。

数据可视化:可视化(Visualization)是通过使用图片或图形表示来解释概念、想法和事实的过程。数据可视化通过视觉概览(如图表或图形)来帮助理解基础数据。数据可视化压缩并封装特征数据,使其更易于查看。通过这种方式,有助于发现商机,识别风险或凸显信息。

数据混搭(Data Mashups):将数据和服务结合在一起,以可视化的方式展示见解或分析结果。

2、活动

2.1 定义大数据战略和业务需求

  • 大数据战略的评估标准:
    • 1)组织试图解决什么问题,需要分析什么。
    • 2)要使用或获取的数据源是什么。
    • 3)提供数据的及时性和范围。
    • 4)对其他数据结构的影响以及与其他数据结构的相关性。
    • 5)对现有建模数据的影响。

2.2 选择数据源

  • 需要了解以下内容:
    • 1)数据源头。
    • 2)数据格式。
    • 3)数据元素代表什么。
    • 4)如何连接其他数据。
    • 5)数据的更新频率。
  • 要审查数据源和创建这些源的流程:
    • 1)基础数据。
    • 2)粒度。
    • 3)一致性。
    • 4)可靠性。
    • 5)检查/分析新数据源。

2.3 获得和接收数据源

获取时需要捕获有关源的关键元数据,如来源、大小、时效性和相关内容的额外知识。迭代地识别当前数据资产基础和这些数据源的差距,使用分析、可视化、挖掘或其他数据科学方法探索这些数据源,以定义模型算法输入或模型假设。在整合数据之前,应先评估数据的质量。 

2.4 制定数据假设和方法

制订数据科学解决方案需要构建统计模型,找出数据元素和数据集内部以及二者之间的相关性和趋势。模型的效果取决于输入数据的质量和模型本身的健全性。

2.5 集成和调整数据进行分析

准备用于分析的数据包括了解数据中的内容、查找各种来源的数据间的链接以及调整常用数据以供使用。

2.6 使用模型探索数据

  • 1.填充预测模型。需要使用历史信息预先填充配置预测模型,这些信息涉及模型中的客户、市场、产品或模型触发因素之外的其他因素。
  • 2.训练模型。需要通过数据模型进行训练。训练包括基于数据重复运行模型以验证假设,将导致模型更改。训练需要平衡,通过针对有限数据文件夹的训练避免过度拟合。
  • 3.评估模型。将数据放入平台并准备分析后,数据科学就开始了。针对训练集进行模型构建、评估和验证。
  • 4.创建数据可视化。必须满足与模型目的相关的特定需求,每个可视化应该能够回答一个问题或提供一个见解。

2.7 部署和监控

满足业务需求的模型,必须以可行的方式部署到生产中,以获得持续监控。

  • 步骤
    • 1.揭示洞察和发现。洞察应与行动项目相关联,这样组织才能从数据科学工作中受益。
    • 2.使用附加数据源迭代。数据科学是一个迭代的过程

3、工具

改变了我们查看数据和信息方式的技术

  • 1)数据库内的高级分析。
  • 2)非结构化数据分析(Hadoop,MapReduce)。
  • 3)分析结果与操作系统的集成。
  • 4)跨多媒体和设备的数据可视化。
  • 5)链接结构化和非结构化信息的语义。
  • 6)使用物联网的新数据源。
  • 7)高级可视化能力。
  • 8)数据扩展能力。
  • 9)技术和工具集的协作。

3.1 大规模并行处理(MPP)

大规模并行处理(MPP)的出现是大数据和数据科学的首批推动者之一,因为它提供了在相对较短的时间内分析巨量信息的手段

大规模并行处理(MPP)的无共享数据库技术,已成为面向数据科学的大数据集分析标准平台。基于分布式文件的数据库。数据库内算法。大数据云解决方案。统计计算和图形语言。数据可视化工具集。

3.2 基于分布式文件的数据库

基于文件的解决方案中使用的模型称为MapReduce。该模型有三个主要步骤:

  • 1)映射(Map)。识别和获取需要分析的数据。
  • 2)洗牌(Shuffle)。依据所需的分析模式组合数据。
  • 3)归并(Reduce)。删除重复或执行聚合,以便将结果数据集的大小减少到需要的规模。

4、方法

4.1 解析建模

  • 解析模型与不同的分析深度相关联:
    • 1)描述性建模以紧凑的方式汇总或表示数据结。
    • 2)解释性建模是数据统计模型的应用,主要是验证关于理论构造的因果假设。预测分析的关键是通过训练模型来学习,学习方法的效果取决于它在测试集(与训练集相互独立)上的预测能力。

4.2 大数据建模

对数据仓库进行物理建模的主要驱动因素是为查询性能而启用数据填充。

5、实施指南

管理数据仓库数据的许多一般规则适用于管理大数据

  1. 确保数据源可靠
  2. 具有足够的元数据以支持数据使用
  3. 管理数据质量
  4. 确定如何整合来自不同源的数据
  5. 以及确保数据安全且受到保护

实施大数据环境的差异与一组未知问题有关

  1. 如何使用数据
  2. 哪些数据有价值
  3. 需要保留多长时间

5.1 战略一致性

战略交付成果应考虑管理以下要素

  • 1)信息生命周期。
  • 2)元数据。
  • 3)数据质量。
  • 4)数据采集。
  • 5)数据访问和安全性。
  • 6)数据治理。
  • 7)数据隐私。
  • 8)学习和采用。
  • 9)运营。

5.2 就绪评估/风险评估

评估与关键成功因素相关的组织准备情况,具体包括

  • 1)业务相关性。
  • 2)业务准备情况。
  • 3)经济可行性。
  • 4)原型。
  • 5)可能最具挑战性的决策将围绕数据采购、平台开发和资源配置进行。
  • 6)数字资料存储有许多来源,并非所有来源都需要内部拥有和运营。
  • 7)市场上有多种工具和技术,满足一般需求将是一个挑战。
  • 8)保护具有专业技能的员工,并在实施过程中留住顶尖人才,可能需要考虑替代方案,包括专业服务、云采购或合作。
  • 9)培养内部人才的时间可能会超过交付窗口的时间。

6、大数据和数据科学治理

解决的问题

  • 1)寻源。来源有哪些,什么时候接入源,什么是特定研究的最佳数据来源。
  • 2)共享。组织内部和外部要签订的数据共享协议和合同、条款和条件。
  • 3)元数据。数据在源端意味着什么,如何解释输出端的结果。
  • 4)丰富。是否丰富数据,如何丰富数据,以及丰富数据的好处。
  • 5)访问。发布什么,向谁发布,如何以及何时发布。企业数据视图应该推动数据处理决策。

数据科学和可视化标准:最佳实践是建立一个定义和发布可视化标准和指南的社区,并在指定的交付方法中审查工件,这对于面向客户和监管的内容尤为重要。

  • 标准可能包括:
    • 1)分析范例、用户团体、主题域的工具标准。
    • 2)新数据的请求。
    • 3)数据集流程标准。
    • 4)采用中立的、专业的陈述过程,避免产生有偏见的结果,并确保所有要素都以公平一致的方式完成,包括:
      • ①数据包含和排除。
      • ②模型中的假设。
      • ③结果统计有效性。
      • ④结果解释的有效性。
      • ⑤采用适当的方法。

元数据:元数据需要作为数据提取的一部分进行谨慎管理,否则数据湖将迅速成为数据沼泽。

数据质量:大多数成熟的大数据组织,使用数据质量工具集扫描数据输入源,以了解其中包含的信息。大多数高级数据质量工具集都提供了一些功能,使组织能够测试假设,并构建有关其数据的知识。例如:

  • 1)发现。信息驻留在数据集中的位置。
  • 2)分类。基于标准化模式存在哪些类型的信息。
  • 3)分析。如何填充和构建数据。
  • 4)映射。可以将哪些其他数据集与这些值匹配。

度量指标

  • 1.技术使用指标。
  • 2.加载和扫描指标。
  • 3.学习和故事场景。
    • 常用的测量方法包括:
      • 1)已开发模型的数量和准确性。
      • 2)已识别的机会中实现的收入。
      • 3)避免已识别的威胁所降低的成本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1050736.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

09链表-单链表移除元素

目录 链表(Linked List) 链表的数据结构 单链表 双链表 循环链表 链表的存储方式 删除节点 添加节点 LeetCode之路——203. 移除链表元素 分析: 链表(Linked List) 链表是一种线性数据结构,用于…

C运算符和控制语句

几乎每一个程序都需要进行运算,对数据进行加工处理,否则程序就没有意义了。要进行运算,就需规定可以使用的运算符。 C语言的运算符范围很宽,把除了控制语句和输人输出以外的几乎所有的基本操作都作为运算符处理。 运算符分类1 除…

Scala第六章节

Scala第六章节 scala总目录 章节目标 掌握类和对象的定义掌握访问修饰符和构造器的用法掌握main方法的实现形式掌握伴生对象的使用掌握定义工具类的案例 1. 类和对象 Scala是一种函数式的面向对象语言, 它也是支持面向对象编程思想的,也有类和对象的概念。我们依…

【Linux指令集】---git命令的基本使用

个人主页:兜里有颗棉花糖 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 兜里有颗棉花糖 原创 收录于专栏【Linux专栏】🎈 本专栏旨在分享学习Linux的一点学习心得,欢迎大家在评论区讨论💌 演示环境&#xff1…

Spring修炼之路(1)基础入门

一、简介 1.1Spring概述 Spring框架是一个轻量级的Java开发框架,它提供了一系列底层容器和基础设施,并可以和大量常用的开源框架无缝集成,可以说是开发Java EE应用程序的必备。Spring是一个轻量级的控制反转(IoC)和面向切面(AOP)的容器&…

51单片机音乐闹钟秒表倒计时整点报时多功能电子钟万年历数码管显示( proteus仿真+程序+原理图+报告+讲解视频)

51单片机音乐闹钟秒表倒计时整点报时多功能电子钟万年历数码管显示( proteus仿真程序原理图报告讲解视频) 讲解视频1.主要功能:2.仿真3. 程序代码4.原理图5. 设计报告6. 设计资料内容清单 51单片机音乐闹钟秒表倒计时整点报时多功能电子钟万年历数码管显…

Scala第一章节

Scala第一章节 scala总目录 章节目标 理解Scala的相关概述掌握Scala的环境搭建掌握Scala小案例: 做最好的自己 1. Scala简介 1.1 概述 ​ Scala(斯嘎拉)这个名字来源于"Scalable Language(可伸缩的语言)", 它是一门基于JVM的多范式编程语言, 通俗的说: Scala是一…

面向对象【递归方法】

文章目录 递归编写递归函数递归的工作原理常见的递归应用场景递归注意点 递归 递归是一种解决问题的方法,其中一个函数调用自身以解决较小的实例,直到达到基本情况(停止条件),然后开始返回结果。递归可以让我们更容易地…

CSS详细基础(五)选择器的优先级

本节介绍选择器优先级,优先级决定了元素最终展示的样式~ 浏览器是通过判断CSS优先级,来决定到底哪些属性值是与元素最为相关的,从而作用到该元素上。CSS选择器的合理组成规则决定了优先级,我们也常常用选择器优先级来合理控制元素…

038:vue页面头部提示低版本浏览器升级问题

第038个 查看专栏目录: VUE ------ element UI 专栏目标 在vue和element UI联合技术栈的操控下,本专栏提供行之有效的源代码示例和信息点介绍,做到灵活运用。 (1)提供vue2的一些基本操作:安装、引用,模板使…

一例疑似MMCore下载器分析

概述 这是一例文件夹病毒,手法相对比较高级,通过域名关联到MMCore样本,可能与印度方向APT组织有关联。 这个病毒使用了分离免杀技术,有2个样本,一个加载器,一个payload。 加载器(文件名为dwm22.exe)的主要…

并发——中断机制

1.中断概述 中断只是一种协商机制,如果要中断一个线程,需要手动调用该线程的interrupt方法,将此线程对象的中断标识设为true(默认中断标志位为false),接着我们需要手动写代码去不断的检测要中断线程的标识位,如果为tr…

阿木实验室PrometheusV1.1安装+Ubuntu 20.04

1. 安装ros-noetic 2. 安装Mavros包 sudo apt-get install ros-noetic-mavros ros-noetic-mavros-extras3. GeographicLib wget https://raw.githubusercontent.com/mavlink/mavros/master/mavros/scripts/install_geographiclib_datasets.sh这里可以使用代理 :wg…

笔训day1

目录 选择题 1、%m.ns 编程题 第一题 第二题 选择题 1、%m.ns m:字符串的宽度。 n:左起截取目标字符串n个字符,右对齐,补空格。 1、字符串长度>n>m : 受n控制,左起截取n个字符,右对齐&#x…

什么是Times New Roman 字体

如何评价 Times New Roman 字体?:https://www.zhihu.com/question/24614549?sortcreated 新罗马字体是Times New Roman字体,是Office Word默认自带的英文字体之一。 中英文字体 写作中,英文和数字的标准字体为 Times New Roma…

什么是AI客流量算法?如何应用在实际场景中?

客流量分析算法简而言之就是一种利用数据分析和机器学习技术进行人流量统计、预测和分析的算法。它能够根据不同的数据来源,如摄像头、传感器等,对特定区域内的客流量进行实时监测和分析,并通过对历史数据的综合分析,提供客流趋势…

MySQL索引优化,设计原则 及 trace 详解(思维导图)

MySQL版本:8.0.33 MySQL联合索引使用总结:

基于 Python+Django 实现一个电商购物网站系统

随着互联网的高速发展,电子商务行业也正迎来了其黄金时代。如何搭建一个功能完备、体验良好的电商网站成了许多开发者的关心话题。 今天,我将带大家使用Python语言和Django框架,快速打造一个电商购物系统。如果你有一定的Python基础&#xf…

轻松批量重命名:使用编号为文件重新命名,提高工作效率!

如果你经常需要处理大量文件,那么你一定知道给文件重命名是一项多么繁琐的任务。但是,我们今天将为你提供一种简单的方法,可以批量给文件进行重命名,让你轻松提高工作效率 首先我们要进入文件批量改名高手主页面,并在…

px4的gazebo仿真相机模型报错解决办法,返回值256

👉事情起因:我想做关于PX4无人机的摄像头仿真,根据PX4的官网文件 Tools/sitl_gazebo文件夹里面有对应的模型可以使用,我就想在mavros_posix_sitl文件里面修改vehicle参数,比如直接将vehicle“iris_stereo_camera”。然…