第14章 大数据与数据科学知识点梳理

news2024/10/6 22:24:15

第14章 大数据与数据科学知识点梳理(附带页码)


在这里插入图片描述
◼ 原则:组织应仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理。P386

◼ 大数据:数据量大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)。数据黏度大(Viscosity)。数据波动性大(Volatility)。数据准确性低(Veracity)。P390

◼ 数据科学家:从数据中探究、研发预测模型、机器学习模型、规范性模型和分析方法并将研发结果 进行部署供相关方分析的人。P386

◼ 大多数据仓库都依赖于 ETL,大数据解决方案,如数据湖,则依赖于 ELT。P386

◼ 业务驱动:期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大业务驱动力。P387

◼ 数据科学依赖:1)丰富的数据源。2)信息组织和分析。3)信息交付。4)展示发现和数据洞察。P389

◼ 数据科学的过程阶段:1 定义大数据战略和业务需求。2 选择数据源。3 获得和接收数据源。4 制定数据假设和方法。5 集成和调整进行数据分析。6 使用模型探索数据。7 部署和监控。P388-389
在这里插入图片描述
◼ 数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。提供 1)数据科学家可以挖掘和分析数据的环境。2)原始数据的集中存储区域,只需很少量的转换(如果需要的话)。3)数据仓库明细历史数据的备用存储区域。4)信息记录的在线归档。5)可以通过自动化的模型识别提取流数据的环境。

◼ 数据湖可能很快变成数据沼泽,在数据被摄取时要对元数据进行管理。

◼ 基于服务的体系结构(Services-Based Architecture,SBA)正成为一种立即提供数据的方法,并使用相同的数据源来更新完整、准确的历史数据。数据会发送到 ODS 中实现即时存取,也会将数据发送到数据仓库中以实现历史积累。包括三个主要的组件,分别是 1)批处理层。数据湖作为批处理层提供服务,包括近期的和历史的数据。2)加速层。只包括实时数据。3)服务层。提供连接批处理和加速层数据的接口。P393

◼ 机器学习探索了学习算法的构建和研究,是无监督学习和监督学习方法的结合。无监督学习称为数据挖掘,监督学习是基于复杂的数字理论。第三分支正处于形成过程,没有经过教师的认可就可实现了目标优化,称为强化学习。通过编程使机器可以快速从查询中学习并适应不断变化的数据集,是机器学习。这些算法一般分为三种类型:1)监督学习(Supervised learning)。2)无监督学习(Unsupervised learning)。基于找到的那些隐藏的规律(数据挖掘)。3)强化学习(Reinforcement learning)。基于目标的实现(如在国际象棋中击败对手)。P394

◼ 语义分析。从大量非结构化或半结构化数据中检索并获得见解的自动化方法,用于感知人们对品牌、产品、服务或其他类型主题的感觉和看法。P394

◼ 数据挖掘(Data mining)机器学习的一个分支,无监督学习。技术:1)剖析(Profiling)。尝试描述典型行为,用于建立异常检测应用程序的行为规范。2)数据缩减(Data reduction)。用较小的数据集来替换大数据。3)关联(Association)。根据交易涉及的元素,找到它们之间的联系。4)聚类(Clustering)。基于元素的共享特征,聚合为不同的簇。5)自组织映射(Selforganizing maps)。减少评估空间的维度。P395

◼ 预测分析(Predictive Analytics)是有监督学习的子领域,用户尝试对数据元素进行建模,并通过评估概率估算来预测未来结果。基于可能事件(购买、价格变化等)与可变因素(包括历史数据)的概率模型开发。当它接收到其它信息时,模型会触发组织的反应。预测模型的最简单形式是预估(Forecast)。P395

◼ 规范分析(Prescriptive Analytics):它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。规范分析预计将会发生什么,何时会发生,并暗示它将会发生的原因。P396

◼ 非结构化数据分析。结合了文本挖掘、关联分析、聚类分析和其他无监督学习技术来处理大型数据集。扫描和标记是向非结构化数据添加“钩子“的一个方法。P396

◼ 运营分析(Operational Analytics)运营 BI 或流式分析:是从运营过程与实时分析的整合中产生的。运运营分析包括跟踪和整合实时信息流,根据行为预测模型得出结论,并触发自动响应和警报。P396

◼ 数据可视化(Visualization)是通过使用图片或图形表示来解释概念、想法和事实的过程。数据可视化通过视觉概览(如图表或图形)来帮助理解基础数据。长期以来,可视化一直是数据分析的关键。P397

◼ 数据混搭(Data Mashups)将数据和服务结合在一起,以可视化的方式展示见解或分析结果。

◼ 【活动 1】定义大数据战略和业务需求。1)组织试图解决什么问题,需要分析什么。2)要使用或获取的数据源是什么。3)提供数据的及时性和范围。4)对其他数据结构的影响以及与其他数据结构的相关性。5)对现有建模数据的影响。P397

◼ 【活动 2】选择数据源。需要了解以下内容:1)数据源头。2)数据格式。3)数据元素代表什么。4)如何连接其他数据。5)数据的更新频率。需要评估数据的价值和可靠性:1)基础数据。2)粒度。3)一致性。4)可靠性。5)检查/分析新数据源。P398

◼ 【活动 3】获得和接收数据源。获取时需要捕获有关源的关键元数据,如来源、大小、时效性和相关内容的额外知识。迭代地识别当前数据资产基础和这些数据源的差距,使用分析、可视化、挖掘或其他数据科学方法探索这些数据源,以定义模型算法输入或模型假设。在整合数据之前,应先评估数据的质量。P399

◼ 【活动 4】制定数据假设和方法。制订数据科学解决方案需要构建统计模型,找出数据元素和数据集内部以及二者之间的相关性和趋势。模型的效果取决于输入数据的质量和模型本身的健全性。P400

◼ 【活动 5】集成和调整数据进行分析。准备用于分析的数据包括了解数据中的内容、查找各种来源的数据间的链接以及调整常用数据以供使用。一方法是使用共有键值整合数据的通用模型。另一方法是使用数据库引擎内的索扫描和连接数据。P400

◼ 【活动 6】使用模型探索数据。1.填充预测模型。需要使用历史信息预先填充配置预测模型,这些信息涉及模型中的客户、市场、产品或模型触发因素之外的其他因素。2.训练模型。需要通过数据模型进行训练。训练包括基于数据重复运行模型以验证假设,将导致模型更改。训练需要平衡,通过针对有限数据文件夹的训练避免过度拟合。3.评估模型。将数据放入平台并准备分析后,数据科学就开始了。针对训练集进行模型构建、评估和验证。4.创建数据可视化。必须满足与模
型目的相关的特定需求,每个可视化应该能够回答一个问题或提供一个见解。P400-402

◼ 【活动 7】部署和监控。满足业务需求的模型,必须以可行的方式部署到生产中,以获得持续监控。1.揭示洞察和发现。洞察应与行动项目相关联,这样组织才能从数据科学工作中受益。2.使用附加数据源迭代。数据科学是一个迭代的过程。P402

◼ 工具大规模并行处理(MPP)。1)数据库内的高级分析。2)非结构化数据分析(Hadoop,MapReduce)。3)分析结果与操作系统的集成。4)跨多媒体和设备的数据可视化。5)链接结构化和非结构化信息的语义。6)使用物联网的新数据源。7)高级可视化能力。8)数据扩展能力。9)技术和工具集的协作。数据仓库、数据集市和操作型数据存储(ODS)。No-SQL 技术。批处理接口。大数据内存技术。决策标准工具集。流程实施工具。专业服务。

◼ 工具MPP 无共享技术和架构。基于分布式文件的数据库。 数据库内算法。大数据云解决方案。统计计算和图形语言。数据可视化工具集。p402-406

◼ MPP 无共享技术和架构。在所有可用的本地化硬件上,自动分发数据和并行化查询工作负载的系统是大数据分析的最佳解决方案。P403

◼ 基于文件的解决方案中使用的模型称为 MapReduce。该模型有三个主要步骤:1)映射(Map)。识别和获取需要分析的数据。2)洗牌(Shuffle)。依据所需的分析模式组合数据。3)归并(Reduce)。删除重复或执行聚合,以便将结果数据集的大小减少到需要的规模。P404

◼ 方法:(1)解析建模。1)描述性建模以紧凑的方式汇总或表示数据结。。2)解释性建模是数据统计模型的应用,主要是验证关于理论构造的因果假设。预测分析的关键是通过训练模型来学习,学习方法的效果取决于它在测试集(与训练集相互独立)上的预测能力。(2)大数据建模。对数据仓库进行物理建模的主要驱动因素是为查询性能而启用数据填充。P406-407

◼ 实施指南:管理数据仓库数据的许多一般规则适用于管理大数据。实施大数据环境的差异与一组未知问题有关:如何使用数据、哪些数据有价值、需要保留多长时间。P407

◼ 战略交付成果应考虑管理以下要素:1)信息生命周期。2)元数据。3)数据质量。4)数据采集。5)数据访问和安全性。6)数据治理。7)数据隐私。8)学习和采用。9)运营。P407-408

◼ 就绪评估/风险评估。评估与关键成功因素相关的组织准备情况,具体包括:1)业务相关性。2)业务准备情况。3)经济可行性。4)原型。5)可能最具挑战性的决策将围绕数据采购、平台开发和资源配置进行。6)数字资料存储有许多来源,并非所有来源都需要内部拥有和运营。7)市场上有多种工具和技术,满足一般需求将是一个挑战。8)保护具有专业技能的员工,并在实施过程中留住顶尖人才,可能需要考虑替代方案,包括专业服务、云采购或合作。9)培养内部人才的时间可能会超过交付窗口的时间。P408

◼ 大数据实施将汇集多关键的跨职能角色。包括:1)大数据平台架构师。硬件、操作系统、文件系统和服务。2)数据摄取架构师。数据分析、系统记录、数据建模和数据映射。提供或支持将源映射到 Hadoop 集群以进行查询和分析。3)元数据专家。元数据接口、元数据架构和内容。4)分析设计主管。最终用户分析设计、最佳实践依靠相关工具集指导实施,以及最终用户结果集简化。5)数据科学家。提供基于统计和可计算性的理论知识,交付适当的工具和技术,应用到功能需求的架构和模型设计咨询。P409

◼ 大数据和数据科学治理:寻源。共享。元数据。丰富。访问。P409

◼ 数据科学和可视化标准:最佳实践是建立一个定义和发布可视化标准和指南的社区,并在指定的交付方法中审查。标准可能包括:1)分析范例、用户团体、主题域的工具标准。2)新数据的请求。3)数据集流程标准。4)采用中立的、专业的陈述过程,避免产生有偏见的结果,并确保所有要素都以公平一致的方式完成,包括:①数据包含和排除。②模型中的假设。③结果统计有效性。④结果解释的有效性。⑤采用适当的方法。P409-410

◼ 元数据需要作为数据提取的一部分进行谨慎管理,否则数据湖将迅速成为数据沼泽。

◼ 成熟的大数据组织使用数据质量工具集扫描数据输入源,用以了解相关信息,大多工具都有:1)发现。信息驻留在数据集中的位置。2)分类。基于标准化模式存在哪些类型的信息。3)分析。如何填充和构建数据。4)映射。可以将哪些其他数据集与这些值匹配。

◼ 度量指标:1.技术使用指标。2.加载和扫描指标。提取率和与用户社区的交互。3.学习和故事场景。常用的测量方法包括:1)已开发模型的数量和准确性。2)已识别的机会中实现的收入。3)避免已识别的威胁所降低的成本。P412


第1章 数据管理
第2章 数据处理伦理
第3章 数据治理
第4章 数据架构
第5章 数据建模和设计
第6章 数据存储和操作
第7章 数据安全
第8章 数据集成和互操作
第9章 文件和内容管理
第10章 参考数据和主数据
第11章 数据仓库和数据智能
第12章 元数据管理
第13章 数据质量
第14章 大数据与数据科学
第15章 数据管理成熟度评估
第16章 数据管理组织与角色期望
第17章 数据管理和组织变革管理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1602082.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

嵌入式中C++指针使用方法总结

各位开发者大家好,在分享指针之前,先来看一下int *p[3]和int (*p)[3] 的区别。 int *p[3] p是一个数组,此数组有3个元素,每个元素都是int*类型,也就是指向整型数据的指针类型。 int a=10,b=20,c=30; int*p[3]={&a,&b,&c}; 而int(*p)[3]中的p是一个指向数组的…

浅谈Java的synchronized 锁以及synchronized 的锁升级

在Java中,synchronized关键字用于实现线程间的同步,确保同一时刻只有一个线程能够访问被同步的代码块或方法。当一个线程获得synchronized锁定后,其他试图访问同一锁的线程将被阻塞,直到锁被释放。 synchronized锁有两种基本形式…

计算机网络实验实验之VLAN的配置与分析

实验目的 了解什么是带内管理;熟练掌握如何使用telnet方式管理交换机;熟练掌握如何为交换机设置web方式管理;熟练掌握如何进入交换机web管理方式;了解交换机web配置界面,并能进行部分操作。 (6)了解VLAN原理&#xf…

python pygame事件与事件处理

本期是接上期python pygame库的略学内容最后一个步骤,游戏与玩家交互的内容。 一、什么是事件 游戏需要与玩家交互,因此它必须能够接收玩家的操作,并根据玩家的不同操作做出有针对性的响应。程序开发中将玩家会对游戏进行的操作称为事件&…

微服务架构与Dubbo

一、微服务架构 微服务架构是一种架构概念,旨在通过将功能分解到各个离散的服务中以实现对解决方案的解耦。 分布式系统式若干独立系统的集合,但是用户使用起来好像是在使用一套系统。 和微服务对应的是单体式开发,即所有的功能打包在一个WAR…

关于CRMEB 商城系统商业授权的那些事儿

现在,很多时候我们都会听到“授权”这个词,在CRMEB的商城系统产品中,商业授权也是一个重要环节,今天,我们就来了解一下关于CRMEB商城系统授权的那些事儿。 一、为什么要进行商业授权? 正版商业授权是对用户…

【Linux】详解如何利用共享内存实现进程间通信

一、共享内存(Shared Memory)的认识 共享内存(Shared Memory)是多进程间共享的一部分物理内存。它允许多个进程访问同一块内存空间,从而在不同进程之间共享和传递数据。这种方式常常用于加速进程间的通信,因…

软考130-上午题-【软件工程】-系统维护

一、系统维护概述 软件维护是软件生命周期中的最后一个阶段,处于系统投入生产性运行以后的时期中,因此不属于系统开发过程。 软件维护是在软件已经交付使用之后为了改正错误或满足新的需求而修改软件的过程,即软件在交付使用后对软件所做的一…

李沐-19 卷积层【动手学深度学习v2】

记录下关于权重下标变换的理解: 从原来的Wi,j到Wi,j,k,l是从二维到四维的过程,如下图所示 对全连接层使用平移不变性和局部性得到卷积层,这是卷积层的引入,下方Vi,j,a,b--->Va,b表示了平移不变性,给a,b限制在||内保…

C语言 【函数】

1.函数概述 函数是一种可重用的代码块&#xff0c;用于执行特定任务或完成特定功能 函数作用&#xff1a;对具备相同逻辑的代码进行封装&#xff0c;提高代码的编写效率&#xff0c;实现对代码的重用 2. 函数的使用 2.1 无参无返回值 #include <stdio.h>// 函数名…

光纤收发器的注意事项

光纤收发器有各种不同的类别&#xff0c;而实际使用中最受关注的是根据光纤收发器的不同类别&#xff1a;SC连接器光纤收发器和FC/ST连接器光纤收发器。 当使用光纤收发器连接到不同的设备时&#xff0c;必须小心使用不同的端口。 1.光纤收发器与100Base TX设备&#xff08;交…

IP定位技术原理详细阐述

IP定位技术原理主要基于IP地址与地理位置之间的关联&#xff0c;通过一系列的技术手段&#xff0c;实现对网络设备的物理位置进行精确或大致的定位。以下是对IP定位技术原理的详细阐述。 首先&#xff0c;我们需要了解IP地址的基本概念。IP地址是互联网协议地址的简称&#xff…

【leetcode】双指针算法技巧——滑动窗口

标题&#xff1a;【leetcode】双指针算法技巧——滑动窗口 水墨不写bug 正文开始&#xff1a; 滑动窗口介绍 滑动窗口是一种常用的算法技巧&#xff0c;用于解决一些涉及 连续子数组或子串 的问题。它的基本思想是 维护一个窗口&#xff0c;通过 在窗口内移动 来寻找满…

LeetCode刷题总结 | 图论3—并查集

并查集理论基础 1.背景 首先要知道并查集可以解决什么问题呢&#xff1f; 并查集常用来解决连通性问题。大白话就是当我们需要判断两个元素是否在同一个集合里的时候&#xff0c;我们就要想到用并查集。 并查集主要有两个功能&#xff1a; 将两个元素添加到一个集合中。判…

Day18_学点儿设计模式_MVC和三层架构

0 优质文章 MVC与三层架构 什么是MVC&#xff1f;什么是三层架构&#xff1f; 三层架构与MVC详细讲解 MVC三层架构&#xff08;详解&#xff09; 1 MVC MVC全名是Model View Controller&#xff0c;是模型(model)&#xff0d;视图(view)&#xff0d;控制器(controller)的缩写…

【Vue3】setup语法糖的使用

文章目录 setup简介使用vite-plugin-vue-setup-extend插件 指定组件名字 setup简介 <script setup> 是在单文件组件 (SFC) 中使用组合式 API 的编译时语法糖 相比较普通的<script> ,它有以下优势&#xff1a; 更少的样板内容&#xff0c;更简洁的代码。能够使用纯…

图论学习总结

文章目录 图论学习总结前言一、基础知识图的存储图的遍历 二、最短路多源最短路 F l o y d Floyd Floyd​ 算法例题及变形** e g 1 &#xff1a; S o r t i n g I t A l l O u t eg1&#xff1a;Sorting\ It\ All\ Out eg1&#xff1a;Sorting It All Out ( A c W i n g 343 /…

数字次数排序-第12届蓝桥杯省赛Python真题精选

[导读]&#xff1a;超平老师的Scratch蓝桥杯真题解读系列在推出之后&#xff0c;受到了广大老师和家长的好评&#xff0c;非常感谢各位的认可和厚爱。作为回馈&#xff0c;超平老师计划推出《Python蓝桥杯真题解析100讲》&#xff0c;这是解读系列的第53讲。 数字次数排序&…

Oracle 11g完全卸载教程(Windows)

文章目录 一、停止Oracle服务二、卸载Oracle1、卸载Oracle产品2、删除注册表3、删除环境变量以及其余文件 一、停止Oracle服务 进入服务 找到服务中的Oracle服务并且停止 全部停止运行成功 二、卸载Oracle 1、卸载Oracle产品 点击开始菜单找到Oracle&#xff0c;然后点击…

【数据结构】习题之消失的数字和轮转数组

&#x1f451;个人主页&#xff1a;啊Q闻 &#x1f387;收录专栏&#xff1a;《数据结构》 &#x1f389;前路漫漫亦灿灿 前言 消失的数字这道题目我会和大家分享三种思路。 还有一道题目是轮转数组&#xff0c;&#xff0c;也会分享三种思路&#xff0c;大…