最新,2023年6月CDGP设计及论述题解析

news2025/1/11 11:12:27

02743d2d828a8f9a2e85b1d492032b37.jpeg


2023年6月CDGP设计及论述题解析

加gzh“大数据食铁兽”,回复“2023cdgp获取完整版)


  • 酒店会员建模

94b125b3d19df9d9cf9825e5ece86142.jpeg


  • 结合国内外数据安全法律法规,谈谈境外传输数据安全管理体系建设

国内:《数据安全法》、《网络安全法》、2022年9月施行《数据出境安全评估办法》国外:欧盟数据保护条令,美国国土安全法案和美国爱国者法、联邦信息安全管理法、加拿大198法案等涉及到个人信息:《个人信息保护法》● 从以下几个方面进行数据安全管理建设:(1)信息安全,包括:脆弱性、威胁、风险、加密、混淆/脱敏(2)网络安全,包括:后门、机器人/尸、防火墙、DMZ、键盘记录器、渗透测试、虚拟专用网(VPN)(3)数据安全,包括: 设施安全、设备安全、凭据安全、电子通信安全● 通过数据生命周期进行管理及建设:数据全生命周期包括规划-设计/启用-创建/获取-存储/维护-使用-增强及处置。规划:将数据与安全和隐私需求关联设计&启用:”在系统中建立数据保护和安全措施创建/获取:对新数据进行分类,以便合理保护数据存储/维护:确保数据存储符合政策法规的要求使用:管理访问权限,以保证对数据的合理使用,防止滥用增强:在监管要求和识别新的安全威胁上保持领先处置:遵循有关政策和法规要求处理数据


  • (1)主数据管理挑战?(2)主数据管理目标?(3)如何识别主数据?(4)主数据管理实施步骤?

(1)挑战:实体解析(身份管理),它是识别和管理来自不同系统和流程数据之间的关联的过程。必须对这个过程进行持续的管理,让这些主数据实体、实例和标识保持一致。(2)目标:确保组织在各个流程中拥有完整一致最新且权威的主数据、促使企业在各业务单元和各应用系统之前共享主数据。(3)主数据是关于业务实体的数据,主要包括参考数据、企业结构数据、交易结构数据。主数据实体的识别/解析步骤如下:1)匹配、2)标解析、3)配工作流和对帐类型、4)数据ID管理5) 从属管理(4)步骤:识别驱动因素和需求、评价评估数据源、定义架构方法、建模主数据、定义管理职责和维护六、建立治理制度推动主数据使用。

  • (1)如何构建数仓?(2)现代数据架构的特点?(3)数据仓库及数据湖的异同点?(4)如何解决SCD问题?

(1)数据仓库建设主要流程:1)理解需求2)定义和维护数据仓库/商务智能架构3)开发数据仓库和数据集市4)加载数据仓库5)实施商务智能产品组合6)维护数据产品(2)现代数据架构的特点:大数据的特点:3V(数量大、类型多、变化快)+价值密度低、价值高数据架构的特点:湖仓一体化,流批一体化。典型的代表是Lambda架构和Kappa架构。这里可以根据分值展开讲一讲。(3)数据仓库和数据湖的异同点:● 相同点:都可以用于大数据存储和分析,面向企业级应用。都有着非常大的存储容量和高效的数据存取速度。都支持批量和实时数据的处理,可以应对不同的数据处理需求。都面向企业决策和数据分析。● 异同点:数据结构:数据仓库采用规范化的数据结构,而数据湖则支持任意的数据格式以及非规范化的数据存储模式。数据来源:数据仓库主要是通过ETL的方式从不同的数据源抽取数据之后,再进行清洗、整合加工。而数据湖则是将未被处理、未经过清洗的原始数据存储在一个统一的存储空间中,支持所有的数据格式直接读取以及查询。数据使用:数据仓库主要用于企业决策和报表分析,是一种比较传统的数据分析方式。而数据湖具有更加广泛的应用范围,可以支持包括大数据、机器学习、人工智能等多种领域。数据时效性:数据仓库数据主要是历史性数据记录, 它被归档和批量处理,所以实际数据在数小时或数天以后才能获得。而数据湖支持更加实时的数据处理和查询,可以实时地获取数据并进行处理。(4)SCD问题:一些维度表的数据不是静态的,而是会随着时间而缓慢地变化,这种随着时间发生变化的维度称之为缓慢变化维,把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称SCD问题。解决方法:保留原始值、改写属性值、增加维度新行、增加维度新列、增加历史表、使用拉链表保存历史快照(推荐)。


  • (1)如何确定数据质量管理的优先级顺序?(2)结合本公司实际情况按照(1)顺序构建数据质量管理体系

(1)数据质量管理应该从组织中最重要的数据入手。即质量更高,为组织及客户提供更多价值。可以根据监管要求、财务价值和对客户的直接影响等因素对数据进行优先级排序。(2)结合实际情况本公司数据内容及优先级排序(略)。构建数据质量管理体系的方法:根据数据的生命周期进行数据质量管理。规划: 定义高质量数据的特征设计&启用:定义系统和流程控制来规避数据问题产生,保持数据质量创建/获取:测量或检查数据,确保数据满足质量要求存储/维护:借助系统和流程检测数据,确保数据能够持续的满足期望使用:使用反馈循环机制来持续提升数据的质量增强:就数据质量提升机会采取行动处置:基于数据质量要求正确地识别和提升数据

  • 结合本公司实践如何构建元数据管理体系,确保元数据质量

元数据是数据。与其他数据一样,它也有一个生命周期我们必须对它的生命周期进行管理。规划:定义元数据的需求设计&启用:将创建和管理元数据作为正在进行的数据管理活动的一部分创建/获取: 确保创建元数据并满足质量要求存储/维护:确保元数据保持当前状态并继续满足需求使用:使用元数据,从数据中获取价值。启用反馈循环可以提高元数据质量增强:使用新知识增强现有的元数据,实现新的元数据需求处置:清除或归档过时的元数据● 步骤:按照质量管理步骤对元数据质量进行管理(1)定义高质量元数据、(2)定义元数据质量战略、(3)定义初始评估范围、(4)执行初始元数据质量评估.(5)识别改进并排列优先级、(6)定义元数据质量改进目标、(7)开发和部署元数据质量操作等方面。● 元数据活动:定义元数据战略、理解元数据需求、定义元数据架构、黄建和维护元数据、查询报告和分析元数据


  • 超纲内容有哪些?

1、Data Mesh及Data Fabric

二者都是为了解决跨技术栈和平台的数据接入和分析问题,让数据还保留在原来的地方,而不是集中到一个平台或者领域。Data fabric是以技术为中心,data mesh聚焦于方法论、组织协同上的变化。

更详细内容参考:

10分钟搞懂 Data Fabric 和 Data Mesh 的区别!- 知乎 (zhihu.com)

2、开源大数据组件(本次多选题中出现了Atlas)

常见的技术组件如下:

● 系统平台 (Hadoop、CDH、HDP)

● 云平台 (AWS、GCP、Microsoft Azure)

● 监控管理 (CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle、Prometheus)

● 文件系统 (HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio、JindoFS)

● 资源调度 (K8S、YARN、Mesos、Standlone)

● 协调框架 (ZooKeeper 、Etcd、Consul)

● 数据存储 (HBase、Cassandra、ScyllaDB 、MongoDB、Accumulo、Redis 、Ignite、Geode、CouchDB、Kudu)

● 行列存储 (Parquet、ORC、Arrow、CarbonData、Avro)

● 数据湖 (IceBerg、Hudi、DeltaLake)

● 数据处理 (MaxCompute、Hive、MapReduce、Spark、Flink、Storm、Tez、Samza、Apex、Beam、Heron)

● OLAP (Hologres、StarRocks、GreenPlum、Trino/Presto、Kylin、Impala、Druid、ElasticSearch、HAWQ、Lucene、Solr、 Phoenix)

● 数据采集 (Flume、Filebeat、Logstash、Chukwa)

● 数据交换 (Sqoop 、Kettle、DataX 、NiFi)

● 消息系统 (Pulsar、Kafka、RocketMQ、ActiveMQ、RabbitMQ)

● 任务调度 (Azkaban、Oozie、Airflow、Contab、DolphinScheduler)

● 数据安全 (Ranger、Sentry、Atlas)

● 数据血缘 (OpenLineage、Egeria、Marquez、DataHub)

● 机器学习 (Pai、Mahout、MADlib、Spark ML、TensorFlow、Keras、MxNet)


  • 其他出现在选择题目中容易忽略的知识点

1、数据管理的第一阶段及第二阶段包括哪些:第一阶段:数据集成和互操作、数据存储和操作、数据安全、数据建模和设计第二阶段:数据架构、数据治理、元数据第三阶段:数据治理、数据仓库和商务智能、参考数据和主数据、文件和内容管理第四阶段:大数据分析、数据挖掘2、数据架构的步骤:定义范围、理解需求、设计、实施3、哪些是非结构化数据:文字处理文件、电子邮件、社交媒体、聊天室、平面文件、电子表格、xml文件、事务性信息、报告、图形、数字图像、微缩胶片、视频和音频。纸质文件中也存在大量非结构化数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/699303.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【juc】原子数组

目录 一、代码示例二、示例截图 一、代码示例 package com.learning.atomic;import java.util.ArrayList; import java.util.Arrays; import java.util.List; import java.util.concurrent.atomic.AtomicIntegerArray; import java.util.function.BiConsumer; import java.uti…

Qt-解决异常报错“QAxBase::setControl: requested control XXX could not be instantiated”

作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 问题说明 使用Qt开发的过程中,QAxObject是经常用到的一个类,用于操作Windows中各种COM接口,进…

什么是开源工作流系统?内容涉及哪些方面?

随着低代码开发市场的繁荣发展,它的灵活、简便、易操作、好维护等优势特点深得广大用户朋友的喜爱,是推动其走向流程化管理的重要推动力。那么,您了解开源工作流系统吗?知道它都有哪些主要内容吗?如果想了解这方面的内…

浅析金鸣识别所用的Canny边缘检测算法和Sobel算子

Canny边缘检测算法和Sobel算子都是金鸣识别常用的图像边缘检测算法,在识别图片表格过程中金鸣识别通常会根据不同的场景混合使用它们,以达到最佳的识别效果,它们是非常先进的算法,下面我们来看看它们的实现步骤与区别。 Canny边缘…

多智能体强化学习理论与算法总结

多智能体强化学习理论与算法总结 先搞明白on-policy和off-policy 【强化学习】一文读懂,on-policy和off-policy 我的理解:on-policy就是使用最新的策略来执行动作收集数据,off-policy的训练数据不是最新策略收集的。on-policy也是使用同个策…

苹果手机ios设备管理软件iMazing 2.17.6官方版下载及常见问题解决

苹果手机ios设备管理软件iMazing 2.17.6官方版下载(ios设备管理软件)是一款管理苹果设备的软件, Windows / macos 系统上的一款帮助用户管理 IOS 手机的应用程序,软件功能非常强大,界面简洁明晰、操作方便快捷,设计得非常人性化。…

electron+vue3+ts+vite

首先使用vite工具创建一个vue3ts的项目 npm create vite创建好vuets项目后启动项目 cd electron-vue3-ts-vitenpm installnpm run dev 访问http://127.0.0.1:5173/地址可以看到项目已经启动成功 安装Electron 接下来我们安装electron,使用以下命令 npm i -D el…

FlashAttention论文解析

FlashAttention让语言模型拥有更长的上下文 FlashAttention序:概述:简介:FlashAttention块稀疏 FlashAttention优点:标准注意力算法实现流程: FlashAttentionBlock-Sparse FlashAttention实验使用FlashAttention后更快…

【网络管理发展】网络杂谈(12)之网络管理未来发展趋势

涉及知识点 网络管理未来的发展方向,网络管理未来的发展趋势,个人闲谈网络管理未来发展,网络管理技术现状,应用服务供应商(ASP),网络的远程管理,人工智能与未来。 原创于&#xff1…

try catch 异常处理

C中使用异常时应注意的问题任何事情都是两面性的,异常有好处就有坏处。如果你是C程序员, 并且希望在你的代码中使用异常,那么下面的问题是你要注意的。1. 性能问题。这个一般不会成为瓶颈,但是如果你编写的是高性能或者实时性要求…

保偏产品系列丨5款保偏光纤产品简介

保偏光纤应用日益扩大,特别是在干涉型传感器等测量方面,利用保偏光纤的光无源器件起着非常重要的作用,种类也很多。 本文来介绍5款保偏光纤系列产品以及它们的性能,欢迎收藏转发哦! 01、保偏光纤跳线-TLPMPC 保偏光纤跳…

2015年全国硕士研究生入学统一考试管理类专业学位联考数学试题——纯题目版

2015 级考研管理类联考数学真题 一、问题求解(本大题共 15 小题,每小题 3 分,共 45 分)下列每题给出 5 个选项中,只有一个是符合要求的,请在答题卡上将所选择的字母涂黑。 1.若实数a,b, c 满足 a : b : c…

手机记事本中的内容转到新手机不见了,怎么办?

在更换新手机时,很多网友都会面临这样一个问题,这就是旧手机中的重要数据如何转移到新手机上。一般来说,如果是相同品牌的手机,我们可以借助手机云空间账号进行数据的同步;但如果使用的是不同品牌的手机,这…

如何恢复电脑回收站中的数据?应对已清空电脑回收站的措施

在我们日常使用电脑的过程中,误删文件是难以避免的。幸运的是,电脑回收站提供了一种简便的方式来找回被删除的文件。然而,有些文件可能不会进入回收站,或者回收站的数据被清空,导致丢失的文件无法通过常规方式恢复。在…

在rails项目里面把a链接中的com前半部分用sub替换

在Rails项目中,你可以使用sub方法来替换a链接中的"com"前半部分。下面是一个示例: # 假设a链接的原始URL为:https://example.com/some/pagelink "https://example.com/some/page" modified_link link.sub("com…

node.js宿舍管理系统-计算机毕设 附源码80331

node.js宿舍管理系统 摘 要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于角度存在偏差,人们经常能够获取不同类型的信息,这也是技术最为难以攻克的课题。针对宿舍管理系统等问题&#…

高防IP服务靠谱吗?能抵御什么攻击?

今天我们要揭开一个神秘而又酷炫的面纱——高防IP服务!是不是已经感到心跳加速了呢?那么,问题来了,高防IP服务靠谱吗?它能抵御什么攻击呢? 我们来给大家科普一下高防IP服务是什么。简单来说,高防…

JetBrains编程IDE将具备Ai助手功能,或将提高开发速度

近日JetBrains发布博客文章宣布,本周所有基于IntelliJ的IDE和.NET工具的EAP版本都将具备AI助手功能。而这些操作或许将提高开发效率,并且这些AI助手也是使用自家的**ERP**模型和OpenAI服务。 JetBrains表示,当下AI助手功能主要体现在IDE的两…

adb 查询app占用的cup和内存

一、先将cpu定频 先进入shell 模式 adb shell 查看当前CPU的工作模式 cat /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor 然后把CPU工作模式设置为performance模式 echo performance > /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor 改完后查看模式…

Pytest接口自动化框架

目录 前言: 插件: test_case pytest.ini (pytest.ini 配置文件不支持注释) run_all.py report 插件: test_case pytest.ini (pytest.ini 配置文件不支持注释) run_all.py report 前言: pytest是一个基于Python的开源测试框…