采集项目和数仓项目的关系

news2024/11/18 14:34:21

1.介绍

采集项目和数仓项目
采集和数仓是企业数据管理平台的2个核心功能模块,相对独立,所以可以独立开发

区别

功能

采集:数据的采集和传输
数仓:数据的存储

流程

数据库->数据采集->数据仓库->可视化界面

2.数据仓库

什么是数仓?

1.名称

  • 数据库 : database
    在这里插入图片描述

  • 数据仓库: data warehouse
    在这里插入图片描述

在这里插入图片描述

2.数据来源

  • 数据库: 企业的业务系统核心数据
  • 数据仓库:数据库中的数据(数据库存的少,而数据仓库存的多)

3.从数据存储上区分

数据库: 主要操作以查询为主,存储以行式,无法存储海量数据(行式影响查询效率)
数据仓库: 为了处理 分析数据,并将数据结果以可视化显示,存储以列式,能存储海量数据(数据越多,分析结果越精确)

4.从数据价值上区分

  • 数据库:支撑整个业务的运行(所有业务都是基于数据库运行的)
  • 数据仓库:通过统计结果,为企业的经营决策提供数据支撑,数据仓库是中转站,而可视化是终点

3.问题

  1. 为什么数据仓库不直接使用数据库作为数据源?
  • 数据库为行式存储不利于统计分析
  • 数据库不能存储海量数据,有一部分数据都是在文件中存储的,而数据仓库要求海量数据
  • 如果数据库作为数据源,则数据仓库占用数据库的资源过大,会影响业务的处理
  1. 数据库对接数据源需要注意什么?
  • 数据库源源不断将数据传入数据源
  • 数据源数据量远大于数据库
  • 数据库和数据源的文件内容相同,体量不同
  1. 关于数据的加工统计分析如何处理?
  • 多个功能包含很多重复的功能和数据,所以可以像Spark的cache一样,将中间结果进行存储,
  • 数据仓库会将中间计算结果保存在表中(hive HDFS)中
  • SparkSQL或者HiveSQL都可以实现
  1. 为什么说数据库直接向数据源发数据是高耦合?
    数据源不开发完,无法开发数据采集
  2. 为什么数据源直接就是表格式???

4.数据采集

1.介绍

数据库将数据传入数据仓库的数据源的过程就叫数据采集

2.流程

数据库-> 采集-> 数据源

1.HDFS

数据库->HDFS->数据源
将数据库直接存入HDFS,而数仓也是集群HDFS,所以方便
增加中间件,让数据库不依赖数据源的开发

2.数据库->HDFS

数据库是表格数据,所以需要DataX和Maxwell将数据库中的二维表来进行格式转换存储.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/928361.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

杰克逊霍尔央行年会倒计时!鲍威尔压轴登场,美股能否重现“厄运九分钟”?

“央行行长的达沃斯论坛”——杰克逊霍尔央行年会将于美国当地时间本周四至周六举行,主题为“全球经济的结构性变化”,来自全球主要的央行行长、财政官员、经济学家、知名学者、财经媒体等齐聚一堂,共商经济前景和货币政策。 对于这些主要货币…

shopee马来西亚站市场情况如何?卖家怎么选品?

一、shopee马来西亚市场 马来西亚是东南亚的中心地带,拥有3,278万人口,其中30岁以下的年轻人占总人口的49%。马来西亚的经济发展较好,在电商市场方面具备良好的发展潜力。在热销品类方面,母婴用品、时尚服饰、美妆保健品和家居用…

数据库-表连接的几种方式

文章目录 1. 数据库表连接方式简介2. 内连接(INNER JOIN)3. 左外连接(LEFT JOIN)4. 右外连接(RIGHT JOIN)5. 全连接(FULL OUTER JOIN)6. 交叉连接(CROSS JOIN&#xff09…

vue组件的使用

一、首先要穿件组件构造器对象,或者导入组件 1..在本部分注册组件其中组件为子组件 2.在本部分注册组件 二、而后注册组件 1.在本部分注册组件其中组件为子组件 2.在本部分注册组件 三、 接着,使用组件。 1.在本部分注册组件其中组件为子组件 其中v-i…

帮助中心应该用什么工具做?

在线帮助中心是指一个位于互联网上的资源平台,提供给用户获取产品或服务相关信息、解决问题以及获取技术支持的渠道。它通常包含了组织化的知识库、常见问题解答(FAQ)、操作指南、教程视频、用户手册等内容。在线帮助中心的主要目标是为用户提…

M1 Pro 利用docker 搭建pytho2的开发环境,以vscode连接开发为例

使用 M1 Pro (不支持python2的安装)开发,需要使用 Python 2.7 的环境,在使用 pyenv 安装 Python 2 时遇到了各种奇怪的问题。最终,我决定使用 Docker 搭建开发环境,并使用 VS Code 连接到本地容器。以下是详…

run control for NI-RT

1.carsim运行配置 ①为选择车辆模型运行的平台; ② NIRT 平台(transfer to NI-RT target); ③是选择车辆模型的配置文件(包含NI 实时机连接配置及车辆输入输出接口配置) 2.配置文件设置 选择模型传输方式“…

Discuz!论坛发帖标题字数限制80字符可以修改吗?修改发帖标题字数的方法

Discuz!论坛发帖标题字数限制80字符修改方法 1.数据库修改2.修改JS验证字符数文件3.修改模板中写死的字符限制数4.修改函数验证文件5.修改语言包文件6.更新缓存 Discuz X3.4论坛网站帖子标题字数限制80字符,当我们想使用长标题的时候就得一删再删,实在是…

编写Dockerfile制作Web应用系统nginx镜像

文章目录 题目要求:一、创建文档,编写Dockerfile文件可以将harbor仓库去启动先起来 二、运行Dockerfile,构建nginx镜像三、推送导私有仓库,也就是我们的harbor仓库 题目要求: 编写Dockerfile制作Web应用系统nginx镜像…

高效公文校对与文字处理:走进自然语言技术的新时代

在数字化时代的浪潮中,无论是政府材料、新闻稿、还是发言稿,高质量的文字内容成为了信息传递的核心。为了确保内容的专业性和准确性,公文校对和文字处理技术的进步成为了不可或缺的关键。本文将深入探讨自然语言处理技术如何为公文校对和文字…

卷轴模式:适用于多种电商场景的商业营销模式

当绿色消费成为行业趋势,合理消费成为人们的共识时,电商平台应该如何发展?如何创新?如何走得更远? 随着电商行业的变化,新时代的到来必然会产生新的模式,人们的消费观念不断变化。近年来&#…

VBA命令及语法列表之在代码:在字符串中添加新行

【分享成果,随喜正能量】烦恼本无根,不捡自然无。外面没有别人,只有你自己,一切烦恼都源于内耗。与其在内耗中耗费时间,不如用行动来提升自我,成就强大的人生。。 我给VBA下的定义:VBA是个人小…

机器学习实战之模型的解释性:Scikit-Learn的SHAP和LIME库

概要 机器学习模型的“黑箱”困境 机器学习模型的崛起让我们惊叹不已!不论是预测房价、识别图片中的猫狗,还是推荐给你喜欢的音乐,这些模型都表现得非常出色。但是,有没有想过,这些模型到底是如何做出这些决策的呢&a…

跨境独立站引流怎么做?必看的高转化教学

熟悉跨境外贸的小伙伴应该清楚,不同于国内消费者习惯于在购物平台消费,国外买家大多喜欢登录品牌独立网站(独立站)进行购物。这也是许多跨境小伙伴入局独立站的原因之一。 但是,即使你拥有一个精美的网站,如果没有足够的流量它也…

CRUD啥也不会的高狗剩

xml resultType MyBatis查询结果resultType返回值类型详细介绍_留兰香丶的博客-CSDN博客 Mapper Service List<Map<String,String>>遍历方法 List&#xff1c;Map&#xff1c;String, String&#xff1e;&#xff1e;遍历的方法_list<map<string,string&…

分班查询工具,快速查询学生分班情况

学校的分班和分组工作对于学生来说非常重要。它有助于促进学生之间的交流和合作&#xff0c;提高他们的学习效果。通过分班和分组&#xff0c;学校可以根据学生的兴趣、能力和性格等因素&#xff0c;将他们合理地安排到不同的班级和小组中。 这样一来&#xff0c;学生们可以与志…

Netty-01-快速掌握Java NIO

文章目录 一、从传统I/O到Java NIO二、NIO 三大组件1. Channel&#xff08;通道&#xff09;1.1. FileChannel1.1.1. 获取 FileChannel1.1.2. FileChannel 读取 文件1.1.3. FileChannel写⽂件1.1.4. 通道之前传输数据-transferFrom1.1.5. 通道之前传输数据-transferTo 1.2. Soc…

MQTT Windows 安装及开机自启

一&#xff1a;搭建服务 下载地址&#xff1a; https://www.emqx.io/zh/downloads?osWindows 使用指南&#xff1a; https://www.emqx.io/docs/zh/v5.1/getting-started/getting-started.html#%E5%90%AF%E5%8A%A8-emqx 下载解压&#xff1a; 以管理员打开CMD&#xff0c;进…

c语言练习题28:杨氏矩阵

杨氏矩阵 从左到右增加 从上到下增加 思路&#xff1a; 代码&#xff1a; #include<stdio.h> int findNum(int(*arr)[3], int x, int y, int k) {int i 0;int j y - 1;while (i<x&&j>0) {if (arr[i][j] > k) {j--;}else if (arr[i][j] < k) {i;…

空时自适应处理用于机载雷达——元素空间空时自适应处理(Matla代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…