大数据开发的工作内容与流程

大数据开发的工作内容与流程

news2026/2/15 15:47:10

大数据开发的工作内容与流程

- 离线数据仓库开发
- 实时流处理开发

离线数据仓库开发

我们之后在做开发的时候，可能是选择某几个组件来使用。比如做数仓开发，可能就是用sqoop把数据抽到hdfs里，用spark或者mapreduce对这部分数据做一个清洗。

大数据技术生态

清洗的结果，一般会放到Hive里面。一般开源场景中，Hive是做数仓选型比较多的一个组件，或者放到Spark生态圈的spark sql中。

那之后的话，在hive或者spark sql中可以直接写Sql，来完成对数据的处理即可。

当然的话中间这些个任务的调度，我们可能会选用oozie或者azkaban等任务流调度引擎来完成。

这是数仓的基本架构流程。

实时流处理开发

对于流处理来说的话，可以用flume或者logstach去监控一些非结构化、半结构化数据；像用cdc、ogg这样的一个技术，会监控数据库的日志。这样的话，非结构化、半结构化、结构化数据都可以进行实时采集，把这些个数据实时地抽取到kafka里面进行一个缓存。

然后由流（处理）引擎，比如说spark生态圈的spark streaming，当然还有比较新的像flink这些产品进行一个实时处理。大家可能在这里编写流处理任务会比较多。

数据进行处理以后，可以把这个结果保存到hbase里面，或者存储到elasticsearch里面。

因为这两个的话，它对于小文件来说不是那么敏感。hbase的话，它底层有一个处理小文件的机制；而elasticsearch，它本身文件就不存在hdfs里，它文件直接存在磁盘本地，所以的话它对小文件更不敏感。

因为实时产生的结果，会生成较多小文件，这里是在选型的时候需要注意的。

所以的话流处理一般是用这几个组件比较多。

当然很多时候，在生产中的选型比较复杂，而且会有MPP与大数据产品一起使用的场景，但整体的流程不变，只是各阶段的产品有所替换。后续也会为大家对比分析各主流选型的使用场景与工作流程。

OK，那大数据开发的基本工作内容与流程就给大家讲到这里，谢谢大家！B站配套视频传送：大数据开发的工作内容与流程

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/384481.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

嵌入式开发--STM32H750VBT6开发中，新版本CubeMX的时钟问题，不能设置到最高速度480MHZ

嵌入式开发--STM32H750VBT6开发中，新版本CubeMX的时钟问题，不能设置到最高速度480MHZ

嵌入式开发–STM32H750VBT6开发中，新版本CubeMX的时钟问题，不能设置到最高速度480MHZ 问题描述之前开发的项目，开发环境是CubeMX6.6.1，H7系列的支持包版本是1.10.0。跑得没问题，最近需要对项目做修改，同…

阅读更多...

vue学习（7）vuex的辅助函数封装(基于vue3)

vue学习（7）vuex的辅助函数封装(基于vue3)

简介： 封装了 mapState，mapGetters，mapActions，mapMutations，用更灵活的方式来使用vuex，主要使用的是vuex的createNamespacedHelpers方法，此方法是帮助重写以特定模块为主的辅助函数 createNa…

阅读更多...

Spring Cloud(微服务)学习篇(四)

Spring Cloud(微服务)学习篇(四)

Spring Cloud(微服务)学习篇(四) 1.nacos实现服务之间传参数 1.1 在dto包(shop-sms-api项目)中创建SmsDTO类 package com.zlz.shop.sms.api.dto;import lombok.Data;Data public class SmsDTO {private String tel; }1.2 复制SmsDTO类到shop-sms-server项目的dto包下面 1.3 …

阅读更多...

AVL 树实现

AVL 树实现

AVL 树的概念也许因为插入的值不够随机，也许因为经过某些插入或删除操作，二叉搜索树可能会失去平衡，甚至可能退化为单链表，造成搜索效率低。 AVL Tree 是一个「加上了额外平衡条件」的二叉搜索树，其平衡条件的建立是…

阅读更多...

buu [MRCTF2020]Easy_RSA 1

buu [MRCTF2020]Easy_RSA 1

题目描述： import sympy from gmpy2 import gcd, invert from random import randint from Crypto.Util.number import getPrime, isPrime, getRandomNBitInteger, bytes_to_long, long_to_bytes import base64from zlib import * flag b"MRCTF{XXXX}" …

阅读更多...

【基础算法】单链表的OJ练习(1) # 反转链表 # 合并两个有序链表 #

【基础算法】单链表的OJ练习(1) # 反转链表 # 合并两个有序链表 #

文章目录前言反转链表合并两个有序链表写在最后前言上一章讲解了单链表 -> 传送门 <- ，后面几章就对单链表进行一些简单的题目练习，目的是为了更好的理解单链表的实现以及加深对某些函数接口的熟练度。本章带来了两个题目。一是反转链表&#x…

阅读更多...

Springboot怎么实现restfult风格Api接口

Springboot怎么实现restfult风格Api接口

前言在最近的一次技术评审会议上，听到有同事发言说：“我们的项目采用restful风格的接口设计，开发效率更高，接口扩展性更好...”，当我听到开头第一句，我脑子里就开始冒问号：项目里的接口用到的是…

阅读更多...

Django实践-03模型-01表生成模型

Django实践-03模型-01表生成模型

文章目录Django实践-03模型Django MTV之模型投票案例1.创建应用1.创建应用2.配置模板文件2.配置关系型数据库MySQL1.创建数据库2.创建表3.按照MySQL依赖4.修改settings.py文件添加应用配置数据库5. 基于数据库生成实体类3.使用ORM完成模型的CRUD操作1.新增2.删除3.更新4.查询…

阅读更多...

代数小课堂：向量代数（方向比努力更重要）

代数小课堂：向量代数（方向比努力更重要）

文章目录引言I 数字的方向性1.1 箱子受力1.2 爆破逃离方向II 向量的表示法2.1 极坐标方法对向量表示2.2 终点的坐标表示向量III 向量的计算3.1 计算向量的长度和方向3.2 平行四边形法则（计算向量的长度）引言代数学除了带来了方程和函数工具，还揭示了关于数字的另一个规律，…

阅读更多...

C++——特殊类设计

C++——特殊类设计

目录不能被拷贝的类只能在堆上创建对象的类只能在栈上创建对象的类不能被继承的类只能创建一个对象的类(单例模式) 饿汉模式懒汉模式单例对象释放问题不能被拷贝的类 C98：将拷贝构造函数与赋值运算符重载只声明不定义，并且将其访问权…

阅读更多...

React Native学习笔记（2.基本语法-类组件）

React Native学习笔记（2.基本语法-类组件）

1. 基本语法 (1). 引入组件。(2). 继承共通。(3). 定义render函数。(4). 返回文本。(5). export导出 2. 自定义组件（引用） 将上面定义的"cat“组件引用到当前文件里 (1). inprot引入。(2). 使用 3. 自定义组件（参数定义与传参&#x…

阅读更多...

【Linux】项目自动化构建工具——make/Makefile

【Linux】项目自动化构建工具——make/Makefile

目录 1.make与Makefile的关系 Makefile make 项目清理 clean .PHONY 当我们编写一个较大的软件项目时，通常需要将多个源文件编译成可执行程序或库文件。为了简化这个过程，我们可以使用 make 工具和 Makefile 文件。Makefile 文件可以帮助我们自动…

阅读更多...

你知道Java中的JCP, JEP, JLS, JSR是什么意思吗？

你知道Java中的JCP, JEP, JLS, JSR是什么意思吗？

目录一、JCP 二、JSR 三、JLS 四、JEP 公众号：MCNU云原生，欢迎微信搜索关注，更多干货，及时掌握。 JCP, JEP, JLS, JSR这些概念是Java社区中的一些概念，但是没有没有经常关注社区的童鞋们未必知道这些缩写所代表的…

阅读更多...

centos7搭建FTP

centos7搭建FTP

1.简介文件传输协议（File Transfer Protocol，FTP）是用于在网络上进行文件传输的一种协议，工作于OSI，TCP的应用层，客户端和服务端之前连接要经过一次TCP的三次握手，其作用就是可以使用户以文件操…

阅读更多...

第十二章实现shallowReadonly功能

第十二章实现shallowReadonly功能

实现shallowReadonly功能 shallowReadonly： 让一个响应式数据变为只读的(浅只读) 接下来附上测试用例： import { isReadonly,shallowReadonly } from "../reactive"describe(shallowReadonly,()>{test(should not make non-reactive pro…

阅读更多...

Session会话管理

Session会话管理

会话管理Web会话管理概述常见的Web应用会话管理方式基于Server端的Session的管理方式基于Cookie的Session的管理方式Cookie与Session最大的区别Cookie-Based的管理方式基于Token-Based的管理方式Web会话管理的安全问题Web会话管理概述会话管理：在进行人机交互的时…

阅读更多...

java高级篇之三大性质总结：原子性、可见性以及有序性

java高级篇之三大性质总结：原子性、可见性以及有序性

1. 三大性质简介在并发编程中分析线程安全的问题时往往需要切入点，那就是两大核心：JMM抽象内存模型以及happens-before规则（在这篇文章中已经经过了），三条性质：原子性，有序性和可见性。关于sy…

阅读更多...

JavaSE：常用类

JavaSE：常用类

前言从现在开始进入高级部分的学习，鼓励自己一下！画个大饼： 常用类->集合框架->IO流->多线程->网络编程 ->注解与反射->GUI很重要的东西，不能不会！Object类祖宗类，主要方法：t…

阅读更多...

接口测试简介

接口测试简介

接口测试简介接口测试是测试系统组件间接口的一种测试。接口测试主要用于检测外部系统与系统之间以及内部各个子系统之间的交互点。测试的重点是要检查数据的交换，传递和控制管理过程，以及系统间的相互逻辑依赖关系等。 ——百度百科！ …

阅读更多...

低代码开发与传统开发有什么不同？有什么价值？

低代码开发与传统开发有什么不同？有什么价值？

低代码开发与传统开发有些什么不同？有什么价值？ 自2014年Forrester明确提出低代码（Low-Code）概念以来，这一领域已经逐步升温。近年来，低代码凭借其低开发门槛和易用性等优点赢得了众多投资研究机构和企业用…

阅读更多...

推荐文章

最新文章