一文了解大数据生态

news2024/12/27 4:31:36

大数据一词最早指的是传统数据处理应用软件无法处理的过于庞大或过于复杂的数据集。

现在,对“大数据”一词的使用倾向于使用预测分析、用户行为分析或者其他一些从大数据中提取价值的高级数据分析方法,很少用于表示特定规模的数据集。

定义

大数据是指规模巨大、种类繁多、产生速度快的数据集合,通常超出了传统数据处理软件工具的处理能力范围。

大数据的特点主要可以归纳为以下几个方面:

  • Volume:数据量大,通常在 TB、PB 甚至 EB 级别。
  • Velocity:数据的产生速度非常快,需要被实时处理。
  • Variety:数据类型多,包含结构化数据、非结构化数据和半结构化数据。
  • Veracity:数据的可靠性高。
  • Value:数据包含的价值大。

大数据生态

在这里插入图片描述

数据采集

  • 日志数据采集:
    • Apache Flume:支持的场景更多(半结构化和非结构化数据采集)
    • Logstash:ELK 场景推荐使用 Logstash,可以和 Elastic、Kibana 无缝集成
    • Filebeat:性能更高
  • 关系型数据库数据采集:Sqoop、DataX、Canal、Maxwell、Debezium、FlinkCDC

数据存储

  • 分布式文件存储系统:Hadoop HDFS
  • 数据库系统:Mongodb、HBase
  • 消息队列中间件:Kafka

数据计算

  • 离线计算:Hadoop MapReduce、Spark
  • 实时计算:Storm、Spark Streaming、Flink

数据分析

  • 离线数据分析:Hive、Impala、Kylin
  • 实时数据分析:ClickHouse、Druid、Doris

任务调度框架

  • Apache Oozie

分布式资源管理

  • Hadoop YARN
  • Kubernates
  • Mesos

管理和协调

  • Zookeeper:分布式协调服务
  • Apache Ambari:安装、部署、配置和管理工具

学习路线

大数据生态的工具和技术组件虽然多,但是每类只需要重点学习一个就可以了。
可以按照下面的学习路线:

  1. 学习 Hadoop,包括 HDFS、MapReduce、YARN 三个主要组件
  2. 了解 Hive
  3. 了解 Kafka
  4. 学习 Spark 用于离线数据计算
  5. 学习 Spark Streaming 或者 Flink 用于实时数据计算
  6. 了解 Oozie、Zookeeper、Ambari 的用法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1461692.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器视觉系统选型-为什么还要选用工业光源控制器

工业光源控制器最主要的用途是给光源供电,实现光源的正常工作。 1.开关电源启动时,电压是具有波浪的不稳定电压,其瞬间峰值电压超过了LED灯的耐压值,灯珠在多次高压冲击下严重降低了使用寿命; 2.使用专用的光源控制器&…

Netty中的PooledByteBuf池化原理剖析

PooledByteBuf PooledByteBuf是池化的ByteBuf,提高了内存分配与释放的速度,它本身是一个抽象泛型类, 有三个子类:PooledDirectByteBuf、PooledHeapByteBuf、PooledUnsafeDirectByteBuf. Jemalloc算法 Netty的PooledByteBuf采用与jemalloc一…

SICTF Round#3 の WP

Misc 签到 SICTF{1f4ce05a-0fed-42dc-9510-6e76dff8ff53} Crypto [签到]Vigenere 附件内容: Gn taj xirly gf Fxgjuakd, oe igywnd mt tegbs mnrxxlrivywd sngearbsw wakksre. Bs kpimj gf tank, it bx gur bslenmngn th jfdetagur mt ceei yze Ugnled Lystel t…

NFC三大工作模式及其在物联网应用实例

NFC支持三种通信模式:读写模式、点对点模式和卡模拟模式。在此三种模式下,都仅需简单点击便可启动传输。 在读写模式下,系统执行非接触式读写功能。该系统的NFC芯片与内置NFC的设备-诸如非接触式智能卡、NFC标签或具有NFC功能的智能手机&…

pylint、pyreverse

文章目录 pylintpyreverse pylint github : https://github.com/pylint-dev/pylint官网:https://www.pylint.org文档:https://pylint.readthedocs.io/en/latest/ Pylint 是一个 Python 代码分析工具,它分析 Python 代码中的语法错误&#xf…

【代码随想录python笔记整理】第十二课 · 位置互换

前言:本笔记仅仅只是对内容的整理和自行消化,并不是完整内容,如有侵权,联系立删。 一、变量交换的实现 这节我们讨论一个简单的问题——怎么交换两个变量的值。比如说,一个瓶子里是水,一个瓶子里是油,想要将两个瓶子中的东西互换,我们应该怎么做呢?要实现上述过程,我们…

leetcode hot100 完全平方数

本题中,是给一个整数n,让用完全平方数凑出这个整数,注意,题中给了n的范围,是大于等于1的,也就是说,dp[0]我们可以先不考虑。 整个问题可以抽象成完全背包问题的变形形式,物品就是这…

免费听歌软件,音乐搜索APP:掌中的音乐宝库,为您的音乐生活增添色彩

引言 在数字音乐的浪潮中,我们通常会想到QQ音乐、虾米、网易云音乐等主流平台APP。然而,这些商业软件在为用户提供服务的同时,也不可避免地伴随着一些限制和不尽如人意的地方,如曲库有限、音质不尽如人意或广告干扰或会员才能听歌…

TypeScript中的keyof、typeof、in

概览 TypeScript中的keyof、typeof、in在我们日常工作中经常用到,但也容易遗忘,现详细梳理其用法及使用场景 一. 抛出问题 const getFormatData (initData) > { const data [];// 部分字段取值需保留小数点后两位const formatKeys [priceUntax…

频段划分学习射频知识的意义

一、射频电路设计与低频电路设计的不同点 随着频率提高,相应电磁波的波长与变得可与分立电路元件的尺寸相比拟时,电阻、电容和电感这些元件的电响应,将偏离他们的理想频率特性。以 WIFI 2.4G 频段为例,当频率为 2437MHz&#xff0…

年收入 100 万,不敢生孩子

原文连接: 年收入 100 万,不敢生孩子 今日热帖,有网友发帖称:互联网大头兵夫妇,两个人都 30 了,老公 xhs 后端年包 80,我私企年薪 20 左右,老家三线城市有房。 本来今年要孩子了&am…

花了钱的ChatGPT4.0在绘画方面的能力如何?Sora也能work吗

花了钱的ChatGPT4.0在绘画方面的能力如何?Sora也能work吗 关注微信公众号 DeepGoAI 计算机杂谈及深度学习记录&分享 众所周知 AI绘图是4.0收费的一大卖点 网上也有许多反复训练ChatGPT的段子视频 让人工智能无语 网友直呼 “未来人工智能统治世界了&…

016—pandas 分析近100年圣诞节日期分布

需求: 利用Pandas 分析近100年圣诞节的星期分布,目的是知道圣诞节都在星期几,哪个星期多些。 思路: 用 pd.date_range 生成 100 年日期数据 筛选出12月25日的所有日期 将日期转换为星期几 统计重复值的数量 绘图 二、…

【JAVA高级面试题】运用锁机制实现一个自定义的阻塞队列

文章目录 前言实战演示写在最后 前言 前几天看见一个高级Java面试题,我觉得很有代表意义。既考察了面试者的基本锁机制运用,也了解了阻塞队列的产生实现原理。先分享出来,以供鉴赏。 面试题:实现一个自定义的阻塞队列&#xff0c…

【C++语法基础】4.分支和循环结构(✨新手推荐阅读)

前言 在C编程中,分支和循环结构是控制程序流程的基本工具。分支结构允许程序根据特定条件执行不同的代码块,而循环结构则允许程序重复执行某个代码块。 分支结构 if 语句 if 语句是最基本的分支结构,它根据条件的真假来决定是否执行某段代…

Linux实验记录:使用LNMP架构部署动态网站环境

前言: 本文是一篇关于Linux系统初学者的实验记录。 参考书籍:《Linux就该这么学》 实验环境: VmwareWorkStation 17——虚拟机软件 RedHatEnterpriseLinux[RHEL]8——红帽操作系统 备注: LNMP动态网站部署架构是一套由&…

Linux 性能分析工具汇总

Linux 性能分析工具汇总 出于对Linux操作系统的兴趣,以及对底层知识的强烈欲望,因此整理了这篇文章。本文也可以作为检验基础知识的指标,另外文章涵盖了一个系统的方方面面。如果没有完善的计算机系统知识,网络知识和操作系统知识…

(done) 两个矩阵 “相似” 是什么意思?

参考视频:https://www.bilibili.com/video/BV1zu411673J/?spm_id_from333.337.search-card.all.click&vd_source7a1a0bc74158c6993c7355c5490fc600 参考资料:https://baike.baidu.com/item/%E7%9B%B8%E4%BC%BC%E7%9F%A9%E9%98%B5/10369874?frge_a…

离线环境解决IDEA连接数据库报需下载驱动的问题 Download missing driverfiles

去外网电脑上把这个目录下的MySQL ConnectorJ文件夹整体拷贝的内网电脑上就ok了! C:\Users\like12\AppData\Roaming\JetBrains\IntelliJIdea2021.2\jdbc-drivers 参考:IDEA Download missing driver files 下载失败解决方法-CSDN博客

开发一款招聘小程序需要具备哪些功能?

随着时代的发展,找工作的方式也在不断变得简单,去劳务市场、人才市场的方式早就已经过时了,现在大多数年轻人都是直接通过手机来找工作。图片 找工作类的平台不但能扩大企业的招聘渠道,还能节省招聘的成本,方便求职者进…