大数据入门（一）

大数据入门（一）

news2026/2/15 1:27:46

大数据主要要解决：海量数据的采集，存储，分析计算问题。

大数据的特点：大量（数据量大），高速（数据量的累积越来越快），多样（结构化数据和非结构化数据），低价值密度（有用的数据与总的数据量成反比）

大数据的应用场景：1、抖音基于大数据推荐你喜欢的视频

2、电商网站你买了一个东西后，给你推荐的周边

3、物流仓储：京东物流的上午下单，下午送达，或者次日达。

4、金融：我们用的花呗，你的额度评审。（基于你的存款，人脉，身份认证等信息）

hadoop主要解决的是：海量数据的存储以及海量数据的分析计算问题。

hadoop的主要优势：

1、高可靠性：hadoop底层维护多个数据副本，所以某个计算元或者存储出现故障，也不会导致数据的丢失。

2、高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。

3、高效性：hadoop是并行工作的，以加快任务的处理速度。

4、高容错性：能够将故障节点的任务，重新分配。

hadoop 1.x ，2.x，3.x的区别：

HDFS架构概述：

YARN技术架构：

MapReduce架构概述：

1）Map阶段并行处理输入数据

2）Reduce阶段对Map结果进行汇总

大数据技术生态体系:

图中涉及的技术名词解释如下：

1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

2）Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；

3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统；

4）Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

5）Flink：Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

6）Oozie：Oozie是一个管理Hadoop作业（job）的工作流程调度管理系统。

7）Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

8）Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

9）ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

大数据推荐系统的应用示例架构图：

点点关注点点赞呀，持续发布有用的知识..................................

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1549028.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

HTML静态网页成品作业(HTML+CSS+JS)——中华美食八大菜系介绍(1个页面)

HTML静态网页成品作业(HTML+CSS+JS)——中华美食八大菜系介绍(1个页面)

🎉不定期分享源码，关注不丢失哦文章目录一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码五、源码获取一、作品介绍 🏷️本套采用HTMLCSS，使用Javacsript代码实现图片轮播切换，共有1个页面。二、…

阅读更多...

逐步学习Go-并发通道chan(channel)

逐步学习Go-并发通道chan(channel)

概述 Go的Routines并发模型是基于CSP，如果你看过七周七并发，那么你应该了解。什么是CSP？ "Communicating Sequential Processes"（CSP）这个词组的含义来自其英文直译以及在计算机科学中的使用环境。 CSP…

阅读更多...

PTA L2-037 包装机

PTA L2-037 包装机

一种自动包装机的结构如图 1 所示。首先机器中有 N 条轨道，放置了一些物品。轨道下面有一个筐。当某条轨道的按钮被按下时，活塞向左推动，将轨道尽头的一件物品推落筐中。当 0 号按钮被按下时，机械手将抓取筐顶部的一件物品&#x…

阅读更多...

详解智慧路灯杆网关的集中供电能力

详解智慧路灯杆网关的集中供电能力

智慧路灯杆网关是智慧杆物联网系统中不可或缺的设备。智慧杆网关不仅可以作为杆载设备与云平台、设备与设备之间的桥梁，促进数据的无缝传输，而且还能提供高效的能源管理和供电功能。 BMG8200系列交流型智慧路灯杆网关就集成了强大的供电能力，…

阅读更多...

短视频矩阵系统--技术3年源头迭代

短视频矩阵系统--技术3年源头迭代

短视频矩阵系统核心技术算法主要包括以下几个方面： 1. 视频剪辑：通过剪辑工具或API从各大短视频平台抓取符合要求的视频。这些视频通常符合某些特定条件，如特定关键词、特定时间段发布的视频、视频点赞评论转发等数据表现良好的视频。 2. 视…

阅读更多...

Kotlin 中的类和构造方法

Kotlin 中的类和构造方法

1 Kotlin 中的类以及接口对象是什么？任何可以描述的事物都可以看作对象。我们以鸟为例，来分析它的组成： 形状、颜色等可以看作是鸟的静态属性；年龄、大小等可以看作是鸟的动态属性；飞行、进食等可以看作是鸟的行为&…

阅读更多...

VTK 光源 Transform 自定义BoundingBox绘制

VTK 光源 Transform 自定义BoundingBox绘制

这段代码展示了如何在 VTK 中创建光源，并在场景中添加光源的可视化表示。以下是关于代码的详细解释和教程： 创建光源 vtkSmartPointer<vtkLight> light vtkSmartPointer<vtkLight>::New();使用 vtkSmartPointer 创建了一个智能指针&#…

阅读更多...

oracle补丁升级（19.3-19.22）

oracle补丁升级（19.3-19.22）

一、备份原来的opatch和数据库文件这里要根据自己的路径： mv /u01/app/oracle/product/19.3.0/db_1/OPatch /u01/app/oracle/product/19.3.0/db_1/OPatch.bakcd /u01/app mkdir -p /u01/app/backup tar -pcvf /u01/app/backup/oracle_backup.tar /u01/app/oracle/…

阅读更多...

glibc内存管理ptmalloc - 实时打印bin链的变化

glibc内存管理ptmalloc - 实时打印bin链的变化

前言在《glibc内存管理ptmalloc - largebin》中我们详细解释了 largebins共63个，并用表格点出了每个bin的size的范围largebin在free一些内存后的状态特别是第2点，我其实不太满意，因为只有全部free后的一个结果，并没有中间状态…

阅读更多...

【jenkins+cmake+svn管理c++项目】jenkins回传文件到svn（windows）

【jenkins+cmake+svn管理c++项目】jenkins回传文件到svn（windows）

书接上文：创建一个项目在经过cmakemsbuild顺利生成动态库之后，考虑到我一个项目可能会生成多个动态库，它们分散在build内的不同文件夹，我希望能将它们收拢到一个文件夹下，并将其回传到svn。一、动态库移位—cmake实…

阅读更多...

工作12年了，我还没能过上自己想要的生活

工作12年了，我还没能过上自己想要的生活

写这篇文章之前，我想了很久，不知道该如何下笔，如何向读者说明这些年我是怎么走过来的，我只是依稀的记得当时的自己犹如在昨天。 2009年大学毕业，我和大多数的毕业生一样写简历求职。不管是招聘会还是网上投简历&#x…

阅读更多...

容器网络隔离验证

容器网络隔离验证

结论，可以直接扫描内网路由能通的机器。 1.节点1 192.168.55.6 2.节点2 192.168.55.5 3.非节点3 192.168.55.3

阅读更多...

4005.K次取反后最大化的数组和

4005.K次取反后最大化的数组和

// 定义一个名为Solution的类 class Solution {// 定义一个public方法largestSumAfterKNegations，输入参数为一个整数数组nums和一个整数K，返回值类型为整数public int largestSumAfterKNegations(int[] nums, int K) {// 使用Java流对数组中的元素进行操…

阅读更多...

win11 环境配置之 Jmeter

win11 环境配置之 Jmeter

一、安装 JDK 1. 安装 jdk 截至当前最新时间： 2024.3.27 jdk最新的版本是官网下载地址： https://www.oracle.com/java/technologies/downloads/ 建议下载 jdk17 另存为到该电脑的 D 盘下，新建jdk文件夹开始安装到 jdk 文件夹下 2. 配…

阅读更多...

1111111111111111111111111111111111

1111111111111111111111111111111111

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。关…

阅读更多...

ClickHouse初体验

ClickHouse初体验

1.clickHouse是啥？ ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库(DBMS)，使用 C语言编写，主要用于在线分析处理查询(OLAP)，能够使用SQL查询实时生成分析数据报告 2.clickHouse的特点 2.1列式存储对于列的聚合&…

阅读更多...

Java零基础入门到精通_Day 3

Java零基础入门到精通_Day 3

37 switch default： 后面的break;可以省略 38 春夏秋冬注意事项:在switch语句中，如果case控制的语句体后面不写break，将出现穿透现象，在不判断下一个case值的情况下，向下运行直到遇到break，或者整体swi…

阅读更多...

班级综合测评管理系统的设计与实现|Springboot+ Mysql+Java+ B/S结构(可运行源码+数据库+设计文档)

班级综合测评管理系统的设计与实现|Springboot+ Mysql+Java+ B/S结构(可运行源码+数据库+设计文档)

本项目包含可运行源码数据库LW，文末可获取本项目的所有资料。推荐阅读100套最新项目持续更新中..... 2024年计算机毕业论文（设计）学生选题参考合集推荐收藏（包含Springboot、jsp、ssmvue等技术项目合集） 目录 1. …

阅读更多...

opengl草稿复习，承上启下

opengl草稿复习，承上启下

目录 1、链接文件夹中的cpp 2、链接资源到输出目录 3、多编译目标 4、cmakelist添加库 4、添加glfw和glad 5、glfw运行 6、NDC、VBO、VAO 7、渐变三角形 8、渲染两个三角形 9、渲染两个三角形，同时基于原来颜色进行渐变 1、链接文件夹中的cpp cmake_minimu…

阅读更多...

一本书掌握数字化运维方法，构建数字化运维体系

一本书掌握数字化运维方法，构建数字化运维体系

文章目录前言主要内容读者对象前言数字化转型已经成为大势所趋，各行各业正朝着数字化方向转型，利用数字化转型方法论和前沿科学技术实现降本、提质、增效，从而提升竞争力。数字化转型是一项长期工作，包含的要素非常丰富&…

阅读更多...

推荐文章

最新文章