大数据开发--01.初步认识了解

news2025/2/26 22:13:54

一.环境准备

1.使用虚拟机构建至少三台linux服务器

2.使用公有云来部署服务器

 

 

 二.大数据相关概念

大数据是指处理和分析大规模数据集的一系列技术、工具和方法。这些数据集通常涉及海量的数据,包括结构化数据(如关系型数据库中的表格)以及非结构化的数据(如图像、音频或视频文件等)。

大数据的特点之一是规模巨大,可以达到数百TBPB级别。另一个特点是多样性,不同类型的数据可能需要不同的处理和分析方法。此外,大数据还具有高速增长的趋势,随着互联网的普及和社会化媒体的发展,大量的新数据源不断涌现。

为了有效地处理和分析这些大规模的数据集,大数据技术提供了一系列解决方案。其中一些常见的技术包括:

  1. 分布式存储系统:通过将数据分散存储在多个物理位置上,可以提高系统的可靠性、可扩展性和性能。

  2. 数据库管理系统(DBMS):用于组织和管理结构化数据的软件工具,如关系型数据库或NoSQL数据库。

  3. 数据挖掘技术:使用统计学、机器学习等方法从大规模数据中提取有价值的信息和模式。

  4. 实时分析:通过实时处理和分析大量流式数据来支持决策制定和业务运营。

  5. 云计算平台:提供弹性计算资源,可以根据需求动态扩展或缩减系统规模,以满足大数据的处理需求。

   三V

  • Volume(大量):大数据通常指的是数据量非常庞大,传统数据库管理系统无法有效处理的数据集合。随着互联网的发展和信息化程度的提高,大数据集合的规模越来越大,从几TB到PB、甚至EB级别的数据都很常见。

  • Variety(多样性):大数据来源多样,包括结构化数据(如关系型数据库中的表格数据)、半结构化数据(如XML、JSON格式的数据)和非结构化数据(如文本、音频、视频等)。这些不同类型的数据需要以不同的方式来进行处理和分析。

  • Velocity(高速度):大数据集的数据产生速度非常快,需要实时或近实时地对数据进行处理和分析。例如,社交媒体平台上的用户生成的数据、传感器产生的数据等都具有高速度的特点。

大数据技术被广泛应用于各个领域,如金融、医疗、零售、制造、互联网等,帮助企业和组织更好地理解市场趋势、用户行为、业务情况等,从而做出更明智的决策和规划。随着大数据技术的不断发展和普及,大数据在推动企业数字化转型和创新方面发挥着越来越重要的作用。

 

 

 

三.分布式存储相关概念

1.概念

分布式存储是一种将数据分散在多个物理位置的计算机系统中的技术。它允许用户从任何地方访问和共享数据,而不必依赖于单一的物理服务器或存储设备。

分布式存储通过使用多台计算机来实现数据冗余高可用性可扩展性。每个节点(即一台计算机)都负责存储一部分数据,并与其他节点进行通信以协调数据的更新和访问。这种架构可以提供更高的性能、更好的容错能力和更大的容量,适用于需要处理大量数据的应用程序或系统。

分布式存储通常使用一些常见的技术来实现,如文件系统复制(例如RAID)、网络文件系统(NFS)、对象存储(如Hadoop Distributed File System)和数据库分片等。这些技术可以提供不同的功能和性能特点,以满足不同应用的需求。

在分布式存储中,数据的一致性是关键问题之一。为了确保数据的正确性和可用性,通常使用一些机制来协调节点之间的通信、同步数据更新并解决冲突等问题。常见的解决方案包括基于Paxos算法的分布式一致性协议(如ZooKeeper)和基于Raft算法的分布式一致性协议(如Hazelcast)等。


 2.特点

分布式存储系统通常具有以下特点:

  1. 冗余和容错:分布式存储系统通常会在多个存储节点上存储数据的多个副本,以确保数据不会丢失。当某个存储节点发生故障时,系统能够继续提供数据访问服务,以保证数据的可靠性。

  2. 负载均衡:分布式存储系统会根据数据量和访问量等因素,将存储任务均匀地分配到不同的存储节点上,以确保系统的性能能够得到最大化的利用。

  3. 可扩展性:分布式存储系统可以根据需求方便地进行横向扩展,增加存储节点以支持更大规模的数据存储和访问需求。

  4. 高性能:通过在多个存储节点上并行地存储和访问数据,分布式存储系统能够提供更快的数据读写速度和响应时间,以满足用户对高性能的需求。

  5. 可用性:由于数据被分散存储在多个节点上,即使其中一部分节点发生故障,系统仍然可以继续提供数据访问服务,以确保数据的可用性。

 

 

 四.大数据常见两种架构

1.去中心化架构

 

 

2.中心化架构

五.分布式计算

分布式计算是一种通过将计算任务分解为多个独立的子任务,并将这些子任务分配到不同的计算机节点上进行并行处理的技术。这种技术可以提高系统的性能和可扩展性,适用于大规模数据集或复杂计算问题。

在分布式计算中,通常使用一个主进程来协调各个子进程之间的通信和资源管理。每个子进程负责执行特定的任务,并将结果返回给主进程。通过将任务分解为多个独立的子任务并进行并行处理,可以大大提高系统的性能和吞吐量。

常见的分布式计算框架包括HadoopSpark等。这些框架提供了一个统一的编程模型和工具链来管理大规模数据集和执行复杂的计算任务。它们支持多种存储格式(如文件系统、数据库)以及各种计算引擎(如MapReduce、Spark),可以根据需求灵活地选择不同的组件组合。

分布式计算在大数据处理中具有广泛的应用场景。例如,它可以用于大规模数据的存储和管理、数据分析和挖掘、机器学习模型训练等任务。通过将这些任务分解为多个并行执行的任务,可以大大提高系统的性能和吞吐量,从而更好地满足用户的需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1528632.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Verdaccio部署及基础使用

1. Verdaccio 简介 Verdaccio,是一个轻量级的 npm 私有仓库的开源解决方案。npm是一个基于http的协议,用来存放软件包并且维护版本和依赖,利用 http 提供的 url路径 来对软件包进行增删改查。所以 Verdaccio 这款软件的核心就是实现 npm协议…

机器人路径规划:基于双向A*算法(bidirectional a star)的机器人路径规划(提供Python代码)

一、双向A*算法简介 传统A*算法是一种静态路网中求解最短路径最有效的方法, 它结合了BFS 算法和迪杰斯特拉算法(Dijkstra)的优点。 和迪杰斯特拉算法(Dijkstra)一样, A*算法能够用于 搜索最短路径; 和BFS 算法一样, A*算法可以用…

从头手搓一台ros2复合机器人(带机械臂)

一.前言 大家好呀,从本小节开始我们就步入了仿真篇,主要对机器人仿真进行介绍与操作,当然仿真有优点也有缺陷,基于对此学习,我们可以对上几小节创建的小车模型模拟硬件的特性, 比如: 有多重…

打开磁盘清理工具的9种方法,总有一种适合你

前言 你可以在Windows 10和11上使用许多第三方磁盘清理工具来进行清理。但是,别忘了Windows包含自己的磁盘清理工具,你可以使用该工具释放硬盘存储空间。一些第三方替代方案可能有更广泛的清理选项和功能,但磁盘清理仍然是消除多余文件的完美工具。 每个用户都应该不时地进…

vue 部署 abap BSP

How to Create a Vue.Js App with VS Code and Deploy... - SAP Community 详情见上面这个教程连接 Open VS Code and open a terminal window and run npm install -g vue/cli restart vscode. Open a terminal window again and go to your workspace folder to create the…

使用echart绘制拓扑图,树类型,自定义tooltip和label样式,可收缩

效果如图: 鼠标移上显示 vue3 - ts文件 “echarts”: “^5.4.3”, import { EChartsOption } from echarts import * as echarts from echarts/core import { TooltipComponent } from echarts/components import { TreeChart } from echarts/charts import { C…

VR历史建筑漫游介绍|虚拟现实体验店|VR设备购买

VR历史建筑漫游是一种利用虚拟现实技术,让用户可以身临其境地参观和探索历史建筑的体验。通过VR头显和相关设备,用户可以在虚拟环境中自由移动和互动,感受历史建筑的真实氛围和文化内涵。 在VR历史建筑漫游中,您可以选择不同的历史…

拿捏指针(三)

✨✨欢迎👍👍点赞☕️☕️收藏✍✍评论 个人主页:秋邱博客 所属栏目:C语言 (感谢您的光临,您的光临蓬荜生辉) 前言 在这之前我们学习了《拿捏指针(一)》,《拿…

Centos7部署使用TELEMAC-MASCARET

Background TELEMAC-MASCARET是一款研究水动力学和水文学领域的高性能数值仿真开源软件。MASCARET(1980)和 TELEMAC(1987)最初是由法电集团所属的法国国立水利与环境实验室开发,随后整合为TELEMAC-MASCARET并由法英德三…

后端系统开发之——创建注册接口

原文地址:后端系统开发之——创建注册接口 - Pleasure的博客 下面是正文内容: 前言 这是一篇SpringBoot项目的实践篇。 主要用于介绍如何从零开始搭建某一种类型的系统。 个人认为,只要后端逻辑完善了,纵使前端页面千变万化都可…

【DL经典回顾】激活函数大汇总(二十四)(Absolute附代码和详细公式)

激活函数大汇总(二十四)(Absolute附代码和详细公式) 更多激活函数见激活函数大汇总列表 一、引言 欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里,激活函数扮演着不可或缺的…

个人开发者上架App流程

摘要 个人开发者完全可以将自己开发的App上传至应用商店进行上架。本文将介绍上架流程的通用步骤,包括确定App功能和定位、准备相关资料、开发App、提交审核、发布App和宣传推广等内容。 引言 个人开发者在如今的移动应用市场中也有机会将自己的作品推向更广泛的…

【书生·浦语大模型实战营】学习笔记3

文章目录 1. 大模型开发范式2. LangChain简介3. 构建向量数据库4. 搭建知识库助手5. Web Demo部署6. 动手实战环节环境配置知识库搭建InternLM接入LangChain构建检索问答链部署Web Demo 参考资料 1. 大模型开发范式 LLM局限性: 知识时效性:LLM无法获取最…

【Vue3】组件通信的的各种方式和tsx风格

组件通信 Vue2组件通信方式全局事件总线bus,可以实现组件通信 Vue3组件通信方式propsprovide与inject依赖注入 全局APiVue3其他改变组件通信之自定义事件组件通信之事件总线组件通信之v-model多个v-model传值 TSX风格使用风格一使用tsx风格,使用optionsA…

V-JEPA模型,非LLM另外的选择,AGI的未来:迈向Yann LeCun先进机器智能(AMI)愿景的下一步

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

Flink源码解析(1)job启动,从JM到TM过程详解

网络传输模型 首先在看之前,回顾一下akka模型: Flink通讯模型—Akka与Actor模型-CSDN博客 注:ActorRef就是actor的引用,封装好了actor 下面是jm和tm在通讯上的概念图: RpcGateway 不理解网关的作用,可以先移步看这里:网关_百度百科 (baidu.com) 用于定义RPC协议,是…

JS11-scroll相关属性和缓动动画

scroll 相关属性 window.onscroll() 方法 当我们用鼠标滚轮,滚动网页的时候,会触发 window.onscroll() 方法。效果如下:(注意看控制台的打印结果) 如果你需要做滚动监听,可以使用这个方法。 我们来看看和…

用C语言打造自己的Unix风格ls命令

在Unix或类Unix操作系统中,ls是一个非常基础且实用的命令,它用于列出当前目录或指定目录下的文件和子目录。下面,我们将通过C语言编写一个简化的ls命令,展示如何利用dirent.h头文件提供的函数接口实现这一功能。 #include "…

开始喜欢上了runnergo,JMeter out了?

RunnerGo是一款基于Go语言、国产自研的测试平台。它支持高并发、分布式性能测试。和JMeter不一样的是,它采用了B/S架构,更灵活、更方便。而且,除了API测试和性能测试,RunnerGo还加上了UI测试和项目管理等实用功能,让测…

Jenkins Pipeline中when的用法

目录 概述内置条件branchbuildingTagchangesetchangeRequestequalsexpressiontriggeredBytagenvironmentnotallOfanyOf 在进入 stage 的 agent 前评估 whenbeforeAgentbeforeInputbeforeOptions 示例单一条件、声明性流水线多条件、声明式管道嵌套条件(与前面的示例…