海量数据存储面临的问题

news2024/11/29 7:44:04

海量数据存储面临的问题

    • 海量数据存储面临的问题
      • 成本高
      • 性能低
      • 可扩展性差
    • 如何实现分布式文件存储
      • 如何支撑高效率的计算分析
      • 如何解决海量数据存储的问题
      • 如何解决海量数据文件查询便捷问题
      • 如何解决大文件传输效率慢的问题
      • 如何解决硬件故障数据丢失问题
      • 如何解决用户查询视角统一规整问题
    • 分布式存储应具备的特征

海量数据存储面临的问题


成本高

传统存储硬件通用性差,设备投资加上后期维护,升级扩容的成本非常高。


例如:盘位满了,要换更多盘位的机器。3
image.png


性能低

单节点I/O性能瓶颈无法逾越,难以支撑海量数据的高并发高吞吐场景。


可扩展性差

无法实现快速部署和弹性扩展,动态扩容、缩容成本高,技术实现难度大。


如何实现分布式文件存储


如何支撑高效率的计算分析

image.png

传统存储方式意味着数据存储是存储,计算是计算,当需要处理数据的时候把数据移动过来(存储不动,数据移动)。
程序和数据存储是属于不同的技术厂商实现无法有机统一整合在一起。


如何解决海量数据存储的问题

传统做法是单机存储,随着数据变多,会遇到存储瓶颈。

  • 单机纵向扩展:
    内存不够加内存,磁盘不够加磁盘,有上限限制,不能无限制加下去。

  • 多机横向扩展:
    采用多台机器存储,一台不够就加机器。理论上可以无限。
    多台机器存储也意味着迈入了分布式存储


如何解决海量数据文件查询便捷问题

当文件被分布式存储在多台机器之后,后续获取文件的时候如何能快速找到文件位于哪台机器上呢?


一台一台查询过来是不靠谱的。因此可以借助于元数据记录来解决这个问题。把文件和其存储的机器的位置信息记录下来,类似于图书馆查阅图书系统,这样就可以快速定位文件存储在哪一台机器上了。


image.png


如何解决大文件传输效率慢的问题

大数据使用场景下,GB、TP级别的大文件是常见的。当单个文件过大的时候,如何提高传输效率?

通常的做法是分块存储:

把大文件拆分成若干个小块(block简写blk),分别存储在不同机器上,并行操作提高效率。

此外分块存储还可以解决数据存储负载均衡问题。此时元数据记录信息也应该更加详细:文件分了几块,分别位于哪些机器上。


image.png


如何解决硬件故障数据丢失问题

image.png


如何解决用户查询视角统一规整问题

namespace也可以理解为文件夹的目录
image.png


分布式存储应具备的特征

image.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/152770.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

pyhon把程序打包为whl

首先需要一个库:setuptools如果是conda环境的话,这个包是自带的,不需要另外安装。首先把需要打包的py文件放在一个文件夹内(我的文件夹名为coordTrans,记住这个名字,后面要用)。同时&#xff0c…

dll修复工具下载,dll修复工具注意事项

Dll文件的缺失相信很多人都遇见过吧,只要缺失了一个这样的dll文件,我们的游戏或者软件程序就启动不了了,所以我们就需要去修复它,目前修复有几种方法,最简单的,最适合电脑小白的,那就是dll修复工…

Vue3——第四章(响应式基础:reactive、ref)

一、用reactive()声明响应式状态 我们可以使用 reactive() 函数创建一个响应式对象或数组: 响应式对象其实是 JavaScript Proxy,其行为表现与一般对象相似。不同之处在于 Vue 能够跟踪对响应式对象属性的访问与更改操作。 要在组件模板中使用响应式状…

java后端第六阶段:SpringMVC

1、Spring IoC(Inversion of Controller)控制反转 使用对象时,由主动new产生对象转换为由外部提供对象,此过程中对象中创建控制权由程序转移到外部,此思想称为控制反转 Spring技术对IoC思想进行了实现 Spring提供了一…

第四十九讲:神州路由器IPv6 OSPFv3和RIPng路由的配置

神州路由器支持IPv6的内部网关路由协议常用的有OPSFv3和RIPng。 实验拓扑图如下所示 配置要求:在两台路由器上启用IPv6 routing, 在接口上配子ipv6协议后,通过配置RIPng和OSPFv3相关命令,观察学习到的路由。 配置步骤&#xff1…

产品试用记录

某产品试用记录 还可以选屏哦

【PWA学习】3. 让你的 WebApp 离线可用

引言 PWA 其中一个令人着迷的能力就是离线(offline)可用 即使在离线状态下,依然可以访问的 PWA离线只是它的一种功能表现而已,具体说来,它可以: 让我们的Web App在无网(offline)情况下可以访问,甚至使用部分功能&#…

Redis哨兵模式搭建

以下配置机器部署ip为 a、b、c,其中a为master节点 需提前创建 /app/user/oms/redis/data 目录 1.1上传 redis-5.0.5.zip 到对应目录,解压 unzip redis-5.0.5.zip # 生成 redis-5.0.5 目录 1.2 修改配置文件 maxclients 10000 #20000 &#xff0…

接口测试实战| GET/POST 请求区别详解

在日常的工作当中,HTTP 请求中使用最多的就是 GET 和 POST 这两种请求方式。深度掌握这两种请求方式的原理以及异同之处,也是之后做接口测试一个重要基础。GET、POST 的区别总结请求行的 method 不同;POST 可以附加 div,可以支持 …

概率论【离散型二维变量与连续性二维变量(下)】--猴博士爱讲课

6.连续型二维变量(下) 1/7 求边缘分布函数 边缘概率密度 边缘概率密度 2/7 求边缘密度函数 边缘概率密度 3/7 判断连续型二维变量的独立性 F(x,y) Fx(X) * Fy(Y)那么X、Y互相独立 f(x,y) fx(X) * fy(Y)那么X、Y互相独立 这种题目带入验证就可以了 先求…

百度举办首个人机共创大会,最强技术天团邀约全球开发者

1月10日,百度举办Create AI开发者大会(下称“Create大会”)。作为首个“人机共创大会”,AIGC(利用AI技术自动生成内容的生产方式)技术被深度应用,创造、搭建、连接了多个科技感爆棚的数字化演讲…

powershell ISE 多个选项卡,替换命令行黑窗口

安装powershell ISE设置权限解决方案1.管理员打开PowerShell2. 执行Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser运行脚本自定义函数,function start_service([string]$Name,$p,$r) {$NewTab $psISE.PowerShellTabs.Add()$NewTab.Displa…

ES之module

模块:一个一个的局部作用域的代码块 模块系统需要解决的主要问题 模块化的问题消除全局变量管理加载顺序 Module的基本用法 模块里面都是局部无法访问 切换幻灯片示例 Base.js // 默认参数 const DEFAULTS {// 初始索引initialIndex: 0,// 切换时是否有动画a…

Repvgg推理时融合BN

Batch Normalization是谷歌研究员于2015年提出的一种归一化方法,其思想非常简单,一句话概括就是,对一个神经元(或者一个卷积核)的输出减去统计得到的均值,除以标准差,然后乘以一个可学习的系数&…

数字孪生|可视化图表之堆叠面积图

上一篇文章为大家介绍了分组条形图的相关内容,本文介绍的是堆叠面积图。 堆叠面积图是一种特殊的面积图,可以用来比较在一个区间内的多个变量。堆叠面积图和普通的面积图基本一样,唯一的区别就是堆叠面积图每个数据系列的起点都是基于前一个数…

再学C语言30:函数——ANSI C的函数原型

一、ANSI C关于函数原型的规则 ANSI C在函数声明中同事说明所使用的的参数类型,即在函数原型中声明返回值类型、参数、参数个数、参数类型 int function(int a, int b); // 形式一 int function(int, int); // 形式二// 以上两种形式的定义均满足规范要求 好…

基于无线通信物联网的水库安全监测系统

水库安全监测一直是我国防洪防汛工作的重点,库区的雨量、水位的实时监测,建立水库监测系统能够有效防止洪涝灾害的发生,确保水库和下游地区的安全。 物通博联推出的水库安全监测系统是基于无线通信物联网技术打造的系统平台,由雨…

路由器基础

交换机基本功能 1.基于源MAC地址学习2.基于目标MAC地址转发3.数据过滤4.防环 交换机基于MAC地址表进行转发,MAC地址表默认自动产生,MAC地址组成三元组:Mac地址、端口、VLAN。默认MAC条目信息存活时间为300s并且可以修改 泛洪(洪…

局域网主机状态管理工具LanNeighborManager

有鉴于以下两种需求,做了一个小工具,查看局域网内的IP占用情况及联通状态:1)在现场需要分配静态IP,但是不确定已经被占用的IP地址;2)查看当前局域网内当前活跃的IP地址。该工具的主要功能有&…

华宏转债上市价格预测

华宏转债基本信息转债名称:华宏转债,评级:AA-,发行规模:5.15亿元。正股名称:华宏科技,今日收盘价:17.68,转股价格:15.65。当前转股价值 转债面值 / 转股价格…