如何在大背景下降本增效,构建超大规模存储架构?

news2025/1/13 13:40:44

在日新月异的大数据服务不断涌现的今天,我们可以看到作为数据基础底座的存储服务面临了越来越多的复杂环境和需求的挑战。无论是离线大数据存储,还是在线 KV 类存储,都服务了越来越多的数据应用场景。存储业务形态的多样化,催生了各种存储体系的演化,如字节跳动的超大规模大数据存储的应用实践,给我们带来了在数十 EB 的数据规模下,HDFS 架构上演进的一些新技术特性,通过多机房架构、分级存储以及有效的数据调度等,降低存储成本、保障数据的使用效率和安全。

数据存储应用往往也和上层计算有较多的联动,存算分离是一个比较前沿的演进方向,数据的量和业务的复杂性会对架构演进提出非常高的要求和挑战,我们可以听听 B 站日志系统在降本增效的大背景下是如何解决这些问题的。

图存储是一个非常有技术挑战的存储产品,在一些特定场景中它是不可或缺的,我们特地邀请了小红书的相关技术负责人来为我们分享图存储实践中如何应对万亿级社交关系带来的挑战。

对于在线应用来说,数据服务的稳定性和可用性至关重要,稳定性不仅包括了服务本身的可用性,也包含了数据时延的稳定性。关于这个方向,我们不妨听听来自字节跳动的 KV 存储在解决大规模多地域部署问题和挑战的最佳实践。

专题:数据存储应用实践

出品人:冯玮 字节跳动 大数据存储技术负责人

个人介绍:字节跳动大数据存储技术负责人,在分布式存储领域有 10+ 年技术与产品经验。目前负责字节跳动大数据存储产品的研发和运营工作。主要负责产品及方向包括 HDFS(自研),数据湖(存储)和火山大数据存储加速产品等,涉及数十 EB 数据的管理和治理。

演讲日程

毛琦 小红书基础架构存储负责人

个人介绍:先后在 EMC、华为、阿里云从事存储产品的核心开发和架构师角色,目前在小红书负责 NoSQL KV 数据库、图数据库、NewSQL 数据库的研发和架构演进。

演讲题目:小红书面对万亿社交网络关系的图存储实践

演讲提纲:小红书是一个社区属性为主的产品,它涵盖了各个领域的生活社区,并存储海量的社交网络关系。为解决社交场景下超大规模数据的更新与关联读取问题,并减少数据库压力和成本,我们自研了面向超大规模社交网络的图存储系统 REDtao,大大提高了系统稳定性,它将缓存和底层数据库封装起来,并对外提供统一的图查询 API,实现了访问收敛,同时在缓存中实现了高效的边聚合。

听众收益:图存储系统在社交网络关系的应用和收益。

田勇 字节跳动 HDFS 产品技术负责人

个人介绍:字节跳动 HDFS 产品技术负责人,参与过文件、对象、NoSQL 等多个分布式产品研发,在分布式存储领域拥有 10+ 年技术经验。之前在百度负责 Mola/Table 等 NoSQL 产品的研发。当前主要关注字节 HDFS 产品的技术架构演进、成本优化以及数十 EB 的数据治理等方向的工作。

演讲题目:EB 级存储规模 HDFS 在字节的探索与实践

演讲提纲:HDFS 是字节内部历史最久远、体量最大的存储系统,存储规模达到数十 EB,运营时间超过 10 年。支撑了大数据、机器学习、Flink/AP/MQ 等多种近离线场景。伴随着字节系业务的发展历程,产品和技术经历了一系列的演进,形成了字节独有的特色:包括采用单一大集群多机房部署形态,通过 C++ 重构版的 NameNode/DataNode 解决社区版存在的性能和启动效率等问题。构建分级存储体系,结合上层生态的数据访问范式管理数据在多级存储、跨AZ间的流动,降低数据存储成本,提升数据访问效率。此外,还进一步结合机器学习来识别用户的误删行为,提升数据安全保障等。本次分享主要围绕着字节 HDFS 产品在以上工作中的探索和实践展开:

  1. 字节 HDFS 的新特性;

  2. 多机房架构挑战;

  3. 分级存储实践;

  4. 数据安全防护实践

听众收益:

  1. 字节 C++ 重构版本的 NameNode/DataNode 引入哪些新 Feature?

  2. 如何结合大数据生态实现海量数据精细化治理来保障业务稳定性,达到成本最优?

  3. 多机房架构如何设计?如何解决跨机房访问带宽瓶颈?

  4. 如何结合 AI 实现数据误删保护?

徐明敏 bilibili 基础架构微服务负责人

个人介绍:2011年毕业,先后在阿里、微软、触宝、字节跳动以及B站工作,主要从事分布式缓存/分布式存储/服务治理/可观测等相关工作。加入B站之后作为微服务方向Leader,主要负责服务治理/消息队列/负载均衡/可观测性等方向建设。个人对分布式系统,性能优化以及新硬件应用比较感兴趣。

演讲题目:B站日志平台架构演进

演讲提纲:主要内容为B站的日志平台如何从1.0走到现在3.0的存算分离/离在线统一架构的。其中遇到了哪些困难,在架构上做了怎样的抉择和思考,如何在有限的人力以及资源下完成降本增效目标。

听众收益:

  1. 基于B站团队现状如何做技术选型和规划

  2. B站日志平台是如何实现离在线统一的

  3. B站日志平台是如何一步一步贯彻降本增效的

刘健 字节跳动 Abase 产品研发负责人

个人介绍:字节跳动 Abase 产品研发负责人,在分布式存储领域拥有 10+ 年技术经验。曾在百度参与 Mola,Aries 等存储系统的研发工作。当前主要关注超大规模的 NoSQL 数据库在稳定性、成本、数据生态、多地域支持等方向的工作。

演讲题目:Abase2:全球 NoSQL 数据库中的 CRDT 支持实践

演讲提纲:Abase 是字节内部使用最广泛,体量最大的 NoSQL 数据库之一,峰值 QPS 达到百亿级,数据规模达到 EB 级。支持了推荐、搜索、广告、头条、抖音、电商等几乎公司所有业务的在线 KV 存储场景。随着业务的发展,越来越多用户需要在不同物理地域间部署 Abase 集群及同步数据解决就近读写、容灾和资源瓶颈等问题;同时由于大量用户通过 Redis 接口访问 Abase,我们设计实现了 Abase2 的多地域部署架构,并且提供主要 Redis 命令的 CRDT 支持,因此本次分享将围绕 Abase2 在全球部署支持方面的工程实践展开。具体内容包括:

  1. 字节多地域部署的需求和挑战

  2. Abase2 的架构介绍

  3. CRDT (conflict-free replicated data type)解决方案介绍

  4. String/Hset/Zset 命令的 CRDT 支持工程实践

听众收益:

  1. 如何解决数据库跨地域部署/同步/一致的需求

  2. 如何实现 Redis 主要命令的 CRDT 支持

  3. 如何在支持 CRDT 的同时实现高性能

  4. 如何在多地域部署过程中同时做到成本优化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/720396.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

linux centos8下安装redis6.2.12

一.下载安装包并解压 Download | Redis 解压操作 tar -zxvf redis-6.2.12.tar.gz 二.进入到redis-6.2.12中 cd redis-6.2.12 三.预编译make到本地 四.创建文件: mkdir -p /opt/redis,最后将redis安装到opt/redis目录中去 五.安装到指定目录: make install PREFIX/opt/redis…

Android 支持 lhdc

LHDC全称Low-Latency Hi-Definition Audio Codec,是一种高音质蓝牙编解码方案,由台湾厂商 Savitech 盛微先进科技开发。先看下介绍 这块不涉及音频,只有蓝牙,因为音频的codec是由台湾厂商 Savitech 盛微先进科技开发的&#xff0…

信息化项目生命周期类型的特点与管理方法论

目录 一、预测型生命周期 二、迭代型生命周期 三、增量型生命周期 四、适应型生命周期 五、混合型生命周期 六、各生命周期之间的差异点 七、项目管理五大过程组 八、适应型项目中过程组之间的关系 九、项目管理十大知识领域 十、项目管理八大绩效域 十一、价值交付系统 一、预…

立体记录留住精彩瞬间,推荐录屏软件给你

在如今数字化时代,电脑录屏软件成为越来越多人必备的工具之一。不论是教学、演示、游戏录制还是内容创作,录屏软件能够帮助我们捕捉屏幕上的活动并将其保存为高质量的视频文件。然而,在众多的选择中,我们该如何寻找一款适合自己需…

C#核心知识回顾——10.List、Dictionary、数据结构

1.List List<int> list new List<int>(); List<String> strings new List<String>();//增list.Add(0);list.Add(1);List<int> ints new List<int>();ints.Add(0);list.AddRange(ints);//插入list.Insert(0, 1);// 位置0插入1//删//1.移…

Impala3.4源码阅读笔记(五)统计信息

前言 本文为笔者个人阅读Apache Impala源码时的笔记&#xff0c;仅代表我个人对代码的理解&#xff0c;个人水平有限&#xff0c;文章可能存在理解错误、遗漏或者过时之处。如果有任何错误或者有更好的见解&#xff0c;欢迎指正。 基本信息 在Impala中&#xff0c;Stats记录…

【Vuejs】1732- 详细聊一聊 Vue3 依赖注入

&#x1f449; 「相关文章」 深入浅出 Vue3 自定义指令详细聊一聊 Vue3 动态组件6 个你必须明白 Vue3 的 ref 和 reactive 问题初中级前端必须掌握的 10 个 Vue 优化技巧分享 15 个 Vue3 全家桶开发的避坑经验 在 Vue.js 中&#xff0c;依赖注入[1]&#xff08;DI&#xff09;是…

中小企业做知识管理如何选择KMS?

编者按&#xff1a;&#xff08;KM&#xff09;是创建、共享、使用和管理组织的知识和信息的过程。它是指通过充分利用知识来实现组织的多学科方法。那么中小企业预算有限的情况下&#xff0c;该如何选择KMS呢 &#xff1f; 关键词&#xff1a;知识管理系统、免安装、免维护 市…

在职读研弥补学历短板——中国人民大学与加拿大女王大学金融硕士项目

在当今社会 “文凭化”的理念下&#xff0c;学历变得很重要。学历会影响到一个人成长发展的各各方面&#xff0c;当我们“工作越久&#xff0c;接触社会越久”&#xff0c;越感觉到学历的重要性。具有高学历&#xff0c;就具有更多的发展机会&#xff0c;具有更多精神上的财富&…

Basler相机一丢包就断开问题解决

问题描述&#xff1a; 两个相机&#xff0c; 一个相机aca2500-14gm连接电脑主板100M网卡没问题&#xff0c;帧率3帧&#xff0c;但是不会断。 一个相机aca2500-14gm连接USB转网口&#xff08;千兆&#xff09;&#xff0c;pylon Viewer采图丢包严重并且几秒后相机断开。 解决…

集合面试题--复杂度分析

为什么要进行复杂度分析&#xff1f; 1指导编写出性能更优的代码2评判别人写的代码的好坏 时间复杂度分析 常见复杂度表示 常见复杂度 空间复杂度

【赠书活动 - 第1期】- 测试工程师Python开发实战(异步图书出品)| 文末送书

⭐️ 赠书 - 测试工程师Python开发实战&#xff08;异步图书出品&#xff09; 当初就是因为开发做不好&#xff0c;才去做测试了…… 这句玩笑话在过去可以说是测试人员的真实写照。 常规测试工作给人的印象&#xff0c;就是弄清楚软件功能&#xff0c;编写测试用例&#xff0…

基于springboot+Redis的前后端分离项目之消息队列(六)-【黑马点评】

&#x1f381;&#x1f381;资源文件分享 链接&#xff1a;https://pan.baidu.com/s/1189u6u4icQYHg_9_7ovWmA?pwdeh11 提取码&#xff1a;eh11 秒杀优化、消息队列 秒杀优化1 秒杀优化-异步秒杀思路2 秒杀优化-Redis完成秒杀资格判断3 秒杀优化-基于阻塞队列实现秒杀优化 Red…

抖音矩阵系统源码开源部署分享(三)

目录 一、 概述&#xff1a; 二、 账号矩阵搭建目的&#xff1a; 三、 抖音矩阵系统源码开发步骤 四、 功能规划 五、 代码开发展示 一、 概述&#xff1a; 抖音矩阵系统是指通过多个账号运营&#xff0c;对账号之间的内容和特征进行细分&#xff0c;账号之间相互引流推广&a…

什么是数字化和数字化转型?终于有人讲明白了!

在我与不同行业、不同岗位甚至不同阶层的人谈论数字化和数字化转型的时候发现一个很有意思的现象&#xff1a; 许多人出于无知或为了自己的利益而开始混淆这两个术语&#xff0c;甚至一些人已经开始将数字化标记为数字化转型&#xff0c;以安抚管理层、获得项目批准或进行销售…

在海外我们该如何推广应用

Google Play和Apple Store上有各种各样不同的应用程序&#xff0c;大量的正面评论和高评级可以成为应用在当前市场上取得成功的关键。大多数用户更喜欢有很多应用评论&#xff0c;积极反馈和高评级的应用程序&#xff0c;因此每条应用程序评论都很重要。确保鼓励用户留下评论&a…

R语言学习——数据框

x c(42,7,64,9) y1:4 z.df data.frame(INDEXy, VALUEx) z.df dim(z.df) # 查看几行几列 colnames(z.df) # 查看列名 rownames(z.df) # 查看行名 z.df[,1] z.df[1,] z.df[c(1,2),c(1,2)]df1 data.frame(C1c(1,5,14,1,54), C2c(9,15,85,9,42), C3c(8,7,42,8,16)) df1 df2 <…

力扣 78. 子集

题目来源&#xff1a;https://leetcode.cn/problems/subsets/description/ C题解1&#xff1a;递归回溯法。由于是求子集&#xff0c;所以根据nums.size()遍历每个子集的长度&#xff0c;并进行回溯。 class Solution { public:vector<vector<int>> res;vector<…

Blazor前后端框架Known-V1.2.2

V1.2.2 Known是基于C#和Blazor开发的前后端分离快速开发框架&#xff0c;开箱即用&#xff0c;跨平台&#xff0c;一处代码&#xff0c;多处运行。 概述 基于C#和Blazor实现的快速开发框架&#xff0c;前后端分离&#xff0c;开箱即用。跨平台&#xff0c;单页应用&#xff…