实时数仓,站上产业潮头

news2024/9/21 19:04:59

在这场新的数据驱动战场里,谁能更好的对数据进行智能、准确、迅速、高性价比的体系化处理,谁能以更低的成本、更高效的能力构建底层的PaaS、IaaS组件,谁就能在如今的市场竞争中构建更具竞争力的业务模型,成为新的弄潮儿。 

对ByteHouse而言,在被越来越多企业选择的如今,属于它的新战场,也更是一个个像布鲁肯一样的降本增效新故事,正在到来。 

作者| 皮爷 

出品|产业家 

一个开屏广告的持续时间是几秒?你可能会说是2s,也可能是3s;那一个开屏广告的从你打开APP的那一刻到出现在你眼前,需要多长时间? 

“我们能做到200ms,甚至是100ms”。布鲁肯市场负责人张亚灵告诉我们。 

在这个和人们眨眼一次几乎一致的时间线里,上演的却是一个完整周期的广告模型——从打开时的接受用户数据,到基于用户数据生成对应的广告策略,最终再反馈到产品端进行前端展示。 

这是布鲁肯每天都在提供支持的场景——数据广告。对布鲁肯和数字广告行业的一个简单介绍是,其主要面向媒体端和广告主提供对应的广告服务,一方面帮助媒体端(如电商平台、社媒网站等)获得更大的流量和广告收益,另一方面帮助广告主提供足够精准的广告投放策略,以提高产品曝光。 

而为这个复杂精密的实时数字广告模型提供核心动力的,正是布鲁肯的底层数据库,在这个底层的动力源里,无数的数据被加速处理、加速决策,而在特定的如618、双11等节日大促期间,底层的数据流转则更是会被以十倍、乃至百倍的要求提速。 

这并不是一件容易的事。“我们平常也会出现一些服务不稳定、请求超时的情况,这种情况也会对前端业务有不小的影响。”张亚灵告诉产业家。与此同时,伴随着布鲁肯业务的增长,其对应的IT资源底层成本也更是在飞速增长。 

实际上,这不只是数字广告一个行业的特点。 

在如今的2024年,伴随着云计算和数字化浪潮的推进,在越来越多的如电商零售、金融等行业,数据实时性的权重正在被加速提升,对企业而言,如果想要保证业务的持续发展,其底层数据库必须要能满足数据的实时性和高并发要求,此外,在这些要求之上,同时也更必须保证高性价比。 

也可以说,布鲁肯正是当下的缩影之一。那么,企业应该如何构建自己的实时数仓体系,又或者说,对企业而言,一个能满足性能、成本、运维等全部需求的数据库方案应该是怎样的? 

在布鲁肯的新故事里,一个基于实时数仓的降本增效答案正在出现。 

一、“烧钱”的数字广告 

2023年4月份,火山引擎ByteHouse团队突然监测到一个“奇怪”但却欣喜的情况,一个企业用户突然基于ByteHouse上线了自己的业务,并且使用量迅速飙升。 

“速度很快,前后也就用了11天不到的时间。”ByteHouse团队相关负责人告诉我们。“ByteHouse瞬间的业务并发到了新的峰值,几乎是当时所有客户业务里并发量最高的。” 

对ByteHouse的一个介绍是,ByteHouse是火山引擎旗下的一款云原生数据仓库,其能够支撑海量的实时数据分析和数据离线分析,同时具备极强的弹性扩缩容能力、极致分析性能和丰富的企业级服务能力。换言之,这是一款专门面向实时数据方向的数据库产品。 

而他们口中 的这个客户,正是布鲁肯。在此刻,一个在这家数字广告头部企业内部正在发生的事情是:伴随着业务的增长,它原有的数据库已经不能满足需求,这种不满足在功能,也更在成本。 

首先,从数据库类型来看,布鲁肯之前使用的是IT圈内有着“极具战斗力”美誉的开源数据库ClickHouse,由IT部门的相关人员进行数据库的企业级开发和专项运维。 

不过,这种选择如今正在面临问题。即伴随着布鲁肯业务的发展,其业务本身的数据量以及对于数据的实时性计算分析效率的要求也更在越来越高。对于市面主流的OLAP产品而言,这些产品尽管本身具备强大的分析和线性拓展能力,但从另一些功能需求上,比如复杂查询等,这些OLAP产品并不擅长。 

同时,在数据存储等方面,众所周知,由于ClickHouse本身固有的存储模式(列式存储),伴着布鲁肯业务的发展,其对应的硬件成本也更在飞速飙升。 

对应到布鲁肯内部,这更可以理解为是一个效率和成本的双重难题。 

即一方面,与布鲁肯对于实时数据处理能力、高并发的能力的强烈需求对应的是,其前端业务侧一度出现类似“业务卡顿、用户请求反馈慢、投放策略优化不及时”等等问题。而另一方面,对应的也更是伴随着布鲁肯业务的发展,其在底层硬件投入以及数据库运维侧也在投入更多的企业运营成本。 

换言之,对布鲁肯而言,作为一个对实时数据处理要求极高的企业,如果想要寻求更优质的前端业务模型和更快的发展速度,数据库侧的建设策略必须要调整。 

实际上,布鲁肯的这种对实时数据的需求在过去的几年时间里已经成为一种共性的“刚需”,不论是在电商促销、金融场景,包括供应链调度等等,伴随着企业业务的发展深化,其都在涌现出不同程度的对实时数据的特殊要求,以更好地帮助企业调整前端业务的市场策略,进而让企业更具灵活性和适应性。 

但如果从整个数据库市场来看,这又不是一件容易的事。不论是开源方向的ClickHouse、Flink,还是目前市面上主流的数据库产品,尽管伴随着湖仓一体等模式的发展以及越来越多开源产品的企业级商业化,但就目前而言,其面向实时数据方向都很难兼备产品性能、运维、成本这三项能力,并且没有被验证。 

换言之,这些产品并不是专门面向实时数据场景的数据库产品。 

这也恰是在布鲁肯内部的共识。即在ByteHouse团队感知到之前,关于数据库的选型工作在布鲁肯内部已经持续开展了一段时间,在其中包括上述所说的Flink以及国内诸多主流数据库产品,都已经被测试过相关的性能以及对应的使用成本。 

ByteHouse,成了这家数字广告头部企业补齐自身“木桶短板”的最终选择。 

二、“1个人力,降低企业30%成本”的新故事 

而这种选择,甚至给布鲁肯团队带来了惊喜。 

一个数据是,从最开始选择ByteHouse到使用其进行生产,布鲁肯仅仅用了11天。对布鲁肯而言,这是一个对企业业务影响极小且成本极低的方案。 

“在我们把数据迁移到火山引擎ByteHouse的这个过程中,业务侧其实是有比较强的感知的,包括客户层面的反馈,也都感觉出效果变得更好。”张亚灵告诉我们。 

从产品能力来看,ByteHouse更准确的着力点是加速数据在布鲁肯整个体系中的流转,其可以为布鲁肯的前端业务提供更快速的数据处理和数据分析能力,进而帮助布鲁肯的客户和广告主实时优化下单策略和广告策略,同时让投放过程中的指标可以以更快的速度展现到前端,提高其广告投放的性价比。 

“其实在整个过程中,我们几乎没有提供过重的服务,除了部分参数和指标的调整确认,也就是一个研发接近20%、30%的人力投入,对于布鲁肯来说,只投入1个人力就完成了接入和运维。”上述ByteHouse负责人表示,“而且在后续的售后环节,ByteHouse的高度产品化,让布鲁肯的使用也非常稳定。” 

对布鲁肯内部而言,除了这种隐形成本的降低,在显性成本侧有更清晰的感知。“基本全线切到火山引擎之后,我们的成本大概降低了30%,在效率侧,我们评估提高了30%- 40% 左右,这两个一叠加,其实我觉得效率整体提高一半是有的。”张亚灵告诉我们。 

上述负责人告诉我们,最开始布鲁肯仅是一个单集群上线了ByteHouse,而如今伴随着业务发展,上线ByteHouse的集群达到了四个,如今第五个集群的建设正在筹备中。此外,布鲁肯内部核心的主业务集群也更是从最开始的32核扩展到现在的 192核。 

此外,在布鲁肯的前端业务侧,这种变化也更为清晰。“以618为例,我们之前只上了程序化竞价广告,像今年,我们包括其他的一些网站、社媒,以及品牌PDB投放我们也都可以支持,相当于业务宽度更广了。”张亚灵告诉我们。 

实际上,今年618的合作也更是双方合作的一个缩影。 

对布鲁肯而言,其所在数字广告行业往往和电商等行业具备同样的流量峰值点,对应到底层的服务器和数据库侧则是需要紧急扩容和定向监测运维,可以说,这也恰是对底层IT架构的一次大考。 

“基本提前2周,我们双方团队就制定了一些预案,包括到时候如何扩容,如果处理紧急情况等等。”ByteHouse负责人表示,“严格来说,在618的时候,只需要运维人员点击一些扩容按键就可以,比如先点击Kafka的扩容键,再点ByteHouse这边的扩容,系统对应就会直接扩容完成,而且会保证在分钟级。” 

这种运维的工作,如果基于之前的开源产品,其投入成本和工作量会是现在的几十乃至上百倍。而对布鲁肯而言,这种低成本的轻度运维的模式已经成为常态。 

降本增效,构建新的增长动力源——这也正是ByteHouse和布鲁肯正在讲述的构建的新故事。 

三、在抖音查询效率提升100倍背后 

如果把视角往前拉回,能看到的是,在布鲁肯618的支撑背后,ByteHouse的“不费力”并非偶然。“我们在字节跳动内部有过大量的这种扩容的需求和场景,这些情况对我们而言已经不再是难事。”ByteHouse负责人告诉我们。 

这句话背后,对应是ByteHouse在字节跳动内部的一个完整故事。 

从时间线来看,早在2016年前后,字节最早使用的是恰是和布鲁肯一样的开源数据库ClickHouse,但伴随着使用,字节IT团队开始基于ClickHouse不断进行深度开发。 

比如在引擎侧,实现从高可用引擎到实时数据引擎、唯一键引擎、Bitmap引擎的进化;以及在性能和运维侧进行更深度的强化,如强化的企业级运维的能力,比如自动化部署(布鲁肯的扩容也恰是其中能力模块之一)、可视化运维等等。 

2020年,ByteHouse 正式在字节跳动内部立项,一年之后的2021年的10月,火山引擎正式发布企业版产品ByteHouse。 

这些从头条、抖音等字节内部庞大场景里训练出来的产品能力和企业级服务能力,如今也恰是真实构成了ByteHouse在“布鲁肯们”内集性能、成本、运维等全部需求的落地。 

据了解,在相同的业务场景和数据量下,和市面上主流分析型数据库产品所需的资源相比,ByteHouse可以用“一半”的资源享有一样的并发性能,换言之,其对应的是50%的成本降幅。 

在运维侧更是如此,可以理解为,在这个企业级数据库产品的关键衡量指标上,ByteHouse对外输出的是在字节内部场景成功实践的能力,对应到监测、扩容等相关环节,则是更为具体和精准有效指标展示和运维操作,以及易用、可用对应的更低成本的运维投入。 

以抖音业务为例,为了基于自身推荐系统为用户推送可能感兴趣的视频内容, “兴趣圈层”可谓是平台最重要的核心功能之一。而且,和市面上的基于单一维度和标签构建的用户兴趣圈层功能不同的是,抖音所做的是基于多个标签的交叉识别,以更好的提高自身的精准推荐模型。 

这其中映射的算法复杂度和数据处理量,均会有指数级别的暴增,对底层的存储架构性能挑战极大。 

从架构来看,抖音之前采用的数据库是一种行式存储的数据库,伴随着抖音相关数据的暴增,数据库本身的查询性能瓶颈被很快达到。 

此外,如果要在原有数据库上查询上亿级别的数据,就必须要通过分片、读写分离等策略来提升性能,并配备更高性能的硬件,这也就意味着硬件成本会被显著提高。 

而ByteHouse,也正式成了抖音技术团队的最新选择。作为一款OLAP引擎,一个数据是,其和原有的数据库相比,将抖音不同几个典型场景的查询效率平均提升了 100 倍左右,大大提升了用户使用抖音的流畅度。与此同时,由于 ByteHouse 出色的查询性能和良好的数据压缩比,综合硬件成本也更是被加速降低。 

这种对降本增效的故事不仅在发生在抖音,也更在字节的一个个场景。一个数据是,截止到2022 年 3 月,ByteHouse在字节内部部署规模已超过1万8000台,单集群超过2400 台,管理总数据量超过700PB。而与之对应的运维人员人力,仅有不到3个人。 

如今,这些全部面向实时数据服务的原子能力被拆解重构成ByteHouse不同的面向企业的服务方案。“现在我们主要提供三种模式,一类是基于私有化部署的,面向有专项需求的企业,一类是基于PaaS服务的,类似布鲁肯这种,另一类是SaaS模式的存算分离版本,这也是如今我们字节内部在广泛落地使用的。” 

这些方案和原子能力,如今也更在成为着ByteHouse在数据库行业的标签。 

四、数据飞轮的下一个十年: 

我们需要怎样的数据库? 

中国的数据库行业,在过去伴随着信息化发展的20年中,一向不缺乏波澜壮阔的故事。 

不论是早年以Oracle为代表的集中式数据库,还是后来伴随着云计算兴起的分布式数据库,不论是早年的开源路线还是后来企业级产品的后来居上,不论是存算分离、流批一体还是如今愈发高涨对数据实时性和高并发的要求,这些都在成为数据库行业的前进信号,也更在推动着更优质的企业级数据库产品,以及更实用的 数据理念的出现。 

在ByteHouse身上,这种信号也更在愈发清晰。 

“我们觉得火山引擎ByteHouse另一个带给我们很有收获的点是强化我们内部数据驱动的文化,帮助我们更好地给予数据去运营、决策。”张亚灵告诉我们,“以及包括数据质量管理、数据合规管理等等方面,我们这块的意识也变得更强。” 

这也恰是在ByteHouse背后对应的数据飞轮模型。数据飞轮理念,对应的是当下企业的数智化模型,即其通过不断积累数据和分析数据,推动产品性能的持续改善,进而吸引更多用户,产生更多数据,形成正向的、自我强化的循环。 

可以说,这也恰是ByteHouse在布鲁肯中真正成为有价值生产力工具的一个有效印证。即在产品之上,为企业的整个业务模型提供的是一个兼备性能和成本的双重加持。 

而如今,在布鲁肯之外,ByteHouse对外交出的数据故事也在有更精彩的版本。比如在今年7月份,火山引擎ByteHouse就对外发布了高性能全文检索引擎,满足不同企业对底层不同数据的检索;再比如在今年年初,其也更发布了高性能向量检索能力,而在最近,这项能力则是覆盖了“以图搜图”应用场景,满足企业需求。 

以及在产品运维能力上,上述负责人告诉我们,如今ByteHouse正在尝试把越来越多重要的集群后端指标展示到运维界面前端,让运维人员可以更容易地完成日常运维工作,保证集群稳定运行;同时,ByteHouse团队在“DB for AI”的向量检索能力之外,也更在探索“AI for DB”等越来越多其他方向。 

“我们主要还是保证两条线的同步进行,一条线是ByteHouse本身的实时数仓能力,包括文件检索、地理中台、向量等等,另一条线也更是不断强化企业级服务能力,让企业能更易用、可用。” 

客观来看,伴随着数字化和AI时代的深入,在中国的土壤里,数据驱动发展的模型正在加速成熟,而对于实时数据有充分需求的场景也更在正在越来越多。 

根据一份QYResearcH调研团队的最新报告显示,在过去几年里,中国实时数据库市场在加速发展, 2023年市场规模为1.27亿(美元), 约占全球的16.95%, 而这一数 字到 2029 年将预计达到 1.84 亿(美元) , 届时全球占比将达到 17.90% 。 

可以说,在这场新的数据驱动战场里,谁能更好的对数据进行智能、准确、迅速、高性价比的体系化处理,谁能以更低的成本、更高效的能力构建底层的PaaS、IaaS组件,谁就能在如今的市场竞争中构建更具竞争力的业务模型,成为新的弄潮儿。 

对ByteHouse而言,在被越来越多企业选择的如今,属于它的新战场,也更是一个个像布鲁肯一样的降本增效新故事,正在到来。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2085336.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C#开发中ImageComboBox控件数据源实时变换

在C#开发中,我们如何将控件的数据源实时变换,当然我们可以在窗口实例化的时候指定固定的数据源,但是这样对于用户来说数据源永远固定,并不利于我们对于用户的数据存储,优化用户的操作,遇到这种问题&#xf…

模拟登录页,华为账号一键登录

一、介绍 基于鸿蒙Next模拟账号一键登录,免去账号注册环节二、场景需求 1. 用户场景 新用户: 需要快速注册并登录,以体验华为的服务。 老用户: 希望快速登录,不用每次输入用户名和密码。 2. 界面设计 Logo和标题&#…

RK方案有时一开机要设置GPIO口点平

有时候RK方案,需要一开机就设置GPIO口电平,需要在uboot阶段,board.c #define GPIO_BANK0 0 #define GPIO_BANK1 32 #define GPIO_BANK2 64 #define GPIO_BANK3 …

基于RK3568智慧交通-雷达视频融合一体机,支持鸿蒙

智慧交通-雷达视频融合一体机 随着5G网络与智慧交通车路协同系统在全国各点的落地,作为提升交通安全的前沿技术方案也愈发受到重视。 在交通信控领域,以往的感知技术、无论是地磁、线圈还是摄像头,功能都仅仅局限于数清经过了多少车辆&…

TypeScript类型检查错误 error TS2339

错误产生 上一篇博客写了一个调用摄像头的 demo &#xff0c;用了 vue3 vite &#xff0c;使用了 TypeScript &#xff0c;代码大致如下&#xff1a; <script setup lang"ts"> import { onMounted, ref } from vue; import WelcomeItem from ./WelcomeItem.…

视频监控管理老鼠检测算法应用方案厨房老鼠检测算法源码展示

在当今的现代厨房环境中&#xff0c;维持卫生的重要性不仅仅体现在健康层面&#xff0c;更与整个家庭的生活质量息息相关。随着城市化进程不断加快&#xff0c;城市中的居住空间变得更加拥挤&#xff0c;这导致了一系列家庭管理问题的出现&#xff0c;其中厨房老鼠问题尤为突出…

复杂 RAG 系统的检索规划

文章介绍了REAPER&#xff08;Reasoning based Retrieval Planning for Complex RAG Systems&#xff09;&#xff0c;这是一种基于大型语言模型&#xff08;LLM&#xff09;的规划器&#xff0c;用于在复杂的对话系统中生成检索计划。REAPER旨在解决在大规模异构数据存储中进行…

linux中下载nginx

Nginx是一款高性能的开源Web服务器软件。它可以作为一个HTTP服务器进行网站的发布&#xff0c;也可以作为反向代理服务器进行负载均衡。Nginx以其出色的性能、稳定性和低资源消耗而受到广泛的使用。它的特点包括支持并发连接数高、内存消耗低、事件驱动等&#xff0c;适用于大部…

滚雪球学MyBatis-Plus(01):学前导读

&#x1f300;写在前面 我是bug菌&#xff0c;CSDN | 掘金 | InfoQ | 51CTO | 华为云 | 阿里云 | 腾讯云 等社区博客专家&#xff0c;C站博客之星Top30&#xff0c;华为云2023年度十佳博主&#xff0c;掘金多年度人气作者Top40&#xff0c;掘金等各大社区平台签约作者&#xff…

Python进阶05-多线程

零、文章目录 Python进阶05-多线程 1、进程 &#xff08;1&#xff09;单任务 单任务&#xff1a;指在同一时间内只执行单个任务。 import time# 定义一个函数&#xff0c;用于实现听音乐 def music():for i in range(3):print(正在听音乐...)time.sleep(0.2)# 定义一个函…

振弦式基岩位移计主要功能探析

在土木工程和地质监测领域&#xff0c;基岩位移计作为一种重要的监测设备&#xff0c;发挥着不可替代的作用。其主要功能在于长期、精准地测量水工结构物、桥梁、建筑、铁路等混凝土结构物与地基之间的开合度(位移)&#xff0c;并同步监测埋设点的温度变化。本文将深入探讨基岩…

【漏洞复现】某联云采 SRM2.0 download 任意文件读取漏洞

声明&#xff1a;本文档或演示材料仅用于教育和教学目的。如果任何个人或组织利用本文档中的信息进行非法活动&#xff0c;将与本文档的作者或发布者无关。 一、漏洞描述 某联云采 SRM2.0 是一款专门为企业供应链管理设计的采购管理系统。它具备采购流程自动化、供应商管理优化…

LLM大模型入门天花板!《大模型入门:技术原理与实战应用》一本书让你轻松入门大模型(附PDF)

随着大模型技术的不断完善和普及&#xff0c;我们将进入一个由数据驱动、智能辅助的全新工作模式和生活模式。个人和企业将能够利用大模型来降本增效&#xff0c;并创造全新的用户体验。 人工智能是人类探索未来的重要领域之一&#xff0c;以GPT为代表的大模型应用一经推出在短…

【网络安全】服务基础第一阶段——第二节:Windows系统管理基础----虚拟化IP地址以及用户与组管理

目录 一、Windows网络测试工具 1.1.ping命令 1.2.tracert命令 二、IP实验内容 2.1 实验一 2.2 实验二 三、用户与组管理 3.1 用户与账户概述 3.2 用户管理 3.3 用户增删改查 3.4 增加用户 3.5 修改用户属性 3.6 删除用户 3.7 组账户概述 3.8 组账户增删改查 四、…

linux网络编程-原理到应用-附源码(全)

目录 一、计算机网络分层模型 1.1 概念 1.2 OSI 七层模型 1.3 五层模型 1.4 TCP/IP四层模型 二、传输层-TCP协议 2.1 什么是TCP协议&#xff1f; 2.2 TCP的连接的建立和释放 2.3 基于TCP协议-只接受一个连接的范例程序 一、计算机网络分层模型 1.1 概念 计算机网络…

装过mr又卸载了,max报错 mrmateralattribs missing dlls

rendering>scene converter 打开对话框后&#xff0c;current preset 中选择 remove invalid legacy elements&#xff0c;取消open scene converter。。勾选 automaticaly remove missing。再点 convet scene

HTML静态网页成品作业(HTML+CSS)——个人介绍网页(1个页面)

&#x1f389;不定期分享源码&#xff0c;关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 &#x1f3f7;️本套采用HTMLCSS&#xff0c;未使用Javacsript代码&#xff0c;共有1个页面。 二、作品演示 三、代…

java-Spring框架02

1.AOP 1.概述 AOP &#xff08;Aspect Oriented Programming&#xff09;&#xff1a;面向切面编程&#xff0c;通过预编译方式和运行期间动态代理实现程序功能的统一维护的一种技术。&#xff08;是对面向对象编程的补充延续&#xff0c;&#xff09; 面向切面编程思想&#…

Linux之ip命令详解

华子目录 1.ip命令是什么1.1ip命令的由来1.2ip命令的安装包1.2ip选项&#xff08;基本不用&#xff09; 2.查看网络信息2.1显示全部网络接口信息2.2显示单个网络接口信息2.3显示单个接口状态2.4查看路由表2.5查看arp缓存 3.设置网卡ip地址3.1启用或停用网卡3.2设置默认网关3.3新…

【数据集】遥感影像建筑物提取论文常用数据集

几个常用于遥感影像建筑物对比试验的数据集 WHU building dataset 下载链接&#xff1a; https://study.rsgis.whu.edu.cn/pages/download/building_dataset.html WHU数据集中包含多个子数据集&#xff1a; Aerial imagery dataset 航空影像建筑物数据集 数量&#xff1a;8…