助力降本增效,ByteHouse打造新一代云原生数据仓库

news2024/12/22 23:28:05

随着数据量的爆炸式增长、企业上云速度加快以及数据实时性需求加强,云原生数仓市场迎来了快速发展机遇。

据 IDC、Gartner 研究机构数据显示,到 2025 年,企业 50% 数据预计为云存储,75% 数据库都将运行在云上,全球数据处理预计有 30% 为实时数据处理,80% 数据预计为非结构化数据,这将驱使云原生数仓愈加受到企业青睐。

近期,火山引擎云原生数据仓库 ByteHouse 产品负责人李群受邀出席“CSDI summit 中国软件研发创新科技峰会”,围绕“新一代云原生数仓 ByteHouse 关键技术与最佳实践”主题,从云数仓历史和前沿出发,介绍 ByteHouse 整体架构、关键亮点、性能突破、存算分离的关键设计,以及 ByteHouse 在抖音集团内外多样化场景中的业务实践。

基于 ByteHouse 在金融、游戏、泛互联网等多行业的经验总结,李群首先介绍了云原生数据仓库目前面临的难点和挑战。高性能、高并发、高吞吐写入,已经是当今企业对云数仓的基础需求。随着互联网不断发展,数据增长迅速,特别是埋点日志类数据,一些较为活跃的 APP,每天数据达到百亿甚至千亿级别,大规模杀手级应用每天更是产生数千亿事件量。这要求数据平台不仅要支持高吞吐写入、实时去重,面对业务请求还要达到毫秒级响应。

除此之外,企业还面临数据架构复杂、灵活性欠缺、成本控制难的问题。例如,为了实现一个数据分析功能,企业可能需要引入三、四个甚至更多的组件来构建,导致扩容较难、运维压力大,人力维护成本高。

为了解决以上问题,ByteHouse 首先在性能上实现突破。在复杂查询上,ByteHouse 从 RBO(基于规则的优化能力)、CBO(基于代价的优化能力)、分布式计划生成方面推出了自研优化器,能够准确的计算出效率最大化执行路径,大幅度降低用户查询时间。除此之外,ByteHouse 还从 Exchange、Runtime Filter 以及并行化重构等方向进行了优化。针对实时吞吐慢、BI 报表慢、离/在线复杂分析慢、湖+仓联邦分析慢、人群圈选慢、以图搜图慢六大场景,ByteHouse 都推出了定制解决方案,并在客户实际场景中产生实效。

在提升效率同时,ByteHouse 也专注于帮助用户节省成本。基于 ByteHouse 弹性伸缩能力,用户只需基于时间、资源负载等条件就能进行扩容、缩容配置,减轻手动管理的负担,提升资源利用率。在存储层面, ByteHouse 采用 Serverless 架构,具有低成本、无限扩展的能力。在计算层面,ByteHouse 则基于 PaaS 模式,通过容器化实现无状态或弱状态,将整个计算组包装成租户和应用呈现给用户,保证租户之间不会发生资源征用冲突或性能劣化,让计算资源在秒级内实现弹性拉起和弹性扩缩容。

最后,为了给用户提供更便捷的使用体验,ByteHouse 也在一体化、生态兼容性以及全场景引擎方面进一步提升易用性。以全场景引擎为例,ByteHouse 通过构建统一的平台为用户提供更丰富的数据分析能力,实现数据效能最大化,已经推出了全文检索引擎、GIS 引擎、Vector 引擎,让用户在享受 OLAP 极致性能的同时,无需引入其他架构,就能使用文字检索、地理空间分析、向量检索能力。

在应用场景方面,李群则从实时数仓、企业级 OLAP 中台、广告精准营销三个场景,带来 ByteHouse 最佳实践分享。

以广告精准营销场景为例,随着移动互联网的流量红利消退,精细化营销模式随之跃迁为主流。从数以亿计的人群中,优选出最具潜力的目标受众,是精细营销的题中之义,也是作为基础引擎的数据仓库能力所面临的挑战。

从 ByteHouse 曾服务的某个短剧广告营销公司来看,一方面,该公司投放在业务上需要实时调整策略,要求数据分析、更新时效性在 3s 内,并发 QPS 达到 2000;另一方面,在营销场景中,海量数据实时更新会产生大量数据碎片,拉低查询性能、浪费存储空间。

通过引入 ByteHouse、连山云、巨量引擎联合解决方案,该广告营销公司搭建了一套 ”一键实时同步、极简架构、低门槛技术” 的短剧行业通用解决方案,提升广告数据处理效率与投放 ROI。

在效果上,通过多级索引,如排序键索引、分区键优化、跳跃索引等,ByteHouse 有效减少了广告营销查询时扫描的数据量,在每天千万查询量的情况下,数据返回时效也能保障在秒级,较之前 5 倍提升。在计算组隔离策略中,ByteHouse 为广告营销场景中的数据读、写分别构建独立的计算资源,再通过灵活的 SQL 分发机制,已可以支持超过 2000 QPS 的查询高并发。

据介绍,ByteHouse 还与中国地震台网中心、莉莉丝游戏、极客邦科技等诸多行业企业达成了深度合作,凭借新一代的云原生架构,高效方便的运维模式,以及高性能更灵活的实时查询能力,为企业抓稳数字化机遇建立了夯实的地基,推动企业的数智化转型升级。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2168965.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Swagger配置且添加小锁(asp.net)(笔记)

此博客是基于 asp.net core web api(.net core3.1)框架进行操作的。 一、安装Swagger包 在 NuGet程序包管理中安装下面的两个包: swagger包:Swashbuckle.AspNetCore swagger包过滤器:Swashbuckle.AspNetCore.Filters 二、swagger注册 在…

数据结构——初始树和二叉树

线性结构是一对一的关系,意思就是只有唯一的前驱和唯一的后继; 非线性结构,如树形结构,它可以有多个后继,但只有一个前驱;图形结构,它可以有多个前驱,也可以有多个后继。 树的定义…

进阶:反转二叉树的奇数层

目录标题 题目描述示例解题思路代码实现详细步骤解释复杂度分析 题目描述 给定一棵完美二叉树的根节点 root,请反转这棵树中每个奇数层的节点值。完美二叉树是指所有叶子节点都在同一层,并且每个非叶子节点都有两个子节点。 示例 示例 1: …

Harmony商城项目

目录: 1、启动项目看效果图2、代码分析 1、启动项目看效果图 2、代码分析 import CommonConstants from ../constants/CommonConstants; import WomanPage from ./components/WomanPage import ManPage from ./components/ManPage import HomePage from ./component…

Teams集成-会议侧边栏应用开发-实时转写

Teams虽然提供了转写的接口,但是不是实时的,即便使用订阅事件也不是实时的,为了达到实时转写的效果,使用recall.ai的转录和assembly_ai的转写实现。 前提:除Teams会议侧边栏应用开发-会议转写-CSDN博客的基本要求外&a…

实战教程!Zabbix 监控 Spark 中间件配置教程

本文将介绍以JMX方式监控Spark中间件。JMX具有跨平台、灵活性强、监控能力强、易于集成与扩展、图形化界面支持以及安全性与可配置性等多方面的优势,是监控Spark等复杂Java应用程序的重要工具之一。 Apache Spark 是一个开源的大数据处理框架,它提供了快…

【深度学习】ubuntu系统下docker部署cvat的自动标注功能(yolov8 segmentation)

cvat部署自动标注教程 前言step1. 拷贝yolov8项目step2. 创建yolov8的本地镜像step3. 在cvat中构建我们的工作空间 前言 安装docker和cvat的流程我这里就不赘述了,这样的教程还是挺多的,但是对于使用docker在cvat上部署自动标注算法的整个详细流程&#…

【MySQL】MVCC及其实现原理

目录 1. 概念介绍 什么是MVCC 什么是当前读和快照读 MVCC的好处 2. MVCC实现原理 隐藏字段 Read View undo-log 数据可见性算法 3. RC和RR隔离级别下MVCC的差异 4. MVCC+Next-key-Lock 防止幻读 1. 概念介绍 什么是MVCC Multi-Version Concurrency Cont…

通信工程学习:什么是FDD频分双工

FDD:频分双工 FDD(频分双工,Frequency Division Duplexing)是一种无线通信技术,它通过将频谱划分为上行和下行两个不重叠的频段来实现同时双向通信。以下是FDD频分双工的详细解释: 一、定义与原理 定义: FDD是一种无线通信系统的工作模式,其中上行链路(从移动…

以Flask为基础的虾皮Shopee“曲线滑块验证码”识别系统部署

以Flask为基础的虾皮Shopee“曲线滑块验证码”识别系统部署 一、验证码类型二、简介三、Flask应用 一、验证码类型 验证码类型:此类验证码存在两个难点,一是有右侧有两个凹槽,二是滑块的运动轨迹不是直线的,而是沿着曲线走的&…

您的业​​务端点是否完全安全?

根据 2023 年数据泄露调查报告,52% 的数据泄露涉及凭证泄露。这令人担忧,不是吗? 在当今的数字世界中,企业严重依赖技术,保护您的设备(端点)至关重要。这些设备(包括计算机、笔记本…

MySQL从入门到精通 - 基础篇

一、MySQL概述 1. 数据库相关概念 二、SQL (1)SQL通用语法 (2)SQL分类 (3)数据定义语言DDL 数据库操作 表操作 数据类型 1. 数值类型 2. 字符串类型 二进制数据:以二进制格式(0和…

uniapp 知识点

自定义导航 在page.json navigationstyle":"custom"navigateTo传参 页面传参只能onLoad(option)里面拿 px和upx的关系 在750设计图中,1px1upx 路由 navigateBack返回上一页 重定向 其实就是把当前页面干掉了 公共组件和页面共同点 computed,watc…

基于微信小程序的智能汽车充电站系设计与实现(源码+定制+文档)

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…

Spring Boot技术:构建高效网上购物平台

第3章 系统分析 3.1 可行性分析 在系统开发之初要进行系统可行分析,这样做的目的就是使用最小成本解决最大问题,一旦程序开发满足用户需要,带来的好处也是很多的。下面我们将从技术上、操作上、经济上等方面来考虑这个系统到底值不值得开发。…

【Vue】Vue3 的初始化过程

核心流程是patch,然后Patch有一个分支,分别处理组件和浏览器原生标签。分别对应processElement和processComponent,从上到下插入,知道处理完成,才把顶层div插入到浏览器。“一次性渲染,而不是一个个一个渲染…

[论文笔记] Chain-of-Thought Reasoning without Prompting

分析: 在CoT解码路径中,我们可以看到模型在第三个位置(𝑖? = 3)开始展示推理过程,并且给出了正确的答案“8”。模型首先识别出说话者有3个苹果,然后识别出爸爸比说话者多2个,即5个苹果,最后将这两个数量相加得到总数8个苹果。 这个例子表明,通过探索替代的解码路径…

【每天学个新注解】Day 7 Lombok注解简解(六)—@With

With 创建一个新的对象,该对象是当前对象的副本,但某些字段的值可以被更改。 1、如何使用 With 可以使用在类上,也可以使用在成员变量上。加在类上相当于给所有成员变量 With可以配合AccessLevel使用,创建出指定访问修饰符的wi…

多模态大模型学习(一)

参考:https://www.bilibili.com/video/BV1kT411o7a6?p2&spm_id_frompageDriver&vd_source156234c72054035c149dcb072202e6be 余弦相似度,让正样本内积趋近于1,负样本趋近于-1。度量学习。N特别大时,负样本远大于正样本&…

PHP之 实现https ssl证书到期提醒,通过企微发送消息

参考文章 https://blog.51cto.com/17099933344/1935194 https://blog.csdn.net/m0_37346206/article/details/127333463 https://www.cnblogs.com/tk-bolg/p/18108106 使用的企微接口 https://qyapi.weixin.qq.com/cgi-bin/message/send 查询 ssl证书到期时间 // ssl证书即将…