探索天穹数仓自治能力的新实践

news2024/11/15 21:23:33

探索天穹数仓自治能力的新实践

随着业务和技术的发展,传统数仓模式向数智数仓模式演进,数据治理面临诸多挑战。自治平台采用双引擎策略,注重感知能力、观测能力、诊断能力和优化能力的建设,实现了对数据的精细化管理。例如,通过算子粒度的异常识别、SQL引擎选择和资源优化等功能,提升了SQL计算的效率和性能。

随着大数据技术的不断发展,数据治理的重要性日益凸显,而腾讯天穹自治平台的出现为解决数据治理中的诸多挑战提供了新的思路和方法。

文档首先介绍了大数据自治的背景,随着业务和技术的快速发展,传统数仓模式逐渐向数智数仓模式演进,数据规模不断增长,实时性要求越来越高,计算也变得更加复杂。在这个过程中,数据治理面临着诸多问题,如质量、时效、研发等,需要一种更加智能和高效的方式来管理数据的整个生命周期。

在这里插入图片描述

腾讯天穹自治平台采用双引擎策略,将传统机器学习和智能体相结合,以提升平台的自治能力。在自治能力建设中,感知能力被放在首位,通过对数据相关“进程”粒度的感知,实现了对大数据生态的全面监测。可观测能力的建设使大数据生态的“黑盒”更加透明化,能够支撑到任务、进程粒度的数据上卷和下钻能力,为数据治理提供了更加详细和准确的信息。

在这里插入图片描述

全链路诊断能力的构建是腾讯天穹自治平台的重要特色之一。在大数据生态中,数据计算链路调用复杂,组件间的毛刺、稳定性和异常信息不规范等问题给数据计算带来了挑战。腾讯天穹自治平台通过构建全链路诊断能力,能够对数据计算过程中细粒度的根因进行分析定位,及时发现和解决问题,提高了数据计算的稳定性和可靠性。

算子粒度的异常识别是腾讯天穹自治平台的关键能力之一。针对SQL任务,平台能够做到算子粒度的诊断,包括数据倾斜、数据膨胀、笛卡尔积、暴力扫描、算子是否下推等问题的识别和诊断,从而实现对SQL任务的优化,提高了SQL计算的效率和性能。

在这里插入图片描述

在大数据自治的难点和痛点方面,“数据计算”是日常业务中的高频问题。腾讯天穹自治平台通过数据驱动的资源优化、SQL计算引擎的自动选择和反哺计算引擎等功能,实现了SQL编译过程中的智能优化,提高了SQL计算的效率和性能。

在这里插入图片描述

SQL智能体作为腾讯天穹自治平台的第二引擎,发挥了重要作用。70%以上的任务都是SQL任务,SQL智能体通过多轮对话和问诊模式构建,让SQL从研发到计算更加简单高效。同时,SQL智能体让大模型拥有更强大的SQL领域知识,能够实现智能SQLHint、智能RSS等功能,提升了SQL的执行效率和准确性。

在天穹大数据自治的落地与进展方面,腾讯大数据取得了显著的成果。例如,算子粒度的回放和诊断能够支持约40个算子粒度的问题点诊断,实现了细粒度诊断定位和SQL计算过程清晰的数据流透视;SQL算子粒度的优化通过数据持续打造深度优化的能力,在性能提升方面取得了显著成效,如在Presto上测试Case中,CPU Time节省60%,内存节省90.2GB降至295M;SQL引擎选择算法的上线使公共集群的Presto fallover规避率从之前的70%左右上升至87%左右,presto failover的数目直接减少了50%;作业任务资源优化通过黑盒和白盒相结合的机制,实现了超过50%的内存成本和30%的CPU成本节省;SQL逻辑正确性解析并转换、一定长度的SQL优化以及SQL逻辑简化等功能,都提升了SQL的执行效率和可读性。

在这里插入图片描述

未来,腾讯大数据将继续推进天穹数仓自治能力的建设。在优化计算场景的能力方面,将进一步提升数据治理的效率和质量,为企业的数字化转型提供更加有力的支持。针对“湖仓”的进一步抽象,将使数据治理和智能体运行的模式更加完善,形成一站式的系统化解决方案。通过优化人机接口,将平台自治能力通过多轮对话的方式进行交互,将使数据治理更加智能化和便捷化。

总的来说,腾讯大数据在天穹数仓自治能力建设方面的实践为我们展示了大数据治理的新方向。通过智能技术的应用,实现了对数据的精细化管理和优化,提高了数据的质量和价值。同时,腾讯大数据的经验也为其他企业提供了借鉴,推动了整个行业的数据治理水平的提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1963806.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

鸿蒙应用框架开发【基于原生能力的无障碍模式】

基于原生能力的无障碍模式 介绍 本示例基于系统提供的无障碍阅读能力,实现了无障碍扩展服务集成、原生组件屏幕朗读以及多个控件组合标注。 效果图预览 原生组件屏幕朗读: 创建说明: 在已创建工程的ets文件夹下创建accessibility文件夹&…

SCIEI双检CCF期刊,硕博毕业生的福音,投稿欲从速!

SCI&EI双检CCF期刊,目前已稳定检索46年,CCF-C类,且发文量稳定,国人友好,发过的人都说审稿极速。 期刊详情 【期刊简介】IF:4.0-5.0 JCR1区中科院3区 【出版社】Elsevier出版社 【检索情况】SCI&a…

【文件fd】深入理解和实现Linux底下一切皆文件 | 系统和语言文件操作二者关系_封装 | 系统调用为什么怎样封装成库函数

目录 1.系统调用的打开/读/写文件操作 2.如何理解Linux底下一切皆文件 2.1设备属性 2.2设备的操作方法 3.如何实现Linus底下一切皆文件 4.源码查看 5.系统和语言文件操作二者关系 5.1 flags选项和C语言的"w""a"方式 二者的关系 5.2 系统的文件描…

llama-3.1下载部署

llama-3.1 下载 下载 huggingface 详情页填写申请后等待审核 点击 头像->setting->access token 创建token 配置环境变量 下载模型 pip install -U huggingface_hubhuggingface-cli download --resume-download meta-llama/Meta-Llama-3.1-8B-Instruct --local-di…

Linux ——互斥量

1.进程线程间的互斥相关背景概念 临界资源:多线程执行流共享的资源就叫做临界资源临界区:每个线程内部,访问临界资源的代码,就叫做临界区互斥:任何时刻,互斥保证有且只有一个执行流进入临界区,…

使用 cPanel WHM 重置 MySQL 根密码

MySQL 是托管在 cPanel 管理服务器上的网站的主要数据库软件,广泛用于 WordPress 和电子商务应用程序,例如 Magento。由于 MySQL 需要管理多个不同网站和数据库的读写权限,因此它是一个多用户系统。 每个用户账户都有一组权限限制其访问。而M…

【报错解决】Sql server 2022连接数据库时显示证书链是由不受信任的颁发机构颁发的

SSMS 20在连接Sql server 2022数据库时有如下报错: A connection was successfully established with the server, but then an error occurred during the login process. (provider: SSL Provider, error: 0 - 证书链是由不受信任的颁发机构颁发的。 原因是尝试使…

C++进阶 二叉搜索树

目录 二叉搜索树概念 二叉搜索树的模拟实现 二叉搜索树的查找 二叉搜索树的插入 二叉搜索树的删除 二叉搜索树的性能分析 二叉搜索树的应用 K模型 KV模型 二叉搜索树概念 二叉搜索树又称二叉排序树,它或者是一棵空树,或者是具有以下性质的二叉树…

nginx的反向代理及负载均衡

nginx的反向代理 安装包链接https://nginx.org/download/nginx-1.26.1.tar.gz yum -y install gcc gcc-c pcre-devel openssl-devel [rootstaticserver ~]# tar -xzvf nginx-1.26.1.tar.gz [rootstaticserver nginx-1.26.1]#./configure --prefix/usr/local/nginx --userngi…

怎么提高视频的声音?提高视频的声音的多种方法

在制作和编辑视频的浩瀚旅途中,声音质量不仅是引导观众情感波动的舵手,更是构建故事氛围、深化主题表达不可或缺的基石。它如同画面背后的灵魂,悄无声息地牵引着每一位观众的思绪,穿梭于现实与想象的边界。从温馨的旁白讲述到激昂…

单天下载1W+?木途美APP对比体验

在当下的民宿市场,木鸟、途家、美团三家民宿预订平台遥遥领先。木鸟民宿最新发布的报告中提到,7月以来民宿订单环比上涨88%,尽管酒店业进入量涨价跌时代,但民宿平台们似乎活得更好了。 特色房源为王永不过时 房源量大意味着覆盖…

Linux系统之DHCP服务配置

1、准备阶段 Windows(客户端)开启Vmnet8网卡Linux6(服务端)网络连接选择NAT模式,并配置IP地址为192.168.11.1/24Linux5(客户端)网络连接选择NAT模式将NAT的DHCP功能取消 2、DHCP服务器相关软件…

(vue)el-cascader级联选择器按勾选的顺序传值,摆脱层级约束

(vue)el-cascader级联选择器按勾选的顺序传值,摆脱层级约束 需求:按勾选的顺序给后端传值 难点:在 Element UI 的 el-cascader 组件中,默认的行为是根据数据的层级结构来显示选项,用户的选择也会基于这种层级结构,el-…

SQL必知必会

SQL必知必会 一些SQL知识,出自极客时间陈旸老师《SQL必知必会》 https://time.geekbang.org/column/intro/100029501 基础 视图 视图作为一张虚拟表,帮我们封装了底层与数据表的接口。它相当于是一张表或多张表的数据结果集。视图的这一特点&#x…

【C/C++】C语言到C++的入门知识点(主要适用于C语言精通到Qt的C++开发入门)

【C/C】C语言到C的入门知识点(主要适用于C语言精通到Qt的C开发入门) 文章目录 C语言与C的不同C中写C语言代码C语言到C的知识点Qt开发中需要了解的C基础知识namespace输入输出字符串类型class类构造函数和析构函数(解析函数)类的继…

20240801 每日AI必读资讯

🔊OpenAI向ChatGPT Plus用户推出高级语音模式 - 只给一小部分Plus用户推送,全部Plus用户要等到秋季 - 被选中的Alpha 测试的用户将收到一封包含说明的电子邮件,并在其移动应用中收到一条消息。 - 同时视频和屏幕共享功能继续推出&#xff…

【论文速读】| MoRSE:利用检索增强生成技术填补网络安全专业知识的空白

本次分享论文:MoRSE: Bridging the Gap in Cybersecurity Expertise with Retrieval Augmented Generation 基本信息 原文作者:Marco Simoni, Andrea Saracino, Vinod Puthuvath, Maurco Conti 作者单位:意大利比萨国家研究委员会信息学与…

2024 年最新 windows 操作系统搭建部署 nginx 服务器应用详细教程(更新中)

nginx 服务器概述 Nginx 是一款高性能的 HTTP 和 反向代理 服务器,同时是一个 IMAP / POP3 / SMTP 代理服务器。Nginx 凭借其高性能、稳定性、丰富的功能集、简单的配置和低资源消耗而闻名。 浏览 nginx 官网:https://nginx.org/ Nginx 应用场景 静态…

最新保姆级教程使用WildCard开通Claude3升级ChatGPT4.0(2024.8)

如何使用 WildCard 服务注册 Claude3 随着 Claude3 的震撼发布,最强 AI 模型的桂冠已不再由 GPT-4 独揽。Claude3 推出了三个备受瞩目的模型:Claude 3 Haiku、Claude 3 Sonnet 以及 Claude 3 Opus,每个模型都展现了卓越的性能与特色。其中&a…

【rockyLinux·9.4】安装 java jdk

一、安装 java 1.选择版本 yum list | grep jdk各个版本之间的区别: 2.选择了:java-17-openjdk-devel.x86_64(开发者版本),开始安装 建议安装在 /usr/local 这个目录下,可以创建一个 app 目录来收录它…