探索天穹数仓自治能力的新实践
随着业务和技术的发展,传统数仓模式向数智数仓模式演进,数据治理面临诸多挑战。自治平台采用双引擎策略,注重感知能力、观测能力、诊断能力和优化能力的建设,实现了对数据的精细化管理。例如,通过算子粒度的异常识别、SQL引擎选择和资源优化等功能,提升了SQL计算的效率和性能。
随着大数据技术的不断发展,数据治理的重要性日益凸显,而腾讯天穹自治平台的出现为解决数据治理中的诸多挑战提供了新的思路和方法。
文档首先介绍了大数据自治的背景,随着业务和技术的快速发展,传统数仓模式逐渐向数智数仓模式演进,数据规模不断增长,实时性要求越来越高,计算也变得更加复杂。在这个过程中,数据治理面临着诸多问题,如质量、时效、研发等,需要一种更加智能和高效的方式来管理数据的整个生命周期。
腾讯天穹自治平台采用双引擎策略,将传统机器学习和智能体相结合,以提升平台的自治能力。在自治能力建设中,感知能力被放在首位,通过对数据相关“进程”粒度的感知,实现了对大数据生态的全面监测。可观测能力的建设使大数据生态的“黑盒”更加透明化,能够支撑到任务、进程粒度的数据上卷和下钻能力,为数据治理提供了更加详细和准确的信息。
全链路诊断能力的构建是腾讯天穹自治平台的重要特色之一。在大数据生态中,数据计算链路调用复杂,组件间的毛刺、稳定性和异常信息不规范等问题给数据计算带来了挑战。腾讯天穹自治平台通过构建全链路诊断能力,能够对数据计算过程中细粒度的根因进行分析定位,及时发现和解决问题,提高了数据计算的稳定性和可靠性。
算子粒度的异常识别是腾讯天穹自治平台的关键能力之一。针对SQL任务,平台能够做到算子粒度的诊断,包括数据倾斜、数据膨胀、笛卡尔积、暴力扫描、算子是否下推等问题的识别和诊断,从而实现对SQL任务的优化,提高了SQL计算的效率和性能。
在大数据自治的难点和痛点方面,“数据计算”是日常业务中的高频问题。腾讯天穹自治平台通过数据驱动的资源优化、SQL计算引擎的自动选择和反哺计算引擎等功能,实现了SQL编译过程中的智能优化,提高了SQL计算的效率和性能。
SQL智能体作为腾讯天穹自治平台的第二引擎,发挥了重要作用。70%以上的任务都是SQL任务,SQL智能体通过多轮对话和问诊模式构建,让SQL从研发到计算更加简单高效。同时,SQL智能体让大模型拥有更强大的SQL领域知识,能够实现智能SQLHint、智能RSS等功能,提升了SQL的执行效率和准确性。
在天穹大数据自治的落地与进展方面,腾讯大数据取得了显著的成果。例如,算子粒度的回放和诊断能够支持约40个算子粒度的问题点诊断,实现了细粒度诊断定位和SQL计算过程清晰的数据流透视;SQL算子粒度的优化通过数据持续打造深度优化的能力,在性能提升方面取得了显著成效,如在Presto上测试Case中,CPU Time节省60%,内存节省90.2GB降至295M;SQL引擎选择算法的上线使公共集群的Presto fallover规避率从之前的70%左右上升至87%左右,presto failover的数目直接减少了50%;作业任务资源优化通过黑盒和白盒相结合的机制,实现了超过50%的内存成本和30%的CPU成本节省;SQL逻辑正确性解析并转换、一定长度的SQL优化以及SQL逻辑简化等功能,都提升了SQL的执行效率和可读性。
未来,腾讯大数据将继续推进天穹数仓自治能力的建设。在优化计算场景的能力方面,将进一步提升数据治理的效率和质量,为企业的数字化转型提供更加有力的支持。针对“湖仓”的进一步抽象,将使数据治理和智能体运行的模式更加完善,形成一站式的系统化解决方案。通过优化人机接口,将平台自治能力通过多轮对话的方式进行交互,将使数据治理更加智能化和便捷化。
总的来说,腾讯大数据在天穹数仓自治能力建设方面的实践为我们展示了大数据治理的新方向。通过智能技术的应用,实现了对数据的精细化管理和优化,提高了数据的质量和价值。同时,腾讯大数据的经验也为其他企业提供了借鉴,推动了整个行业的数据治理水平的提升。