解密网易数帆DataOps“三剑客”：从数据开发治理、指标中台到ChatBI

大数据产业创新服务媒体

——聚焦数据 · 改变商业

近日，以“数智聚力，共赴新程”为主题的2023网易数字+大会在杭州召开。在这次大会上，数据猿采访了网易副总裁、网易数帆总经理汪源，网易数帆大数据产品线总经理余利华，对网易数帆的最新发展策略和数据技术产品体系有一个全面的了解。

网易副总裁、网易数帆总经理汪源

在这次大会上，网易数帆进一步阐述DataOps方法论，介绍了数据开发治理平台EasyData的新功能，发布了指标中台EasyMetrics，以及ChatBI的最新功能。接下来，我们就网易数帆的一系列新品进行分析，并探索他们隐藏的关系。

EasyData，降低数据开发治理门槛

数据开发治理的实践中，开发者常常需要面对一系列复杂且多维的挑战。具体来看：

随着数据源和格式的日益多样化，技术人员必须掌握各类系统和工具的特性，同时还要跟上数据库技术的迅猛发展步伐。数据质量的确保变成了一场与数据错误、重复和不完整性的持久战，且治理工作往往难以自动化，消耗了大量的人力资源。数据安全性与合规性的要求也在不断变化，为开发团队增添了合规性调整的压力。与此同时，系统的性能和扩展性受数据量激增的挑战，需要不断优化以支撑大数据时代的需求。

此外，SQL脚本和数据模型的持续维护是保持治理效率和质量的关键，但往往由于缺少标准化和自动化，使得新团队成员难以快速上手。技术债务的积累，可能导致在未来的开发和维护中需要支付更高的代价。

正是因为这些难点，提高了数据开发治理的门槛，让从业人员苦不堪言。

为了降低数据开发门槛，网易数帆EasyData数据开发治理平台进行了一系列的创新。比如，新增了可视化开发的新组件，可视化开发组件内置100+高性能算子，实现72%的数据开发覆盖率，能够使得数据开发成本降低25%；“SQL Scan”阻隔问题代码，旨在解决低质量代码导致线上数据故障时有发生的问题。

此外，尤其值得关注的是，为了解决SQL编写中存在的问题，网易数帆将大模型技术引入数据开发治理领域，推出SQL补全领域大模型，并在此基础上研发SQL Copilot。该产品的特点包括：

1、高质量训练数据集

高质量的训练数据集，是SQL Copilot大模型表现出色的关键因素之一。SQL Copilot所使用的数据集，覆盖了从开源社区到专业业务场景的各种SQL脚本。

这些数据集的多样性，确保了模型能够理解广泛的查询模式和结构，而特定业务场景的数据，则让模型更好地适应特定的应用需求。模型训练时引入的库表元数据，进一步增强了这种适应性，让SQL Copilot不仅仅是在语法层面上提供帮助，更能够在逻辑和语义层面上提供深入的支持。

2、优秀的SQL代码补全能力

在实际应用中，编写SQL语句不仅涉及对语法的理解，还需要对数据库的结构和业务逻辑有深刻的认识。传统的IDE和代码编辑器通常只提供了基础的语法提示和错误检查功能，而缺乏对于开发者意图的深层理解。

SQL Copilot通过大模型技术，理解和学习了SQL的语法结构。不同于Token级的补全，SQL Copilot还可以在行级甚至代码块级别提供建议，这意味着它能够理解更长的代码序列和更复杂的代码逻辑。

SQL Copilot的另一个显著特点，是对多种SQL语法的支持。在当前的大数据生态中，不同的技术栈可能会使用不同的SQL语法，如Hive、Spark、Impala等。SQL Copilot通过训练模型覆盖了这些语法，能够无缝切换并提供针对性的补全建议。

据网易数帆大数据产品线总经理余利华介绍，目前，SQL Copilot的代码采纳率已显著超过20%，并且还在持续提升。

易数帆大数据产品线总经理余利华

3、低成本

从部署角度看，SQL Copilot的高效性也体现在其低成本上。相对于需要大规模计算资源的某些大模型，SQL Copilot的运行仅需要两张消费级显卡，大幅降低了对硬件的需求。这使得即便是资源有限的小型企业或个人开发者，也能够享受到AI增强的编程辅助。

4、低时延

在实时编程辅助方面，SQL Copilot同样表现出色。其推理速度优于一般的自然语言处理模型如ChatGPT，为用户提供快速响应的同时，确保了SQL编写的流畅性和实时性。低延迟的特性，对于开发者在构建复杂查询和进行问题排查时尤为关键。

SQL Copilot的出现，不仅是技术上的突破，也预示着数据开发治理方式的变革。通过降低学习门槛和提升开发效率，它为数据开发治理的一体化和自动化提供了强大的技术支持。在推动DataOps创新实践的过程中，SQL Copilot成为了一个不可或缺的工具，它不仅提高了数据开发治理的智能水平，也为企业提供了更加灵活、高效的数据处理能力。

EasyMetrics，一次定义、多次复用的指标中台

在企业数据管理中，指标是评价业务性能和决策支持的关键。但多数企业在指标管理方面存在一些普遍问题，尤其是业务口径不一致、指标入口不统一和需求响应慢，这些问题严重影响了企业的决策效率和数据管理的准确性。

业务口径不一致的问题，常常源于企业内部多个部门或团队独立定义和计算指标，缺乏统一的标准和平台。当同一个指标在不同团队中有不同的定义和计算方法时，会导致数据解读的混乱和决策的错误。

指标入口不统一则表现在数据来源分散，缺乏一个集中的查询和管理平台。用户需要从不同的系统收集和整理数据，进行多次转换和对比，才能得到所需的指标，这无疑增加了工作量，也增加了出错的概率。

需求响应慢则是在快速变化的商业环境中，数据需求变化迅速，但传统的数据处理流程往往冗长，从需求提出到数据处理完成，往往需要数周甚至数月的时间，这使得数据无法在关键时刻为决策提供支持。

针对这些问题，网易数帆发布的EasyMetrics指标中台，提供了创新的解决方案。EasyMetrics通过建立一个统一的指标定义平台，解决了业务口径不一致的问题。它允许用户在中台定义指标，并自动同步到所有数据系统中，确保了各部门和团队使用的是统一口径的数据。这不仅提高了数据的一致性，也节省了大量之前用于沟通协调的时间和精力。

对于指标入口不统一的问题，EasyMetrics提供了一个集中的指标库，用户可以在一个统一的界面查询所有指标，无需切换不同的系统和工具。这大大提高了工作效率，也降低了错误发生的风险。

至于需求响应速度慢的问题，EasyMetrics通过自动化的数据流程和智能化的指标计算，大大加快了从需求提出到完成的周期，使企业能够更快速地做出基于数据的决策。

此外，EasyMetrics通过引入指标查询语言，为用户提供了一种更为高效和直观的数据查询方式。而引擎解耦设计确保了系统的高性能和可扩展性，可以快速适应不同数据源和计算需求的变化。与ChatBI智能问答系统的结合，更是让数据的查询和分析变得像聊天一样简单。

根据网易数帆的客户实践案例，指标中台EasyMetrics可以更好地解决了指标口径不一致的问题，实现了数据开发平均周期缩短3-5天，开发人力消耗减少30%。随着数据管理需求的日益复杂化和细化，EasyMetrics的这种创新性解决方案，无疑将为更多企业在数据治理的道路上提供重要的助力。

数据开发治理平台和指标中台，有效提升了数据质量，为上层的数据分析应用奠定了坚实的基础。在此之上，网易数帆的ChatBI，则通过对话式数据分析方式，进一步降低数据消费的门槛。对于网易数帆的ChatBI产品，数据猿发布的《对话即数据分析，网易数帆ChatBI做到了》，进行了更深入的分析。

需要指出的是，网易数帆的数据开发治理平台EasyData、指标中台EasyMetrics、对话式分析平台ChatBI并不是孤立的，而是相互配合，构成一个推动数据消费的闭环。

首先，数据开发治理平台为企业提供了一个强大而灵活的工具，它可以帮助企业高效管理和维护数据。通过标准化流程和自动化工具，它能确保数据的质量和完整性，同时减少了人为错误和不必要的重复劳动。企业能够通过这个平台快速准确地提取和处理数据，确保数据的实时性和可靠性。

接下来，指标中台的建立，进一步强化了数据治理。通过中台定义和管理所有业务指标，企业能够实现指标的标准化和一致性，也保证了不同团队和部门的数据口径一致。此外，中台还能够跟踪指标的变化和使用情况，为企业提供数据治理的可视化，增强了决策支持系统的透明度。

网易数帆的ChatBI产品，是这一数据治理体系的前端应用。通过大模型技术，ChatBI允许用户通过对话来查询数据和生成报告，降低了数据分析的专业门槛。即使是非技术背景的用户也能轻松获取和理解数据，这使得数据分析和决策支持不再是少数数据专家的专利，而是整个组织的共同实践。

这三个产品的紧密配合，不仅仅实践了网易数帆DataOps的理念，也为企业数智化转型提供了一整套解决方案。通过更加精准和高效的数据治理，企业能够获得更深入的业务洞察，优化产品和服务，提高运营效率，创造新的商业价值。在这个基础上，企业能够更好地推动数据消费和数字经济的建设。

我们正站在一个新时代的门槛上，预示着大模型和大数据技术相互赋能、共同进步的广阔前景。企业和组织可以期待通过这种深度融合，实现数据资产的最大化利用。随着技术的迭代与创新，我们有理由相信，这一融合将赋予每个组织以前所未有的能力，帮助他们真正释放蕴藏在数据中的巨大价值。

文：一蓑烟雨 / 数据猿

解密网易数帆DataOps“三剑客”：从数据开发治理、指标中台到ChatBI

相关文章

centos7部署Canal与Canal集成使用

项目实战：中央控制器实现(2)-优化Controller，将共性动作抽取到中央控制器

Linux C基础（7）

TinyEngine 开源低代码引擎首次直播答疑QA合集

什么是数字化管理?产业园区如何进行数字化管理?

vue3怎么获取el-form的元素节点

酷开科技持续推动智能投影行业创新发展

C#中基于.NET6的动态编译技术

sparksql明明插入了但是表里数据是null

动态轮换住宅代理是什么？为何需要使用它？

Navicat的使用--mysql

高性能网络编程 - The C10M problem

SpringDataJpa（一）

【自然语言处理】利用python创建简单的聊天系统

工业相机基本知识理解：帧率、带宽（数据接口）、图像数据格式

Redis笔记 Redis主从同步

10 # 手写 every 方法

网络通信——与Socket交换数据（三十一）

ZZ308 物联网应用与服务赛题第F套

【MySQL篇】数据库角色