解密网易数帆DataOps“三剑客”:从数据开发治理、指标中台到ChatBI

news2024/10/6 20:40:30

5c5cd6f29a594f72914275f98aec3c91.png

bdf9c38a91b3591b8fe7e7a99b37d804.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


近日,以“数智聚力,共赴新程”为主题的2023网易数字+大会在杭州召开。在这次大会上,数据猿采访了网易副总裁、网易数帆总经理汪源,网易数帆大数据产品线总经理余利华,对网易数帆的最新发展策略和数据技术产品体系有一个全面的了解。

b5847e73a1db8fe05ba4b994b698f373.png
网易副总裁、网易数帆总经理汪源

在这次大会上,网易数帆进一步阐述DataOps方法论,介绍了数据开发治理平台EasyData的新功能,发布了指标中台EasyMetrics,以及ChatBI的最新功能。接下来,我们就网易数帆的一系列新品进行分析,并探索他们隐藏的关系。

EasyData,降低数据开发治理门槛

数据开发治理的实践中,开发者常常需要面对一系列复杂且多维的挑战。具体来看:

随着数据源和格式的日益多样化,技术人员必须掌握各类系统和工具的特性,同时还要跟上数据库技术的迅猛发展步伐。数据质量的确保变成了一场与数据错误、重复和不完整性的持久战,且治理工作往往难以自动化,消耗了大量的人力资源。数据安全性与合规性的要求也在不断变化,为开发团队增添了合规性调整的压力。与此同时,系统的性能和扩展性受数据量激增的挑战,需要不断优化以支撑大数据时代的需求。

此外,SQL脚本和数据模型的持续维护是保持治理效率和质量的关键,但往往由于缺少标准化和自动化,使得新团队成员难以快速上手。技术债务的积累,可能导致在未来的开发和维护中需要支付更高的代价。

正是因为这些难点,提高了数据开发治理的门槛,让从业人员苦不堪言。

为了降低数据开发门槛,网易数帆EasyData数据开发治理平台进行了一系列的创新。比如,新增了可视化开发的新组件,可视化开发组件内置100+高性能算子,实现72%的数据开发覆盖率,能够使得数据开发成本降低25%;“SQL Scan”阻隔问题代码,旨在解决低质量代码导致线上数据故障时有发生的问题。

此外,尤其值得关注的是,为了解决SQL编写中存在的问题,网易数帆将大模型技术引入数据开发治理领域,推出SQL补全领域大模型,并在此基础上研发SQL Copilot。该产品的特点包括:

3ad863e63ec3d6dcb7e6286a26d54a1e.png

1、高质量训练数据集

高质量的训练数据集,是SQL Copilot大模型表现出色的关键因素之一。SQL Copilot所使用的数据集,覆盖了从开源社区到专业业务场景的各种SQL脚本。

这些数据集的多样性,确保了模型能够理解广泛的查询模式和结构,而特定业务场景的数据,则让模型更好地适应特定的应用需求。模型训练时引入的库表元数据,进一步增强了这种适应性,让SQL Copilot不仅仅是在语法层面上提供帮助,更能够在逻辑和语义层面上提供深入的支持。

2、优秀的SQL代码补全能力

在实际应用中,编写SQL语句不仅涉及对语法的理解,还需要对数据库的结构和业务逻辑有深刻的认识。传统的IDE和代码编辑器通常只提供了基础的语法提示和错误检查功能,而缺乏对于开发者意图的深层理解。

SQL Copilot通过大模型技术,理解和学习了SQL的语法结构。不同于Token级的补全,SQL Copilot还可以在行级甚至代码块级别提供建议,这意味着它能够理解更长的代码序列和更复杂的代码逻辑。

SQL Copilot的另一个显著特点,是对多种SQL语法的支持。在当前的大数据生态中,不同的技术栈可能会使用不同的SQL语法,如Hive、Spark、Impala等。SQL Copilot通过训练模型覆盖了这些语法,能够无缝切换并提供针对性的补全建议。

据网易数帆大数据产品线总经理余利华介绍,目前,SQL Copilot的代码采纳率已显著超过20%,并且还在持续提升。

41b43fcb1bd763c7d96ceebc8c002f90.png
易数帆大数据产品线总经理余利华

3、低成本

从部署角度看,SQL Copilot的高效性也体现在其低成本上。相对于需要大规模计算资源的某些大模型,SQL Copilot的运行仅需要两张消费级显卡,大幅降低了对硬件的需求。这使得即便是资源有限的小型企业或个人开发者,也能够享受到AI增强的编程辅助。

4、低时延

在实时编程辅助方面,SQL Copilot同样表现出色。其推理速度优于一般的自然语言处理模型如ChatGPT,为用户提供快速响应的同时,确保了SQL编写的流畅性和实时性。低延迟的特性,对于开发者在构建复杂查询和进行问题排查时尤为关键。

SQL Copilot的出现,不仅是技术上的突破,也预示着数据开发治理方式的变革。通过降低学习门槛和提升开发效率,它为数据开发治理的一体化和自动化提供了强大的技术支持。在推动DataOps创新实践的过程中,SQL Copilot成为了一个不可或缺的工具,它不仅提高了数据开发治理的智能水平,也为企业提供了更加灵活、高效的数据处理能力。

EasyMetrics,一次定义、多次复用的指标中台

在企业数据管理中,指标是评价业务性能和决策支持的关键。但多数企业在指标管理方面存在一些普遍问题,尤其是业务口径不一致、指标入口不统一和需求响应慢,这些问题严重影响了企业的决策效率和数据管理的准确性。

业务口径不一致的问题,常常源于企业内部多个部门或团队独立定义和计算指标,缺乏统一的标准和平台。当同一个指标在不同团队中有不同的定义和计算方法时,会导致数据解读的混乱和决策的错误。

指标入口不统一则表现在数据来源分散,缺乏一个集中的查询和管理平台。用户需要从不同的系统收集和整理数据,进行多次转换和对比,才能得到所需的指标,这无疑增加了工作量,也增加了出错的概率。

需求响应慢则是在快速变化的商业环境中,数据需求变化迅速,但传统的数据处理流程往往冗长,从需求提出到数据处理完成,往往需要数周甚至数月的时间,这使得数据无法在关键时刻为决策提供支持。

针对这些问题,网易数帆发布的EasyMetrics指标中台,提供了创新的解决方案。EasyMetrics通过建立一个统一的指标定义平台,解决了业务口径不一致的问题。它允许用户在中台定义指标,并自动同步到所有数据系统中,确保了各部门和团队使用的是统一口径的数据。这不仅提高了数据的一致性,也节省了大量之前用于沟通协调的时间和精力。

对于指标入口不统一的问题,EasyMetrics提供了一个集中的指标库,用户可以在一个统一的界面查询所有指标,无需切换不同的系统和工具。这大大提高了工作效率,也降低了错误发生的风险。

至于需求响应速度慢的问题,EasyMetrics通过自动化的数据流程和智能化的指标计算,大大加快了从需求提出到完成的周期,使企业能够更快速地做出基于数据的决策。

此外,EasyMetrics通过引入指标查询语言,为用户提供了一种更为高效和直观的数据查询方式。而引擎解耦设计确保了系统的高性能和可扩展性,可以快速适应不同数据源和计算需求的变化。与ChatBI智能问答系统的结合,更是让数据的查询和分析变得像聊天一样简单。

根据网易数帆的客户实践案例,指标中台EasyMetrics可以更好地解决了指标口径不一致的问题,实现了数据开发平均周期缩短3-5天,开发人力消耗减少30%。随着数据管理需求的日益复杂化和细化,EasyMetrics的这种创新性解决方案,无疑将为更多企业在数据治理的道路上提供重要的助力。

数据开发治理平台和指标中台,有效提升了数据质量,为上层的数据分析应用奠定了坚实的基础。在此之上,网易数帆的ChatBI,则通过对话式数据分析方式,进一步降低数据消费的门槛。对于网易数帆的ChatBI产品,数据猿发布的《对话即数据分析,网易数帆ChatBI做到了》,进行了更深入的分析。

1e7b2114d5512f80c5dffdc86505a7ce.png

需要指出的是,网易数帆的数据开发治理平台EasyData、指标中台EasyMetrics、对话式分析平台ChatBI并不是孤立的,而是相互配合,构成一个推动数据消费的闭环。

首先,数据开发治理平台为企业提供了一个强大而灵活的工具,它可以帮助企业高效管理和维护数据。通过标准化流程和自动化工具,它能确保数据的质量和完整性,同时减少了人为错误和不必要的重复劳动。企业能够通过这个平台快速准确地提取和处理数据,确保数据的实时性和可靠性。

接下来,指标中台的建立,进一步强化了数据治理。通过中台定义和管理所有业务指标,企业能够实现指标的标准化和一致性,也保证了不同团队和部门的数据口径一致。此外,中台还能够跟踪指标的变化和使用情况,为企业提供数据治理的可视化,增强了决策支持系统的透明度。

网易数帆的ChatBI产品,是这一数据治理体系的前端应用。通过大模型技术,ChatBI允许用户通过对话来查询数据和生成报告,降低了数据分析的专业门槛。即使是非技术背景的用户也能轻松获取和理解数据,这使得数据分析和决策支持不再是少数数据专家的专利,而是整个组织的共同实践。

这三个产品的紧密配合,不仅仅实践了网易数帆DataOps的理念,也为企业数智化转型提供了一整套解决方案。通过更加精准和高效的数据治理,企业能够获得更深入的业务洞察,优化产品和服务,提高运营效率,创造新的商业价值。在这个基础上,企业能够更好地推动数据消费和数字经济的建设。

4ea06a3f04b8e1890253726495c9828e.png

我们正站在一个新时代的门槛上,预示着大模型和大数据技术相互赋能、共同进步的广阔前景。企业和组织可以期待通过这种深度融合,实现数据资产的最大化利用。随着技术的迭代与创新,我们有理由相信,这一融合将赋予每个组织以前所未有的能力,帮助他们真正释放蕴藏在数据中的巨大价值。

文:一蓑烟雨 / 数据猿

7edd698534e1eb703eb0a87e76a7b5e7.jpeg

6c44dc9b6821c6c52999b06d2b8793be.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1187013.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

centos7部署Canal与Canal集成使用

1、简介 canal [kə’nl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费 早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigge…

项目实战:中央控制器实现(2)-优化Controller,将共性动作抽取到中央控制器

1、FruitController FruitController已经和Web没有关系了,和Web容器解耦,可以脱离Web容器做单元测试 package com.csdn.fruit.controller; import com.csdn.fruit.dto.PageInfo; import com.csdn.fruit.dto.PageQueryParam; import com.csdn.fruit.dto.R…

Linux C基础(7)

1、二维数组 1.1 概念 本质:元素为一堆数组的数组(数组的数组)数组的特点:(1)数据类型相同 (2)地址连续 1.2 定义 数组:存储类型 数据类型 数组名[元素个数]二维数组&…

TinyEngine 开源低代码引擎首次直播答疑QA合集

前言 10月27日晚8点,OpenTiny 社区开启了 TinyEngine 开源低代码引擎首次答疑直播,本次直播我们通过收集开发者诉求,精心策划和组织了内容,希望提供给大家最明确和清晰的答疑方式。这是 TinyEngine 低代码引擎直播计划的开端&…

什么是数字化管理?产业园区如何进行数字化管理?

工业园区的数字化管理涉及利用技术和数据驱动的工具来优化工业园区环境中的运营、提高效率并改进决策流程。它通常包括使用各种数字技术和数据分析技术来监视、控制和增强公园运营的各个方面。 以下是工业园区数字化管理的一些关键方面以及如何实施: 1.数据收集和…

vue3怎么获取el-form的元素节点

在元素中使用ref设置名称 在ts中通过从element-plus引入formInstance,设置formRef同名名称字段来获取el-form节点

酷开科技持续推动智能投影行业创新发展

近年来,投影仪逐渐成为年轻人追捧的家居时尚单品。据国际数据公司(IDC)报告显示,2022年中国投影机市场总出货量505万台,超80%为家用投影仪。相比于电视,投影仪外观小巧、屏幕大小可调节,无论是卧…

C#中基于.NET6的动态编译技术

前几天要解决动态计算问题,尝试着使用了不同的方法。问题是给定一个包含计算的字符串,在程序运行中得到计算结果,当时考虑了动态编译,在网上查了一些资料完成了这项功能,可是基于不同的.NET平台使用的编程代码相差比较…

sparksql明明插入了但是表里数据是null

现象 将数据插入表的时候,表里的数据是null 代码 原因 建表语句的时候detail字段的类型写成了bigint,而要插入的数据类型是string,所以把建表语句的字段类型改了然后sql文件重跑就解决了

动态轮换住宅代理是什么?为何需要使用它?

随着越来越多的企业完善网络活动,IP代理的重要性变得显而易见。代理可确保顺利、安全且不受限制地访问互联网的大量资源。在不同类型的代理中,轮换代理脱颖而出,那么他哪里有别于其他IP代理呢? 一、什么是动态轮换代理&#xff1f…

Navicat的使用--mysql

表关系 数据库的操作,表字段的设计,一般都由于图形化界面工具Navicat完成。 而表中数据的增删改查,需要熟悉sql语句。 一对一 一对一:一个A对应一个B,一个B对应一个A 将A或B任意一张表的主键设置为外键 一对多 一…

高性能网络编程 - The C10M problem

文章目录 Pre概述回顾C10K实现C10M的挑战思路总结 Pre 高性能网络编程 - The C10K problem 以及 网络编程技术角度的解决思路 概述 在接下来的10年里,因为IPv6协议下每个服务器的潜在连接数都是数以百万级的,单机服务器处理数百万的并发连接&#xff0…

SpringDataJpa(一)

一、JPA概述 1.1 ORM概述 ORM(Object-Relational Mapping) 表示对象关系映射。在面向对象的软件开发中,通过ORM,就可以把对象映射到关系型数据库中。只要有一套程序能够做到建立对象与数据库的关联,操作对象就可以直…

【自然语言处理】利用python创建简单的聊天系统

一,实现原理 代码设计了一个简单的客户端-服务器聊天应用程序,建立了两个脚本文件(.py文件),其中有一个客户端和一个服务器端。客户端和服务器之间通过网络连接进行通信,客户端发送消息,服务器端接收消息并…

工业相机基本知识理解:帧率、带宽(数据接口)、图像数据格式

1、帧率:Frame Per Second,单位fps,每秒采集的图像数量 2、带宽:一般单位用Gbps,每秒能传输的Gbit数据量 Gige:千兆网,带宽1Gbps USB3.0:带宽5Gbps,一般U3V工业相机用到3…

Redis笔记 Redis主从同步

文章目录 Redis主从搭建主从架构主从数据同步原理全量同步增量同步repl_backlog原理 主从同步优化小结 Redis主从 搭建主从架构 单节点Redis的并发能力是有上限的,要进一步提高Redis的并发能力,就需要搭建主从集群,实现读写分离。 主从数据…

10 # 手写 every 方法

every 使用 every() 方法测试一个数组内的所有元素是否都能通过指定函数的测试。它返回一个布尔值。 ele&#xff1a;表示数组中的每一个元素index&#xff1a;表示数据中元素的索引array&#xff1a;表示数组 <script>var arr [1, 3, 5, 7, 8];var result arr.ever…

网络通信——与Socket交换数据(三十一)

1. 与Socket交换数据 1.1 知识点 &#xff08;1&#xff09;通过Android与Socket完成基本的Echo程序实现&#xff1b; &#xff08;2&#xff09;通过对象序列化进行大数据的传输&#xff1b; 1.2 具体内容 对于网络的开发而言&#xff0c;最常使用的交互模式&#xff1a;W…

ZZ308 物联网应用与服务赛题第F套

2023年全国职业院校技能大赛 中职组 物联网应用与服务 任 务 书 &#xff08;F卷&#xff09; 赛位号&#xff1a;______________ 竞赛须知 一、注意事项 1.检查硬件设备、电脑设备是否正常。检查竞赛所需的各项设备、软件和竞赛材料等&#xff1b; 2.竞赛任务中所使用…

【MySQL篇】数据库角色

前言 数据库角色是被命名的一组与数据库操作相关的权限&#xff0c;角色是权限的集合。因此&#xff0c;可以为一组具有相同权限的用户创建一个角色&#xff0c;使用角色来管理数据库权限可以简化授权的过程。 CREATE ROLE&#xff1a;创建一个角色 GRANT&#xff1a;给角色授…