【2023 云栖】阿里云田奇铣:大模型驱动 DataWorks 数据开发治理平台智能化升级

news2024/11/17 11:48:59

云布道师

本文根据 2023 云栖大会演讲实录整理而成,演讲信息如下:

演讲人:田奇铣 | 阿里云 DataWorks 产品负责人

演讲主题:大模型驱动 DataWorks 数据开发治理平台智能化升级

随着大模型掀起 AI 技术革新浪潮,大数据也进入了与 AI 深度结合的创新时期。2023 年云栖大会上,阿里云 DataWorks 产品负责人田奇铣发布了 DataWorks Copilot、DataWorks AI 增强分析、DataWorks 湖仓融合数据管理等众多新产品能力,让 DataWorks 这款已经发展了 14 年的大数据开发治理平台产品,从一站式向智能化不断升级演进。

Data+AI 双轮驱动

进入 AIGC 时代,AI for Data 和 Data for AI 成为当下的热词。AI for Data,这个比较好理解,通过大模型驱动的 AI 智能助手,可以提升数据平台工具的效率。DataWorks 为企业搭建了一站式、全链路的工具链,在这个过程中,也源源不断地为企业构建数据资产,比如数据模型、元数据、数据血缘、数据指标等,在大模型时代,这些也可以称之为企业专属的领域知识,借助大模型强大的语义理解、推理、上下文学习、记忆能力,通过大模型的 Prompt Engineering,DataWorks 一站式平台可以为 AI 智能助手提供更接近的、更及时的、更全面的上下文信息,从而可以让AI 获得更好的效果和性能,这是 Data for AI。有了良好的数据基础,今天我们发布的众多新品就是借助 AI 大模型的能力,通过 Data + AI 双轮驱动,为数据开发和分析提供了新的范式,进一步提升企业获得数据价值的效率。在这里插入图片描述

云栖发布: DataWorks Copilot 智能 SQL 编程助手提升 30% 数据开发分析效率

DataWorks Copilot 是基于 NL2SQL 大模型打造的 SQL 编程助手,我们使用基于公开的数据集训练和微调的 NL2SQL 大模型,结合 Prompt Engineering,提供了丰富的自然语言生成 SQL 的操作。

  • SQL 生成

输入想要查询分析的自然语言描述,例如“统计最近 7 天的商品销售排行”,DataWorks Copilot 将自动生成对应的 SQL 语句。

  • SQL 续写

在 SQL IDE 中编写 SQL 代码时,DataWorks Copilot 能够提供智能代码提示建议,提升 SQL 编程效率。

  • SQL 纠错

当 SQL 运行报错时,DataWorks Copilot 可提供一键纠错服务,帮助 ETL 工程师和分析师快速修复 SQL 错误。

  • SQL 注释

以前写代码注释是个负担,我们自己不想写注释,却又希望别人的代码有注释。DataWorks Copilot 可以批量为建表语句生成字段 Comment 信息,也可以为 SQL 语句添加逐行注释,提升 SQL 的可读性。

  • SQL 解释

对于部分业务人员或者分析师,经常拿到是数仓工程师给到一段比较复杂的取数脚本,使用到的一些高级 SQL 语法和函数不懂什么意思但又想改一改取数逻辑,以前就要到处查资料或者请教别人。DataWorks Copilot 可以直接对 SQL 代码进行解释,帮助我们的业务人员更快理解 SQL 逻辑、用途,提高取数分析和 SQL 学习的效率。
DataWorks Copilot 智能 SQL 编程助手,在我们内部已经使用了一段时间了,根据我们的一些观测,可以为 ETL 开发和数据分析提效 30% 以上。
从 GUI 到 LUI,DataWorks Copilot 辅助 ETL 数仓开发
40 多年前出现了图形用户界面(GUI),大模型强大的自然语言理解能力,带来了全新的自然语言用户界面(LUI),这也是一种全新的人机交互方式,一个软件产品,能否提供 LUI,这也是大模型应用从AI智能助手迈向 AI 原生应用的标志能力之一。DataWorks 也在思考和探索,如何将复杂的产品操作逻辑隐藏在背后,借助大模型,对用户提供简单直接、更符合人性的自然语言用户界面。
我们做了一些产品实践。举几个应用场景,在实际工作中,找表是件头疼的问题,业务人员为了计算一个指标要找数仓的同学问该用哪张表,数仓同学天天应付这类咨询,也很烦躁。DataWorks Copilot 则可以提供通过自然语言快捷找表,让找表这件事情不用东问西问,从而提升企业的数据消费效率。在 ETL 开发过程中,有些操作是比较复杂或者繁琐的,比如调度配置、参数配置、数据质量规则配置,过去往往需要到不同的产品页面来回跳转和手工配置,现在 DataWorks Copilot 提供了对话式的自然语言用户界面,在一个统一对话窗口中,通过自然语言交互就可以完成很多跨产品工具的操作,比如说一句“给某某表配置一个什么质量规则”就可以完成数据质量检测的规则配置。未来,我们将持续丰富自然语言交互界面的覆盖范围。

DataWorks Copilot 提供了两种模型服务,第一种是基于公开数据集训练和微调的NL2SQL 大模型,当前在阿里云 DataWorks 官网可以直接申请参与邀测。如果有的企业对我们的模型效果有更高的期待,或者希望 Copilot 能够回答更贴近企业内部业务,我们可以提供企业专属的模型微调服务,结合阿里云人工智能平台 PAI 以及大模型专家服务,可以为企业量身定制专属代码大模型以及私有化大模型部署服务。

云栖发布:DataWorks AI 增强数据分析

企业在数据生产建设上投入这么多资源,最终希望是洞察数据中的业务价值,指导企业的经营、决策。传统的统计分析方法常常先假设一种统计模型,然后根据数据样本来估计模型参数,从而了解数据的特征,但实际中往往有很多数据并不符合假设的统计模型。探索性数据分析强调让数据自身“说话”,先对数据特征、统计量进行探索,然后再选取合适的模型进一步分析,这是一种更加贴合实际情况的分析方法。在 AI 时代,数据洞察也不断向智能化演进,AI 增强分析利用 AI 技术,可以加速或者自动化数据探索与洞察,帮助分析师从手工数据探索中解放出来。AI 技术还能更好地发现数据中隐藏的规律和趋势,帮助分析师进一步突破自身固有认知的局限。
DataWorks 联合 DataV 数据可视化产品,深度结合 AI 技术,推出了 AI 增强分析产品。目前提供了四项核心能力:

  • 自动数据探查

自动探查数据集,无需专业技术背景即可快速了解数据特征、统计分布。

  • AI 自动图表生成

基于自动数据探查的信息,自动生成数据图表卡片,结合 AI 技术,自动识别不同数据字段组合之间的相关性并生成图表,不需要你手动写很多 SQL 进行分析,可以帮助你快速获得灵感,保存见解。

  • AI 智能数据查询

结合大模型技术,通过自然语言生成 SQL 查询数据,并自动为查询结果自动推荐和生成数据图表卡片。

  • 一键构建和分享数据报告

可以像制作 PPT 一样,将上面生成的数据图表卡片一键生成数据长图报告,支持导出为图片或者一键分享。
DataWorks AI 增强分析,让数据自己“说话”,将数据洞察过程尽可能的自动化、无代码化,通过 AI 还能自动发现数据中的潜在趋势,讲好数据故事,表达数据观点。这款产品目前在公测当中,大家开通 DataWorks 后进入数据分析产品即可申请公测体验。

云栖发布:DataWorks 湖仓融合数据管理

随着市场的不断变化,企业业务也不断的发展,企业面临的竞争和不确定性也越来越大,数据需求从简单的查询、统计到 BI 到数据科学到推荐预测到 AI 应用,整体上从简单的固定查询统计到复杂多变灵活的智能化分析,相应企业数据架构也发生了变化,从数据库到数据仓库到数据湖,再到湖仓融合,整个演进过程是在追求更高的数据效率和更好更快的满足企业的各种灵活多变的数据需求。湖仓融合数据架构既兼顾数据仓库的规范性和企业级能力,又兼顾数据湖的灵活性和生态开放性,成为越来越多企业所关注的数据架构。在这里插入图片描述
DataWorks 当前全面支持湖仓融合的数据管理,在存储层,离线数据仓库MaxCompute 和实时数据仓库 Hologres 以及数据湖存储 OSS/OSS-HDFS,它们之间已经在存储层做了无缝的打通,不需要复制移动数据就可以进行数据的联邦查询。在这之上,DataWorks 提供了统一的湖仓融合数据管理用户界面。

  • 实时数据秒级入湖

在数据集成上,DataWorks 本身支持 50 多种异构数据源的离线、实时同步入仓。今年新增实时数据入湖的能力,实现数据秒级实时入湖,并且支持在数据同步过程中自动进行库表字段的更新,同时在这个过程中也能够进行元数据的自动发现和注册,借助 DLF 可以在 DataWorks 数据地图里进行湖仓统一的元数据管理。

  • 湖仓融合 ETL 开发调度

面向湖仓融合架构中多种计算引擎,如 MaxCompute、Hologres、Spark、Hive、Presto 等,提供了统一的 ETL 任务开发、任务编排调度和运维服务,实现统一的数据开发流水线,解决企业因数据架构不统一造成的数据生产链路割裂、不稳定等难以管理的问题。

  • 湖仓融合数据治理

DataWorks 新增支持了湖仓融合数据治理。不仅能支持湖仓统一的元数据管理、数据建模和数据质量管理,而且 DataWorks 的主动式、自动化数据治理工具“DataWorks 数据治理中心”也全面支持了 EMR+OSS 数据湖。
DataWorks 数据治理中心,将成熟的数仓治理能力全面扩展到了 EMR+OSS 数据湖。为了简化湖仓架构下的数据治理难度,让数据治理不再是运动式的,而是能够真正可持续、可跟进、可落地,DataWorks 数据治理中心,新增了“数据治理计划”功能,来协助用户完成主动式的数据治理规划和诊断。
数据治理计划内置了面向数据管理者的计算存储的成本治理、任务的稳定性治理等数据治理场景的模板,支持企业设置一个数据治理目标,提供多个维度的数据治理健康度的评估模型,帮助大家去评估数据治理的成效。
数据治理计划面向数据治理的执行者,提供 60 余项覆盖 5 个维度的治理规则库,结合设置的数据治理目标方向,数据治理产品可以自动推荐圈选和目标相关的数据治理问题,并且提供相应的治理手段和方法,帮助数据治理的执行者可以及时的发现问题解决问题。同时数据治理中心提供事前的问题拦截,在数据开发阶段可以事前发现很多的问题,比如代码规范问题,表明任务名命名规范问题,可以进行提前的拦截,这些事前拦截的插件和事后问题发现的插件都是允许支持企业自己定义。
数据治理应用:成本优化-无效任务自动化下线
随着企业业务的不断变化,企业人员变动,不可避免地会出现越来越多的无效数据任务,每天都在消耗着大量的计算成本和存储成本。传统的手动治理,需要依赖数据工程师人工分析判断,进行复杂的影响分析,还存在与相关被影响人员的沟通协同成本,极容易因不小心失误影响了线上任务造成故障,从而导致数据工程师因害怕出问题而对无效任务不敢治理,不愿治理。
DataWorks 数据治理中心,提供了一项称之为“优雅下线”的产品功能,可对无效任务进行批量的流程化、自动化的下线治理。首先会自动进行任务下线的影响分析,然后将任务下线分解为延迟调度、暂停调度、下线任务、备份产出表、删除产出表五个步骤,每个步骤还提供一个静默期并自动通知相关责任人或者受影响人。整个过程类似于一种“灰度下线”机制,一旦出问题可以快速恢复,并将影响范围降到最低。在这里插入图片描述
在阿里内部数据团队,原先治理下线一组涉及到 30 个责任人的 1000 个任务,从拉群拉会沟通,分析下线影响,制定下线计划,各自分别执行下线操作到结果跟进,要花费 3-5 个月时间。有了 DataWork s数据治理中心的优雅下线功能,2 天完成治理动作,1 周完成影响观察,15 天即可正式结项。DataWorks 数据治理中心的优雅下线已经帮助阿里内部数仓团队成功下线了数万个无效任务,节省在大量的存储计算成本。
DataWorks 数据治理中心已经在 DataWorks 企业版提供服务,近期也会推出企业版的试用活动,大家可以关注产品的官网信息。在这里插入图片描述

从 2009 年诞生在阿里巴巴集团内部开始,DataWorks 一直是一站式平台的倡导者与坚定执行者,包含从数据集成、数据开发的工具链、数据治理的工具链,以及到数据消费侧的分析及服务的产品,我们通过一站式平台不断为企业构建、沉淀企业的数据资产。在 AI 时代,DataWorks 将 14 年积累的产品能力不断与大模型进行融合创新,为企业一站式智能化的数据平台产品,提升企业数据流转效率,加速企业数据价值获取。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1250413.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于单片机的智能鱼缸(论文+源码)

1.总体设计 在本次设计中,其系统整个框图如下图2.1所示。其主要的核心控制模块由单片机模块,LCD显示模块,喂食模块,蜂鸣器模块,按键模块,复位电路,抽水电路,加热电路,加…

HarmonyOS4.0系列——02、汉化插件、声明式开发范式ArkTS和类web开发范式

编辑器调整 我们在每次退出编辑器后再次打开会直接进入项目文件中,这样在新建项目用起来很是不方便,所以这里跟着设置一下就好 这样下次进入就不会直接跳转到当时的文件项目中!! 关于汉化 settings → plugins → installe…

《大话设计模式》(持续更新中)

《大话设计模式》 序 为什么要学设计模式第0章 面向对象基础什么是对象?什么是类?什么是构造方法?什么是重载?属性与字段有什么区别?什么是封装?什么是继承?什么是多态?抽象类的目的…

篮桥云课-摆玩具

思维好题 一开始掉进了二分的陷阱&#xff0c;发现看看逐个位置的差&#xff0c;我们要分成k段就是要取消k-1个最大的逐差 然后将剩余的加起来就可以了 因为本体保证是从小到大给出的 这一点保证了答案的正确性&#xff0c;自己没想出来 还是太菜了 #include<bits/stdc.h&…

hdlbits系列verilog解答(exams/m2014_q4i)-45

文章目录 一、问题描述二、verilog源码三、仿真结果 一、问题描述 实现以下电路&#xff1a; 二、verilog源码 module top_module (output out);assign out 1b0;endmodule三、仿真结果 转载请注明出处&#xff01;

【LeetCode】每日一题 2023_11_25 二叉树中的伪回文路径(dfs,数组/位运算)

文章目录 刷题前唠嗑题目&#xff1a;二叉树中的伪回文路径题目描述代码与解题思路偷看大佬题解 结语 刷题前唠嗑 LeetCode&#xff1f;启动&#xff01;&#xff01;&#xff01; 这个月第一次周末早起~ 题目&#xff1a;二叉树中的伪回文路径 题目链接&#xff1a;1457. 二…

kafka,RabbitMQ,RocketMQ,他们之间的区别,架构,如何保证消息的不丢失,保证不重复消费,保证消息的有序性

文章目录 Kafka、RabbitMQ、RocketMQ 之间的区别是什么&#xff1f;性能数据可靠性服务可用性功能 RabbitMQ如何保证消息不丢失&#xff1f;Kafka 的架构说一下&#xff1f;Kafka 怎么保证消息是有序的&#xff1f;Kafka 怎么解决重复消费&#xff1f;Kafka 怎么保证消息不丢失…

践行“互联网+中药服务”理念,华润煎配中心打造智能代煎新模式

移动互联网时代&#xff0c;“互联网&#xff0b;”浪潮迭起&#xff0c;中药企业开始探索“互联网&#xff0b;中药服务”模式。 华润湖南医药有限公司&#xff08;以下简称“华润湖南医药”&#xff09;作为华润集团旗下华润湖南医药商业集团全资控股的大型医药企业&#xff…

[SWPUCTF 2021 新生赛]no_wakeup

直接赋值即可 $a ->admin admin; $a ->passwd wllm; 发现没有绕过&#xff0c;改成大于2的绕过__wakeup 这是因为PHP在反序列化时会检查序列化字符串的长度&#xff0c;如果长度小于等于2&#xff0c;则不会调用__wakeup()方法。

YOLOv8改进 | 2023 | MPDIoU、InnerMPDIoU助力细节涨点

论文地址&#xff1a;官方论文地址点击即可跳转 代码地址&#xff1a;官方并没有开源的该损失的函数的代码&#xff0c;我根据文章内容进行了复现代码块在第三章 一、本文介绍 本文为读者详细介绍了YOLOv8模型的最新改进&#xff0c;带来的改进机制是最新的损失函数MPDIoU和融…

在游戏开发中,实时渲染和离线渲染对于游戏平衡的影响有哪些?

实时渲染和离线渲染对游戏平衡有那些影响呢&#xff1f;在游戏开发中&#xff0c;渲染方式的选择对游戏的整体表现和玩家体验有着至关重要的作用。那么&#xff0c;实时渲染和离线渲染究竟有哪些利弊呢&#xff1f; 一、实时渲染 实时渲染&#xff0c;顾名思义&#xff0c;是…

Windows核心编程 进程间通信

目录 进程间通信概述 发送消息 WM_COPYDATA DLL共享段 文件映射 文件相关API CreateFile ReadFile WriteFile CloseHandle SetFilePointerEx 设置文件指针 获取文件大小 GetFileSize 结构体 LARGE_INTEGER 文件映射用于读写文件数据 文件映射用于进程间通信(带文…

Xilinx Zynq-7000系列FPGA实现视频拼接显示,提供两套工程源码和技术支持

目录 1、前言免责声明 2、相关方案推荐FPGA图像处理方案FPGA视频拼接叠加融合方案推荐 3、设计思路详解Video Mixer介绍 4、工程代码1&#xff1a;2路视频拼接 HDMI 输出PL 端 FPGA 逻辑设计PS 端 SDK 软件设计 5、工程代码2&#xff1a;4路视频拼接 HDMI 输出PL 端 FPGA 逻辑设…

【SpringBoot篇】阿里云OSS—存储文件的利器

文章目录 &#x1f339;什么是阿里云OSS⭐阿里云OSS的优点 &#x1f3f3;️‍&#x1f308;为什么要使用云服务OSS&#x1f384;使用步骤⭐OSS开通⭐参考官方SDK &#x1f354;编写代码⭐上传文件 &#x1f339;综合案例 &#x1f339;什么是阿里云OSS 阿里云对象存储&#xf…

css给盒子写四个角

如图&#xff1a;之前一直用定位 现在发现可以用css写 background: linear-gradient(to top, #306eef, #306eef) left top no-repeat, /*上左*/ linear-gradient(to right, #306eef, #386eef) left top no-repeat, /*左上*/ linear-gradient(to left, #386eef, #306eef) righ…

Java核心知识点整理大全13-笔记

Java核心知识点整理大全-笔记_希斯奎的博客-CSDN博客 Java核心知识点整理大全2-笔记_希斯奎的博客-CSDN博客 Java核心知识点整理大全3-笔记_希斯奎的博客-CSDN博客 Java核心知识点整理大全4-笔记-CSDN博客 Java核心知识点整理大全5-笔记-CSDN博客 Java核心知识点整理大全6…

【网易云商】构建高效 SaaS 系统的技术要点与最佳实践

SaaS 是什么 定义 相信大家都对云服务中的 IaaS、PaaS、SaaS 早就有所耳闻&#xff0c;现在更是衍生出了 aPaaS、iPaaS、DaaS 等等的类似概念。对于 SaaS 也有各种各样的定义&#xff0c;本文给出的定义是&#xff1a; SaaS 是一种基于互联网提供服务和软件的交付模式&#xf…

自动化部署 扩容openGauss —— Ansible for openGauss

前言 大家好&#xff0c;今天我们为大家推荐一套基于Ansible开发的&#xff0c;自动化部署及扩容openGauss的脚本工具&#xff1a;Ansible for openGauss&#xff08;以下简称 AFO&#xff09;。 通过AFO&#xff0c;我们只需简单修改一些配置文件&#xff0c;即可快速部署多种…

elasticsearch 索引库操作和文档操作

文章目录 索引库操作mapping映射属性索引库的CRUD&#xff08;创建&#xff0c;读取&#xff0c;更新&#xff0c;删除&#xff09;创建索引库和映射基本语法&#xff1a;示例&#xff1a; 查询索引库修改索引库删除索引库 文档操作新增文档查询文档删除文档修改文档全量修改增…

2023年亚太杯数学建模C题新能源汽车成品文章(思路模型代码成品)

一、翻译 新能源汽车是指采用先进的技术原理、新技术和新结构&#xff0c;以非常规车用燃料&#xff08;非常规车用燃料是指汽油和柴油以外的燃料(非常规车用燃料是指汽油和柴油以外的燃料&#xff09;&#xff0c;并集成了汽车动力控制和驱动等先进技术的汽车。新能源汽车包括…