【2023云栖】大模型驱动DataWorks数据开发治理平台智能化升级

news2024/9/20 16:53:25

随着大模型掀起AI技术革新浪潮,大数据也进入了与AI深度结合的创新时期。2023年云栖大会上,阿里云DataWorks产品负责人田奇铣发布了DataWorks Copilot、DataWorks AI增强分析、DataWorks湖仓融合数据管理等众多新产品能力,让DataWorks这款已经发展了14年的大数据开发治理平台产品,从一站式向智能化不断升级演进。

Data+AI双轮驱动

进入AIGC时代,AI for Data和Data for AI成为当下的热词。AI for Data,这个比较好理解,通过大模型驱动的AI智能助手,可以提升数据平台工具的效率。DataWorks为企业搭建了一站式、全链路的工具链,在这个过程中,也源源不断地为企业构建数据资产,比如数据模型、元数据、数据血缘、数据指标等,在大模型时代,这些也可以称之为企业专属的领域知识,借助大模型强大的语义理解、推理、上下文学习、记忆能力,通过大模型的Prompt Engineering,DataWorks一站式平台可以为AI智能助手提供更接近的、更及时的、更全面的上下文信息,从而可以让AI获得更好的效果和性能,这是Data for AI。有了良好的数据基础,今天我们发布的众多新品就是借助AI大模型的能力,通过Data + AI双轮驱动,为数据开发和分析提供了新的范式,进一步提升企业获得数据价值的效率。

在这里插入图片描述

云栖发布:DataWorks Copilot 智能SQL编程助手提升30%数据开发分析效率

DataWorks Copilot是基于NL2SQL大模型打造的SQL编程助手,我们使用基于公开的数据集训练和微调的NL2SQL大模型,结合Prompt Engineering,提供了丰富的自然语言生成SQL的操作。

  • SQL生成

输入想要查询分析的自然语言描述,例如“统计最近7天的商品销售排行”,DataWorks Copilot将自动生成对应的SQL语句。

  • SQL续写

在SQL IDE中编写SQL代码时,DataWorks Copilot能够提供智能代码提示建议,提升SQL编程效率。

  • SQL纠错

当SQL运行报错时,DataWorks Copilot可提供一键纠错服务,帮助ETL工程师和分析师快速修复SQL错误。

  • SQL注释

以前写代码注释是个负担,我们自己不想写注释,却又希望别人的代码有注释。DataWorks Copilot可以批量为建表语句生成字段Comment信息,也可以为SQL语句添加逐行注释,提升SQL的可读性。

  • SQL解释

对于部分业务人员或者分析师,经常拿到是数仓工程师给到一段比较复杂的取数脚本,使用到的一些高级SQL语法和函数不懂什么意思但又想改一改取数逻辑,以前就要到处查资料或者请教别人。DataWorks Copilot可以直接对SQL代码进行解释,帮助我们的业务人员更快理解SQL逻辑、用途,提高取数分析和SQL学习的效率。

DataWorks Copilot 智能SQL编程助手,在我们内部已经使用了一段时间了,根据我们的一些观测,可以为ETL开发和数据分析提效30%以上。

GUI LUI DataWorks Copilot 辅助 ETL 数仓开发

40多年前出现了图形用户界面(GUI),大模型强大的自然语言理解能力,带来了全新的自然语言用户界面(LUI),这也是一种全新的人机交互方式,一个软件产品,能否提供LUI,这也是大模型应用从AI智能助手迈向AI原生应用的标志能力之一。DataWorks也在思考和探索,如何将复杂的产品操作逻辑隐藏在背后,借助大模型,对用户提供简单直接、更符合人性的自然语言用户界面。

我们做了一些产品实践。举几个应用场景,在实际工作中,找表是件头疼的问题,业务人员为了计算一个指标要找数仓的同学问该用哪张表,数仓同学天天应付这类咨询,也很烦躁。DataWorks Copilot则可以提供通过自然语言快捷找表,让找表这件事情不用东问西问,从而提升企业的数据消费效率。在ETL开发过程中,有些操作是比较复杂或者繁琐的,比如调度配置、参数配置、数据质量规则配置,过去往往需要到不同的产品页面来回跳转和手工配置,现在DataWorks Copilot提供了对话式的自然语言用户界面,在一个统一对话窗口中,通过自然语言交互就可以完成很多跨产品工具的操作,比如说一句“给某某表配置一个什么质量规则”就可以完成数据质量检测的规则配置。未来,我们将持续丰富自然语言交互界面的覆盖范围。

点击链接查看视频:https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/437757941217.mp4

DataWorks Copilot产品演示

DataWorks Copilot提供了两种模型服务,第一种是基于公开数据集训练和微调的NL2SQL大模型,当前在阿里云DataWorks官网可以直接申请参与邀测。如果有的企业对我们的模型效果有更高的期待,或者希望Copilot能够回答更贴近企业内部业务,我们可以提供企业专属的模型微调服务,结合阿里云人工智能平台PAI以及大模型专家服务,可以为企业量身定制专属代码大模型以及私有化大模型部署服务。

云栖发布:DataWorks AI增强数据分析

企业在数据生产建设上投入这么多资源,最终希望是洞察数据中的业务价值,指导企业的经营、决策。传统的统计分析方法常常先假设一种统计模型,然后根据数据样本来估计模型参数,从而了解数据的特征,但实际中往往有很多数据并不符合假设的统计模型。探索性数据分析强调让数据自身“说话”,先对数据特征、统计量进行探索,然后再选取合适的模型进一步分析,这是一种更加贴合实际情况的分析方法。在AI时代,数据洞察也不断向智能化演进,AI增强分析利用AI技术,可以加速或者自动化数据探索与洞察,帮助分析师从手工数据探索中解放出来。AI技术还能更好地发现数据中隐藏的规律和趋势,帮助分析师进一步突破自身固有认知的局限。

DataWorks联合DataV数据可视化产品,深度结合AI技术,推出了AI增强分析产品。目前提供了四项核心能力:

  • 自动数据探查

自动探查数据集,无需专业技术背景即可快速了解数据特征、统计分布。

  • AI自动图表生成

基于自动数据探查的信息,自动生成数据图表卡片,结合AI技术,自动识别不同数据字段组合之间的相关性并生成图表,不需要你手动写很多SQL进行分析,可以帮助你快速获得灵感,保存见解。

  • AI智能数据查询

结合大模型技术,通过自然语言生成 SQL 查询数据,并自动为查询结果自动推荐和生成数据图表卡片。

  • 一键构建和分享数据报告

可以像制作PPT一样,将上面生成的数据图表卡片一键生成数据长图报告,支持导出为图片或者一键分享。

DataWorks AI增强分析,让数据自己“说话”,将数据洞察过程尽可能的自动化、无代码化,通过AI还能自动发现数据中的潜在趋势,讲好数据故事,表达数据观点。这款产品目前在公测当中,大家开通DataWorks后进入数据分析产品即可申请公测体验。

点击链接查看视频:https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/438309479548.mp4

DataWorks 增强分析产品演示

云栖发布:DataWorks湖仓融合数据管理

随着市场的不断变化,企业业务也不断的发展,企业面临的竞争和不确定性也越来越大,数据需求从简单的查询、统计到BI到数据科学到推荐预测到AI应用,整体上从简单的固定查询统计到复杂多变灵活的智能化分析,相应企业数据架构也发生了变化,从数据库到数据仓库到数据湖,再到湖仓融合,整个演进过程是在追求更高的数据效率和更好更快的满足企业的各种灵活多变的数据需求。湖仓融合数据架构既兼顾数据仓库的规范性和企业级能力,又兼顾数据湖的灵活性和生态开放性,成为越来越多企业所关注的数据架构。

在这里插入图片描述

DataWorks当前全面支持湖仓融合的数据管理,在存储层,离线数据仓库MaxCompute和实时数据仓库Hologres以及数据湖存储OSS/OSS-HDFS,它们之间已经在存储层做了无缝的打通,不需要复制移动数据就可以进行数据的联邦查询。在这之上,DataWorks提供了统一的湖仓融合数据管理用户界面。

  • 实时数据秒级入湖

在数据集成上,DataWorks本身支持50多种异构数据源的离线、实时同步入仓。今年新增实时数据入湖的能力,实现数据秒级实时入湖,并且支持在数据同步过程中自动进行库表字段的更新,同时在这个过程中也能够进行元数据的自动发现和注册,借助DLF可以在DataWorks数据地图里进行湖仓统一的元数据管理。

  • 湖仓融合ETL开发调度

面向湖仓融合架构中多种计算引擎,如MaxCompute、Hologres、Spark、Hive、Presto等,提供了统一的ETL任务开发、任务编排调度和运维服务,实现统一的数据开发流水线,解决企业因数据架构不统一造成的数据生产链路割裂、不稳定等难以管理的问题。

  • 湖仓融合数据治理

DataWorks新增支持了湖仓融合数据治理。不仅能支持湖仓统一的元数据管理、数据建模和数据质量管理,而且DataWorks的主动式、自动化数据治理工具“DataWorks数据治理中心”也全面支持了EMR+OSS数据湖。

DataWorks数据治理中心,将成熟的数仓治理能力全面扩展到了EMR+OSS数据湖。为了简化湖仓架构下的数据治理难度,让数据治理不再是运动式的,而是能够真正可持续、可跟进、可落地,DataWorks数据治理中心,新增了“数据治理计划”功能,来协助用户完成主动式的数据治理规划和诊断。

数据治理计划内置了面向数据管理者的计算存储的成本治理、任务的稳定性治理等数据治理场景的模板,支持企业设置一个数据治理目标,提供多个维度的数据治理健康度的评估模型,帮助大家去评估数据治理的成效。

数据治理计划面向数据治理的执行者,提供60余项覆盖5个维度的治理规则库,结合设置的数据治理目标方向,数据治理产品可以自动推荐圈选和目标相关的数据治理问题,并且提供相应的治理手段和方法,帮助数据治理的执行者可以及时的发现问题解决问题。同时数据治理中心提供事前的问题拦截,在数据开发阶段可以事前发现很多的问题,比如代码规范问题,表明任务名命名规范问题,可以进行提前的拦截,这些事前拦截的插件和事后问题发现的插件都是允许支持企业自己定义。

数据治理应用:成本优化-无效任务自动化下线

随着企业业务的不断变化,企业人员变动,不可避免地会出现越来越多的无效数据任务,每天都在消耗着大量的计算成本和存储成本。传统的手动治理,需要依赖数据工程师人工分析判断,进行复杂的影响分析,还存在与相关被影响人员的沟通协同成本,极容易因不小心失误影响了线上任务造成故障,从而导致数据工程师因害怕出问题而对无效任务不敢治理,不愿治理。

DataWorks数据治理中心,提供了一项称之为“优雅下线”的产品功能,可对无效任务进行批量的流程化、自动化的下线治理。首先会自动进行任务下线的影响分析,然后将任务下线分解为延迟调度、暂停调度、下线任务、备份产出表、删除产出表五个步骤,每个步骤还提供一个静默期并自动通知相关责任人或者受影响人。整个过程类似于一种“灰度下线”机制,一旦出问题可以快速恢复,并将影响范围降到最低。

在这里插入图片描述

在阿里内部数据团队,原先治理下线一组涉及到30个责任人的1000个任务,从拉群拉会沟通,分析下线影响,制定下线计划,各自分别执行下线操作到结果跟进,要花费3-5个月时间。有了DataWorks数据治理中心的优雅下线功能,2天完成治理动作,1周完成影响观察,15天即可正式结项。DataWorks数据治理中心的优雅下线已经帮助阿里内部数仓团队成功下线了数万个无效任务,节省在大量的存储计算成本。

DataWorks数据治理中心已经在DataWorks企业版提供服务,近期也会推出企业版的试用活动,大家可以关注产品的官网信息。

在这里插入图片描述

从2009年诞生在阿里巴巴集团内部开始,DataWorks一直是一站式平台的倡导者与坚定执行者,包含从数据集成、数据开发的工具链、数据治理的工具链,以及到数据消费侧的分析及服务的产品,我们通过一站式平台不断为企业构建、沉淀企业的数据资产。在AI时代,DataWorks将14年积累的产品能力不断与大模型进行融合创新,为企业一站式智能化的数据平台产品,提升企业数据流转效率,加速企业数据价值获取。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1229803.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GaussDB SQL基础语法示例-GOTO语句

目录 一、前言 二、在GaussDB数据库中的概念及语法 1、基本概念 2、语法 三、在GaussDB数据库中的基础示例和限制场景说明 1、基础示例 2、限制场景说明 四、小结 一、前言 SQL是用于访问和处理数据库的标准计算机语言。GaussDB支持SQL标准(默认支持SQL2、…

2023年第十三届中国国际储能大会(CIES2023)-核心PPT资料下载

一、峰会简介 本届大会以“推动新型能源体系建设,促进储能产业高质量发展”为主题,为进一步积极探索储能领域新技术、新业态、新模式,推进储能产业上下游供应链深度合作,推动新型储能与新型电力系统协同创新,搭建储能…

(六)、基于 LangChain 实现大模型应用程序开发 | 基于知识库的个性化问答 (文档分割 Splitting)

在上一章中,我们刚刚讨论了如何将文档加载到标准格式中,现在我们要谈论如何将它们分割成较小的块。这听起来可能很简单,但其中有很多微妙之处会对后续工作产生重要影响。 文章目录 1、为什么要做文档分割?2、文档分割方式3、基于…

【OpenCV】仿射变换中cv2.estimateAffine2D 的原理

目录 一、介绍 二、仿射变换矩阵 (M) 1.M中六个元素的说明 2.计算旋转角度 3.M的计算过程 三、输出状态 (inliers) 四、错切参数 1.错切参数的定义 2.错切参数例子 (1)水平错切 (2)垂直错切 一、介绍 cv2.estimateAffi…

开源vs闭源大模型如何塑造技术的未来?开源模型的优劣势未来发展方向

开源vs闭源大模型如何塑造技术的未来?开源模型的优劣势&未来发展方向 写在最前面一、开源与闭源:定义与历史背景开源和闭源的定义开源大模型:社区驱动的创新 二、开源和闭源的优劣势比较开源大模型(瓶颈)数据&…

windows中运行项目中.sh和kaggle安装与配置

在git bash中运行 命令如下: bash download_data.sh 或者 ./download_data.sh如果使用kaggle的数据集,会要求输入用户名和API。 API在这个文件里面,复制过来即可。 安装kaggle pip install kaggle去kaggle官网,点击这里&…

MES集成 | 集成标准不统一?看得帆云iPaaS怎么应对

得帆信息结合自身丰富实施经验及众多实践案例,编写了《得帆云 AIGC低代码PaaS平台系列白皮书——MES集成应用》,希望能为正在使用MES产品的企业数字化转型领导者和IT人员带来一些帮助。 MES是众多大型生产制造型企业在做生产执行管理时会实施的一套系统。…

监控电脑的软件叫什么丨科普小知识

监控电脑的软件叫电脑监控软件。 电脑监控软件是一种可以监控电脑使用情况的软件,通常具有记录屏幕活动、网站访问、聊天记录等功能。 应用场景 1、企业内部管理:企业管理者可以通过监控电脑软件来监视员工的工作活动,以确保员工遵守公司政…

2023年电子工程师大会暨第三届社区年度颁奖活动--【其利天下技术】

华秋电子发烧友将于2023年11月23日在深圳举办一场盛大的技术交流活动,即“2023年电子工程师大会暨第三届社区年度颁奖活动”。本次活动邀请了各大高校教授、企业高管、行业专家和电子工程师们齐聚一堂,围绕“开源硬件”、“OpenHarmony RISC-V”、“工程…

.NET 6 在已知拓扑路径的情况下使用 Dijkstra,A*算法搜索最短路径

📢欢迎点赞 :👍 收藏 ⭐留言 📝 如有错误敬请指正,赐人玫瑰,手留余香!📢本文作者:由webmote 原创📢作者格言:新的征程,我们面对的不仅仅是技术还有人心,人心不可测,海水不可量,唯有技术,才是深沉黑夜中的一座闪烁的灯塔 !背景介绍 突然闯到路径搜索算法里…

接口测试基础与接口测试用例设计思路详解

接口测试简介 1.什么是接口 接口就是内部模块对模块,外部系统对其他服务提供的一种可调用或者连接的能力的标准,就好比usb接口,他是系统向外接提供的一种用于物理数据传输的一个接口,当然仅仅是一个接口是不能进行传输的&#x…

Redis7--基础篇3(持久化)

持久化介绍 官网地址: https://redis.io/docs/manual/persistence RDB(Redis DataBase)AOF(Append Only File)RDB AOF RDB模式(Redis DataBase) RDB 持久性以指定的时间间隔执行数据集的时间点快照。 实现类似照片记录效果的方式,就是把某一时刻的数据…

Blender烘焙AO操作及对应的python代码

(一)Blender软件操作 1. 导入模型(这里省略) 2. 材质设置 模型使用的所有材质都需要删除Surface Shader,没有其他多余的计算,可以大量缩短烘焙时间。删除之后的只留下一个材质输出节点,如图所…

ubuntu从源码编译gdal

删除旧版本 sudo apt remove libgdal* sudo apt remove gdal* sudo apt autoremove下载proj和gdal https://github.com/OSGeo/PROJ/releases 这里使用的是9.3.0版本: https://github.com/OSGeo/gdal/releases 这里使用的是3.7.3版本: 编译 安装…

C#中.NET 7.0 Windows窗体应用通过EF访问已有数据库并实现追加、删除、修改、插入记录

目录 一、前言 1.Database.ExecuteSqlCommand 方法不被EF7.0支持 2.SET IDENTITY_INSERT Blog {ON,OFF}不起作用 3.主键和标识列分离,成功实现插入与修改 二、新建本文涉及的项目 三、程序设计 1.Form1.cs源码 2.Form1.cs[设计] 四、生成和测试 1.原始表 …

【论文阅读】SPARK:针对视觉跟踪的空间感知在线增量攻击

SPARK: Spatial-Aware Online Incremental Attack Against Visual Tracking introduction 在本文中,我们确定了视觉跟踪对抗性攻击的一个新任务:在线生成难以察觉的扰动,误导跟踪器沿着不正确的(无目标攻击,UA&#x…

删除 word 中嵌入文字下方的图片

问题:Word中插入图片,选择图片格式【衬于文字下方】后,无法选择图片并删除。 解决方法: 如图所示,选择 【开始】-【编辑】-【选择】-【选择对象】,然后鼠标放在图片位置即可选中图片进行删除操作。

React中StrictMode严格模式,导致开发环境,接口会请求两次或多次( useEffect 请求多次)

问题描述: 我在用 create-react-app时,开发环境,一进页面接口会请求两次或多次。 我在首页 useEffect里 请求一个接口,整个页面就在这里请求这一次接口。但 实际上请求了两次。我检查了代码,确定只调用了一次&#xf…

算法进阶——链表中环的入口节点

题目 给一个长度为n链表&#xff0c;若其中包含环&#xff0c;请找出该链表的环的入口结点&#xff0c;否则&#xff0c;返回null。 数据范围&#xff1a;1<结点值<10000 要求&#xff1a;空间复杂度O(1)&#xff0c;时间复杂度O(n) 例如&#xff0c;输入{1,2},{3,4,5…

【文末送书】计算机网络 | IO多路转接技术 | poll/epoll详解

欢迎关注博主 Mindtechnist 或加入【Linux C/C/Python社区】一起学习和分享Linux、C、C、Python、Matlab&#xff0c;机器人运动控制、多机器人协作&#xff0c;智能优化算法&#xff0c;滤波估计、多传感器信息融合&#xff0c;机器学习&#xff0c;人工智能等相关领域的知识和…