“DataOps+大模型”——数造科技在大模型时代的数据开发创新探索

news2025/1/11 20:03:24

写在前面

自《“数据要素x”三年行动计划》印发以来,各界积极投身于探索数据开发的新技术、新应用场景和新模式,力求通过挖掘数据要素的价值来推动新型生产力的蓬勃发展。在这个过程中,以大模型为核心的人工智能技术为数据开发工作带来了全新的动力,促使各方开始尝试利用大模型协助数据开发人员,旨在提高数据开发效率并降低操作门槛。

10月10日,大数据技术标准推进委员会成功举办了一场以“大模型时代数据开发新变革”为主题的分享沙龙。数造科技产品研发总监鲍立飞先生受邀出席,并发表了题为《创变未来-大模型时代的数据开发创新探索》的演讲,详细介绍了数造科技在将DataOps理念与大模型技术相融合方面所取得的创新成果与实践经验。

图片

鲍立飞

数造科技产品研发总监

中国信通院DataOps专家委员、资深DAMA数据治理专家,拥有十多年数据管理领域工作经验,曾成功主导多个世界五百强企业的数据中台和DataOps项目的咨询与建设工作。

一、大模型时代下的数据开发革新

在当前的数字化转型进程中,企业内部面临的数据供需矛盾愈发显著,诸如找数难、用数慢、门槛高、成本高等问题层出不穷。这些问题的具体表现包括数据交付团队难以迅速响应市场和运营部门提出的多样化且时效性强的数据需求。从业务角度看,从提出需求到最终实现往往需要1至2周的时间;而从技术角度看,开发和测试环境的不一致性、部署集成的低效率,以及缺乏有效的工具和流程支持,都成为了阻碍数据价值传递给客户的瓶颈。

在此背景下,DataOps作为一种将数据开发与运营紧密结合的新范式应运而生。DataOps强调研发与运营的一体化,通过自动化工具、持续集成/持续交付(CI/CD)等手段,将两者无缝对接,从而提升开发效率,减少错误,使数据产品能够更快、更稳定地进入生产环境。

随着大模型时代的到来,数据工程领域迎来了新的变革。大模型凭借其卓越的理解和生成能力,结合RAG和Agent技术,将传统的结构化数据分析方式转变为自然语言交互的数据分析范式。用户只需清晰表达意图,即可获得以多模态方式呈现的自然结果,从而降低了数据分析的门槛。数据开发工作也因此从传统的脚本编写和数据处理流程中解脱出来,转变为一种智能化自动化的创新实践。数据开发人员的角色也从执行者转变为创新者,他们利用大模型的能力,加速产品迭代,推动数据产品的创新。

图片

传统数据开发模式VS大模型加持的开发模式

相比传统的数据开发模式,DataOps与大模型的结合带来了数据工程的新变化。

传统的数据开发模式工序繁琐,需要多个工具协同作业,但工具间的不互通增加了协作的复杂度。每个环节几乎都需要手动操作,流程复杂且交付周期长,容易因环境和参数配置不当而出错。相比之下,大模型加持的数据开发模式实现了开发流程的自动化和标准化,显著简化了操作复杂度,减少了人工干预,缩短了交付周期,同时还提升了数据开发的灵活性和效率。

因此,DataOps与大模型的结合有望大幅提升数据研发和数据分析的效能,为用户带来全新的体验,进一步推动数据的民主化进程,并为企业创造更多的商业价值和竞争优势。

图片

二、数造科技的创新之路:DataOps与大模型的融合探索

在DataOps理念框架与大模型技术的交汇点上,数造科技开展了一系列创新实践,特别是在需求管理、开发管理和测试管理等关键环节,展现了大模型技术的独特价值。

图片

例如,大模型在需求管理中的创新应用,能够通过自然语言处理技术精准地解析业务需求,并将其高效地转化为数据模型和SQL代码。

具体过程如下:

  1. 业务分析人员只需以自然语言的方式提出数据需求,系统便能通过数据需求工单轻松记录,无需技术背景,操作简便。

  2. 数据架构师随后对这些需求进行深度剖析,明确其背后的数据目标、数据集或指标。在此过程中,大模型能够帮助数据架构师理解需求中的细微差别,识别合适的数据库表、字段和指标,从而实现对数据需求的精确解析。

  3. 接下来,大模型(LLM)会将这些需求转化为具体的代码或SQL语句。这一过程包括自然语言处理以解析需求、实体识别以提取数据库实体、字段或指标、生成DDL和数据处理的SQL语句,以及通过语句拼接、元数据提取和转换直接输出有效的代码。这一转变的核心在于,传统的手动编写SQL或代码的过程被大模型所替代,实现了根据自然语言需求自动生成代码,显著提升了开发效率。

  4. 数据工程师对大模型生成的代码进行人工审核和测试,以确保其符合业务需求且逻辑无误。

  5. 运维工程师则负责将生成的代码部署到生产环境,并根据业务用户的反馈进行持续调整和优化。部署后,系统还会根据实际运行情况进行持续优化,并将这些反馈传递给大模型进行学习,以进一步提升自动化生成代码的准确性。

我们可以看到,在数据需求转换的流程中,大模型能够加快需求转换的效率,快速响应业务的需求变化。

图片

智能SQL开发助手

与此同时,数造科技还推出了智能SQL开发助手,它集成了代码生成、代码解释、数据建模、SQL改写、SQL优化及快速生成注释等能力,显著提升了企业数据开发的效率与质量。

具体功能包括:

✔代码生成:输入ETL开发需求及选择本地元数据,自动生成可执行的DDL和DML语句。

✔代码解释:选择代码片段,给出ETL代码的解释。

✔数据建模:按要求生成物理模型对应的建表语句。

✔改写SQL:对制定SQL按要求进行改写。

✔SQL优化:选择代码片段,给出ETL代码的优化建议。

✔生成注释:对选定的SQL生成注释。

此外,在数据开发领域,开发规范、最佳实践和技术经验的沉淀是确保数据项目高效交付和质量一致的重要基础。然而,随着项目规模和复杂性的增加,手动维护和传播这些知识变得愈加困难。而基于大模型构建的智能数据开发助手能够通过其学习能力帮助开发者在数据开发过程中实现规范化、自动化和知识沉淀,促进团队的协作与效率提升。

三、数造科技案例分享:助力某能源集团提升数据开发效能

某能源集团的数据开发工作主要依赖于供应商或者外包工程师,但由于工程师的技术水平参差不齐❌,为了快速满足业务需求,有时会忽视SQL开发的质量,经常导致SQL运行时间长或者大量资源被抢占的情况,严重影响了整体业务流程的顺畅。

为了应对这些挑战,数造科技为该能源集团搭建了一站式数据开发平台,旨在通过智能化工具提高开发效率、降低错误率、提升数据分析能力,并优化资源配置。

数造科技的智能SQL助手为该能源集团带来了以下关键功能:

✔智能代码生成:根据用户输入的自然语言需求,自动生成相应的SQL查询语句。

✔语法检查:对用户编写的SQL进行实时语法检查,并提供优化建议。

✔代码优化:通过给大模型输入SQL脚本、表结构及元数据描述、表统计信息、SQL执行计划、执行历史、数据库及执行资源、业务需求、SQL问题描述等信息,由大模型提供优化建议。

图片

建设成效

通过引入数造科技的智能SQL助手,该能源集团不仅显著提升了数据开发的效率和质量,还优化了资源配置,实现了业务流程的高效运转:

👍开发效率大幅提升:SQL编写时间预计减少了50%,数据处理效率提高了30%

👍错误率显著降低:借助自动化和智能化手段,SQL错误率降低了70%

👍数据分析周期缩短:数据分析所需时间大幅缩短,为业务决策提供了更加及时、准确的数据支持。

四、探索未来:DataBuilder引领数据智能新篇章

鲍立飞认为,随着大模型技术的快速发展,大模型在数据智能领域的应用前景广阔。未来的趋势将朝着以下几个方向发展:数据开发智能化、数据测试自动化、数据质量监控精细化以及数据分析民主化

数造科技作为国内领先的数据开发与治理平台提供商,已率先在国内采用大模型重新定义数据开发管理工具。“我们坚持创新驱动发展的战略,聚焦于大数据处理和人工智能技术的研究与应用,积极推动各行业的数字化转型。”

数造科技自主研发的一站式数据开发管控平台DataBuilder是基于大模型的敏捷数据开发工具。该平台采用“DataOps +AI”双引擎驱动,结合了当前业界最先进的DataOps框架理念和标准,并高效融合了大模型能力(如支持代码生成、解释与审查工作等),开创数据开发与治理一体化,可以帮助企业快速构建从数据接入到数据分析的端到端数据平台,让数据价值快速赋能业务应用。

截至目前,DataBuilder已累计服务客户上百家,在金融、能源电力、制造、零售、政务及医疗等多个领域得到广泛应用,其中不乏招商银行、平安产险、南方电网、广汽集团和沃尔玛等行业龙头企业。该平台有效解决了客户面临的数据孤岛、数据质量及数据资产运营等难题,为推动相关行业的数字化升级与变革注入了强劲动力。

图片

此外,DataBuilder还凭借卓越的技术创新能力与丰富的实践应用案例,斩获了多项权威奖项,如“中国数据智能最佳实践案例”、“中国数据治理优秀产品”等,充分证明了其产品的优越性能和市场影响力。

展望未来,数造科技将继续探索DataOps与大模型的结合潜力,通过不断优化平台功能和提升服务质量,帮助更多企业实现数字化转型和智能化升级。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2215614.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

中学数学教学期刊是核心期刊吗?

中学数学教学期刊是核心期刊吗? 《中学数学教学》不是核心期刊,属于省级期刊。 该期刊由安徽省教育厅主管,合肥师范学院、安徽师范大学数学系、安徽省数学学会主办。 虽然它在中学数学教育领域有一定的影响力,被中国国家哲学社…

springboot 整合 快手 移动应用 用户事件 消息回调 验证

快手 移动应用 WebHook 接入指南https://mp.kuaishou.com/platformDocs/openAbility/webHook/accessGuide.html 上代码 import cn.dev33.satoken.annotation.SaIgnore; import cn.hutool.json.JSONObject; import cn.hutool.json.JSONUtil; import lombok.RequiredArgsConstruc…

【Java】—— 数据结构与集合源码:数据结构概述与线性表、二叉树

1. 数据结构剖析 我们举一个形象的例子来理解数据结构的作用: 战场:程序运行所需的软件、硬件环境 敌人:项目或模块的功能需求 指挥官:编写程序的程序员 士兵和装备:一行一行的代码 战术和策略:数据结构 上…

分享5款堪称神器的软件

​ 今天再来推荐5个超级好用的效率软件,每个都堪称神器中的神器,用完后觉得不好用你找我。 1. 启动器——Launchy ​ Launchy是一款开源的启动器软件,帮助用户快速启动应用程序、文件夹和文件。用户只需通过快捷键调出Launchy界面&#xff…

FFmpeg的简单使用【Windows】--- 视频混剪+添加背景音乐

一、功能描述 点击背景音乐区域的【选择文件】按钮,选择音频文件并将其上传到服务器,上传成功后会将其存储的位置路径返回。 然后,点击要处理视频区域的【选择文件】按钮选择要进行混剪的视频素材(1-10个)。 以上两…

使用three.js 实现蜡烛效果

使用three.js 实现蜡烛效果 import * as THREE from "three" import { OrbitControls } from "three/examples/jsm/controls/OrbitControls.js"var scene new THREE.Scene(); var camera new THREE.PerspectiveCamera(60, window.innerWidth / window.in…

SpringBoot技术支持的桂林景点导航

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…

华为云CodeArts API:API管理一体化平台 9月新特性上线啦!

CodeArts API是面向开发者,提供API设计、API开发、API文档、API调试、 API自动化测试一体化协作平台,通过维护API各开发阶段数据高度一致,支持开发者高效实现API设计、API开发、API测试一站式体验。 2024年9月,CodeArts API主要发…

JAVA开源项目 在线考试系统 计算机毕业设计

本文项目编号 T 007 ,文末自助获取源码 \color{red}{T007,文末自助获取源码} T007,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 系…

bat(批处理脚本学习)

输出banner echo off echo () echo JL echo ^|^| echo LJ echo _,--"""""""---. echo , …

服务端技术架构演进之路

服务端技术架构演进之路 目录 服务端技术架构演进之路 0.架构中常见概念及理解 1.单机架构 2.应用数据分离架构 3.应用服务器集群架构 4.读写分离/主从分离架构 5.冷热分离架构 6.垂直分库架构 7.微服务架构 8.容器编排架构 本文以一个 " 电子商务 " 应…

[CS报错] error CS1617: /langversion 的选项“12”无效。使用 “/langversion:?“ 列出支持的值

报错 error CS1617: /langversion 的选项“12”无效。使用 “/langversion:?” 列出支持的值 解决 方法一 升级SDK,升级.NET6.0SDK或者.NET7.0SDK… 方法二 调整项目语言版本: 如果你不想或不能升级 SDK,可以通过调整项目文件 .csproj 中的 Lang…

AFSim仿真系统 --- 系统简解_11 行为与行为树

行为与行为树 行为树是一种人工智能技术,它使用户能够快速创建灵活的行为体,这些行为体包含各种战术模块,称为“行为”或“行为节点”。通过连接节点,可以将这些节点以多样且相互关联的方式组合在一起以定义行为。 快速入门 一…

微软默认软件要是换成这些,工作效率直接飙升10倍不止

你的电脑配置明明比别人高,打开文件却比别人慢,这是为什么? 有可能就是软件的问题,如果微软默认软件都被替换成下面这些宝藏级免费工具,工作效率直接飙升10倍不止! Everything Windows自带的搜索工具速度…

【Linux】配置Mysql 远程连接

文章目录 一、安装 Mysql配置 Mysql修改密码 登录 Mysql设置远程连接开放端口3306详情看蛋卷 一、安装 Mysql sudo yum localinstall https://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpmyum -y install mysql mysql-server --nogpgcheck配置 Mysql #MyS…

6款提升工作效率的电脑监控软件推荐

在现代企业管理中,电脑监控软件成为提高工作效率、优化资源配置的关键工具。它们不仅能帮助管理者监控员工的电脑活动,还能提供有助于提升生产力的详细报告和分析。以下是6款广受好评的电脑监控软件,能够帮助企业有效管理和提升员工效率。 1…

邻接矩阵的有向图(C语言代码)

#define _CRT_SECURE_NO_WARNINGS 1 #include<stdio.h> #include<stdlib.h> #define MAXVEX 100//最大顶点数 typedef struct {int vexs[MAXVEX];//存储顶点的数组int matrix[MAXVEX][MAXVEX];//存储邻接矩阵的二维数组int vexnum, edgenum;//顶点数边数 }MGraph;…

【SpringBoot详细教程】-12-SpringBoot整合定时任务 【持续更新】

Hello&#xff0c;大胸弟们&#xff0c;我们又又又见面了&#xff0c;今天攀哥继续为大家分享一下SpringBoot的教程&#xff0c;没点关注的宝宝&#xff0c;点一下关注。 &#x1f332; 定时任务简介 &#x1f33f; 定时任务使用场景 我们在编写SpringBoot应⽤中经常会遇到这…

Python实现文本数据可视化:构建动态词云

引言 在信息爆炸的时代&#xff0c;如何有效地从海量的文本数据中提取关键信息并直观展示&#xff0c;成为数据分析师和研究人员面临的重要挑战。词云作为一种流行的文本可视化工具&#xff0c;通过不同大小、颜色和字体的文字展示文本中关键词的出现频率或重要性&#xff0c;…

<<迷雾>> 第11章 全自动加法计算机(8)--一只开关取数并相加 示例电路

用一只开关就可完成将所有的数从存储器里依次取出并逐个相加的过程. info::操作说明 增加了 指令寄存器 和 译码电路, 扩充了 RR 循环移位寄存器 存储器中前 10 个地址已经提前写入了指令和数值, 其中 17(10001) 代表装载指令, 18(10010) 代表相加指令, 其它则为要加的数. 需检…