王琤:当数据治理遇上ChatGPT

news2025/1/21 5:46:59

以ChatGPT为代表的人工智能等技术正在“狂飙”,为全球带来一场翻天覆地的变革。4月27日在2023数据治理新实践峰会上,Datablau数语科技创始人&CEO王琤先生以《数据治理新实践与人工智能》为主题进行了分享,与参会同仁共同探索当数据治理遇上ChatGPT,这一轮AI技术浪潮将会与数据治理发生哪些“化学反应”。

以下为王琤先生的演讲实录,为了方便阅读,小编做了一些字句修改和文本优化。

大家好,首先我先代表数语感谢各位莅临2023年数据治理新实践峰会!今天的主要话题是围绕ChatGPT,是人类历史的一个拐点。

数据要素为什么会成为新型生产要素?

首先我们先看看数据要素这个事,目前在国内认为它是新型生产要素,这是为什么?我更多的是从经济发展的三阶段来解读,第一个阶段是农业经济,核心要素是劳动力和土地;第二个阶段是工业经济,核心要素是资金、技术等,第三个阶段也就是咱们说的数字经济,核心的变化在于前两个阶段侧重于“供需方”,也就是企业、顾客双方进行资源配置和价值交换,但当数据融入以后就会生成更多内容,就出现了AIGC(AI generate content),这意味着更多的企业、顾客、利益相关者共创价值。

从企业场景的角度来说,也就是数字孪生,就是把内容信息进行数字化,进而去做一些数字孪生和预测推演,进而产生对应的价值,数字孪生的1.0版本我们叫角色最优化,2.0版本叫平行世界,也就是将数字化完全做一个数字孪生提前来Run,来预测现实世界有可能会发生什么,反馈给现实世界来提前进行优化,我认为这才是数据作为生产要素被引进来的真正价值。

在这里插入图片描述

技术驱动数字化发展带了什么影响?

接下来我将引用几张最近很火的陆奇博士的课件。从劳动力的角度来讲,在农业社会,农民和地是关联在一起的,是强耦合关系;之后的工业社会,劳动力开始流动,生产的产品也是流动的;到现阶段在数字化进程中,其实更多是服务经济,里面的核心角色是程序员、设计师、分析师等;从数字信息无处不在到数字化模型无处不在,这是个大拐点。所以大家都在预测说,可能模型会把程序员、设计师、分析师等都替换掉,这个是当前社会比较焦虑的一件事。等模型更加成熟后,主要的工作可能是去做创业者或者高端科学家。

在这里插入图片描述

陆奇博士将人类环境分为三个体系。第一个是感知-信息系统,也就是信息无处不在;第二是思考-模型系统,其实就是我们的知识模型,第三个是实现-行动系统。信息系统早期像IBM、微软等都是在感知和采集信息,可以看到其中的拐点是 Google 将人类获取信息的成本基本拉为0,当然信息系统未来会长期存在。当前我们正处于第二个思考-模型系统 Open AI拐点处,ChatGPT 3.5带来了质变,我们称之为新范式,它将我们获取知识(思考)的成本拉得很低,其本质就是把数据转化为知识表达,通过推理和归纳来实现预期记忆和泛化。最后的行动系统更多讲的是人跟物理世界的转换。

在这里插入图片描述

关于把数据转化为知识表达,通过推理和归纳来实现预期记忆和泛化,这两天有个真实发生的例子。在Datamodeling开源模型社区的群里,有人发起针对LD-FSM模型中当事人的关联关系设计的讨论。

在这里插入图片描述

大家的回复七嘴八舌,各种角度都有,但始终没有一语道破天机的感觉。这时有人开始把ChatGPT的回应贴了上来。

首先,给了ChatGPT一个上下文,“你是一个资深的数据建模专家”,但这版回复感觉还是不太对路子。
在这里插入图片描述
于是,要求ChatGPT再次回答。这次的回答已经相当靠谱了。基本可以达到行业专家的水准。

但这里面还有一些模糊的表述,如“当事人关系在建模中重点描述的是当事人之间的相互作用”,这个相互作用是指什么?于是,再要求ChatGPT对此进行澄清。ChatGPT给了个例子把这个问题阐述的很清楚。
在这里插入图片描述
最后,让ChatGPT给予再次澄清和举例。

在这里插入图片描述
大家看看这是不是将获取知识(思考)的成本拉得很低,背后就是把数据转化为知识表达,通过推理和归纳来实现预期记忆和泛化。

我们之前要搞定这个事可能要请个模型专家来做个咨询项目,前后得折腾几个月花几万、几十万,现在成本几乎是零。 这就像当年google推出搜索引擎,我们获取信息的成本降为零是一样的。所以,我们当前站在一个大的拐点上。

ChatGPT 成功的核心要素是什么?

ChatGPT的GPT模型是基于Transform序列式的模型架构,相较于之前的知识图谱等方法,Transform序列式的模型架构可以更高效地把大量的信息做压缩,这是最核心的突破点;其次英语是全球性的语言,ChatGPT信息的量其实是全世界的人都在做贡献。如果放在中文环境,可能面临的挑战还是蛮多的,因为像是西方的文化本身是有推演演绎的哲学逻辑,但中文更复杂,理解难度大,所以相对于英文语料来说差了一个数量级。从中文的角度来讲,未来这些信息的抓取和训练,到底把英文的信息转成中文的,还是从中文直接就开始去做起?这个是一个比较大的十字路口。

在这里插入图片描述

人工智能到底可以发展到什么程度?

以ChatGPT为代表的人工智能技术具有强大的能力。一般我们讲人工智能发展分为三个阶段,AlphaGo战胜人类国际象棋大师的阶段属于弱人工智能,目前阶段基本上快到强人工智能,跟人脑的水平差不多,甚至超过人脑,再之后就是超人工智能,就是已经到把人类的这些知识都能覆盖到的阶段,有人预测到2030年或2040年可能实现超人工智能。

美国的益智问答大奖赛,人类冠军跟机器去PK,很难赢。所以像益智问答、算数,死记硬背等这些早都被人工智能Cover到了。然后就是像自动驾驶,语音的识别、视觉、翻译等这些几乎都可以实现人工智能,但像科学、像设计,像写书、像艺术这些东西短期人工智能还难以企及的,所以有一些讨论到底人工智能可以发展到什么程度,这里要提一个有意思的理论—约翰·希尔勒的“中文屋实验”,未来机器到底能不能有一些情感,它能不能发展到不可控的程度?这个尚未有结论,是个开放思考题留给大家。

以AI赋能,数据治理智能化的引擎

其实我们也对ChatGPT做了蛮多研究的,首先我们先问问ChatGPT可以帮助数据治理干些什么?它的回答:第一、能做一些数据治理的这种制度流程。第二、能分析一些数据的有效性、一致性。第三、数据治理的一些质量监测、安全合规,同时做一些任务自动化。针对它回答的第一点,我们让它列举 100 条制造业的行业数据标准,它可以大致给出符合期望的答案。

在这里插入图片描述

接下来让它写了一段“用 SQL 去检查身份证号码有效性的代码”,写得非常的完美,确实很强。
在这里插入图片描述

那么,数据治理该如何拥抱以ChatGPT为代表的新一轮的AI技术浪潮?

Datablau安全分类分级智能化实践

从实践出发,Datablau其实一直在做数据安全分类分级的智能化研发。在我们的产品平台架构中,我们通过训练行业分类分级大体系形成一套分类分级的语料库。再通过 Word to Vector将词向量的距离进行比较,也就是拿一个分类分级跟一个元数据取向量的距离。当然这个过程中肯定也要做一些优化。对于大段信息描述,我们通常采用拆词的方法,这个可能导致拆出来的信息没有意义,这个时候就需要人工优化。

如下图所示,我们对分类的描述做分词处理,然后放在向量空间进行相关运算,看字段与分类的描述的关联度,得出向量空间值,获得与字段相关度最高的数据分类推荐。
在这里插入图片描述

其实,目前我们在证券包括银行行业做了很多智能安全分类分级,尤其针对人行的数据安全分类分级的行业标准,我们把这个语料库通过智能化+人工的方式做了一套训练,同时我们拥有一套1220万条的行业语料库来补充人行的这套语料库,因此,在银行业数据分类分级的首次识别率可以达到76%,加上人工优化可以达到90%,当然整个过程有自反馈的效果,也是机器自学习的过程。
在这里插入图片描述
好的,以上就是关于ChatGPT话题的全部内容。
*文章有部分图片来源于陆奇博士课件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/505240.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

APP开发的上线流程

APP的使用已经非常普及,对于企业来说通过APP可以加强和客户的沟通,展现最新的产品和服务。随着APP应用商店对用户隐私的重视,APP的上线规则比以前更加复杂,甚至出现APP需要反复修改数十次才能上架的问题,今天和大家分享…

移远通信参加2023中国移动5G发展大会 ,共探5G创新未来

5月6日,以“聚力5G创新,共铸百业绽放”为主题的中国移动5G发展大会在郑州国际会展中心召开。作为5G赋能千行百业的重要贡献者,移远通信应邀参加大会,并深度参与了大会的多个环节。 会上,中国移动系列创新成果发布&…

【Linux】Linux安装tomcat(图文解说详细版)

文章目录 1、安装前置条件2、下载所需压缩包,上传到服务器3、对资源进行解压4、给防火墙添加访问端口(默认8080,在它的/conf/server.xml文件里面查看)5、然后切换到bin目录下,启动(成功效果如图&#xff09…

批量任务导致页面卡死解决方案

需求背景 需要基于高德地图展示海量点位(大概几万个),点位样式要自定义(创建DOM),虽然使用了聚合点,但初始化时仍需要将几万个点位的DOM结构都创建出来。 这里补充一句,高德地图在2.…

为什么剑桥出身的“AI教父”辛顿会担心?

剑桥很有意思!在那儿呆过的人常常有这样一种感觉:剑,很锋利!桥,很温柔!剑桥的科技自不必说,牛顿、达尔文、麦克斯韦、爱丁顿......,剑桥的人文却也不让科技,拜伦、培根、…

使用asp.net core web api创建web后台,并连接和使用Sql Server数据库

前言:因为要写一个安卓端app,实现从服务器中获取电影数据,所以需要搭建服务端代码,之前学过C#,所以想用C#实现服务器段代码用于测试,本文使用C#语言,使用asp.net core web api组件搭建服务器端&…

【软考备战·希赛网每日一练】2023年5月9日

文章目录 一、今日成绩二、错题总结第一题三、知识查缺 题目及解析来源:2023年05月09日软件设计师每日一练 一、今日成绩 二、错题总结 第一题 解析: 有损、无损连接判断: (A1,A2)∩(A1,A3)A1 (A1,A2)-(A1,A3)A2 (A1,A3)-(A1,A2)A3 所以A1-&…

车载5G放量增长,哪些厂商抢跑

前装标配19.88万辆,同比上年同期增长724.89%,这是一季度中国市场乘用车5G搭载上车交付的成绩。高工智能汽车研究院监测数据显示,2022年全年5G交付搭载41.74万辆(不含选装),前装搭载率为2.09%。 这意味着&a…

【Linux】GDB多进程调试

目录 GDB多进程调试 GDB多进程调试 演示父子进程如何进行gdb调试会用到hello.c文件 hello.c文件内容如下&#xff1a; #include <stdio.h> #include <unistd.h>int main() {printf("begin\n");if(fork() > 0) {printf("我是父进程&#xff1…

Baumer工业相机堡盟工业相机如何使用BGAPI SDK进行两个万兆网相机的同步采集

Baumer工业相机堡盟工业相机如何使用BGAPI SDK进行两个万兆网相机的同步采集 Baumer工业相机Baumer工业相机图像数据转为Bitmap的技术背景Baumer同步异常 &#xff1a;客户使用两个Baumer万兆网相机进行同步采集发现FrameID相同&#xff0c;但是图像不同步细节原因解决办法 Bau…

Windows下python中的pip换源

在Windows中更换pip数据源方法&#xff0c;提高Python相关包安装效率 1.在windows环境下&#xff0c;打开我的电脑&#xff0c;在"地址栏"输杰沫入: %APPDATA% 后回车 2.在打开的文件夹中新建 pip 文件夹&#xff08;打开的地址为下图所示&#xff09; 3.进入pip文…

在 Python 中将泊松分布拟合到不同的数据集

文章目录 在 Python 中将泊松分布拟合到不同的数据集在 Python 中拟合泊松分布的分箱最小二乘法程序的导入函数为泊松分布创建一个虚拟数据集并使用该数据集绘制直方图使用曲线拟合将曲线拟合到直方图 使用负二项式拟合过度分散的数据集上的泊松分布创建数据集使用数据集绘制直…

JAVA算法(一)查找算法

一、基本查找 / 顺序查找 核心&#xff1a;从0索引开始挨个往后查找 private static boolean basicSearch(int[] arr, int number) {for (int i 0; i < arr.length; i) {if (arr[i] number) {return true;}}return false;}二、二分查找 / 折半查找 前提&#xff1a;数组…

(四) 打造更加智能的即时通信系统——实现主界面消息和联系人切换效果

文章目录 一、引言二、界面设计的基本要求2.1 界面美观简洁2.2 功能合理布局 三、界面布局和控件设计四、效果展示五、关键代码六、个人经验分享6.1 即时通信系统开发中的经验和总结6.2 遇到的问题和解决方案6.3优化即时通信系统 七、总结 一、引言 当今社会&#xff0c;人们对…

解决 scalac: bad option: ‘-make:transitive‘

scalac: bad option: ‘-make:transitive’ 打开项目所在位置并进入 .idea 修改scala_compiler.xml文件 删除掉参数行包含-make:transitive 保存后 重新运行代码

Linux驱动开发笔记(二):ubuntu系统从源码编译安装gcc7.3.0编译器

若该文为原创文章&#xff0c;转载请注明原文出处 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/130533941 红胖子网络科技博文大全&#xff1a;开发技术集合&#xff08;包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软硬…

uniapp云打包

1. 生成本地打包资源 2. 下载Android Studio和App离线SDK 导航路径&#xff1a;https://nativesupport.dcloud.net.cn/AppDocs/usesdk/android 下载的Android 离线SDK与本地开发工具版本对应 3. 解压得到的目录如下 4. 使用Android Studio打开Android 离线SDK解压目录里面这个…

计算机毕业论文选题推荐|软件工程|系列一

文章目录 导文题目导文 计算机毕业论文选题推荐|软件工程 (***语言)==使用其他任何编程语言 例如:基于(***语言)门窗账务管理系统的设计与实现 得到:基于JAVA门窗账务管理系统的设计与实现 基于vue门窗账务管理系统的设计与实现 等等 题目 基于(***语言)的研发部署管理…

全方位揭秘!大数据从0到1的完美落地之MapReduce实战案例(1)

案例一: MR实战之小文件合并(自定义inputFormat) 项目准备 需求 无论hdfs还是MapReduce&#xff0c;对于小文件都有损效率&#xff0c;实践中&#xff0c;又难免面临处理大量小文件的场景&#xff0c;此时&#xff0c;就需要有相应解决方案 测试数据 分析 小文件的优化无…

ClickHouse:联接执行的内部机制

在之前的文章中&#xff0c;我们回顾了 ClickHouse 中可用的 SQL JOIN 类型。提醒一下&#xff1a;ClickHouse 附带完整的 SQL 连接支持。 在本文中&#xff0c;我们将探索 ClickHouse 中联接执行的内部结构&#xff0c;以便您可以优化应用程序使用的查询的联接。在这里&#…