ChatGPT时代对大数据应用的展望

news2025/1/16 0:45:19

前言:

       2022年底,科技圈有个爆炸性新闻,ChatGPT的诞生,引发了世界范围内的震惊;人工智能在与人交流上有了划时代的技术突破,可以和人深入的理解交流,让许多公司和领域对这项技术有了更多遐想。对于大数据领域,ChatGPT的出现会对这个行业产生什么影响,这是一个值得讨论和分析的话题。

一、ChatGPT提供的技术能力分析

       2022年初,北京冬奥会世界瞩目;三月份,俄乌爆发了一场持续到现在的战争;然后美联储连续6次加息;梅西取得大力神杯;2022年仿佛注定是个不平凡的一年。2022年的最后一个月,科技圈发布了一个在人类历史上都算的上划时代的消息,OpenAI的ChatGPT在自然语言处理上获得了重大的突破。

1.1ChatGpt是什么?

       他是一款AI技术驱动的自然语言处理工具,能够通过学习理解人类语言与人进行对话;可以依据聊天的上下文与人进行互动,像人类一样沟通交流,甚至能解决方案,代码,视频脚本等专业人才,才能做的事。为AIGC(内容自动生成)文本场景满足了极多的应用需求。(AIGC还有图片、语音、视频、3D模型等各种形式内容的发展)

1.2 实现ChatGpt需要什么?

       我不是算法工程师,对其实现细节不了解;但是因为工作原因接触和自己的学习,大致理解了其实现原理;所以从自己浅显的视角分析下ChanGPT要定制化实现,需要做哪些工作。

      这里就不得不提最近很火的大模型,AI技术之前无法实现大规模应用,主要因为算力无法满足大量用户的使用。大模型是使用深度学习框架和强大的计算资源,利用大量数据进行拟合训练,通过被动学习模拟人类认知的方式,而得到数亿到数万亿参数特征的模型。ChatGPT通过深度学习训练了一个大语言模型,将文本信息输入ChatGPT系统后,能通过训练好的模型,返回符合人类语言习惯的回答。

所以想要训练好一个新的大模型或者符合特定应用场景的小模型;

需要以下几个基础的东西:

  • 有特定含义的数据:大量用于应用场景的大模型训练数据,或者已经训练好特征的大模型数据;
  • 调好的算法模型:Transformer预训练语言模型,涉及神经网络、深度学习等算法用于处理数据;
  • 模型训练资源:存储训练数据量级的磁盘,处理数据的内存,以及大量的计算资源,高性能GPU;

所以现阶段想要训练特殊的大模型有两种方式:

一种是基于已有的大模型,按照原有的训练方式添加自己处理好的数据,微调基础大模型,用以适应新的应用场景;

另外一种是有实力的公司,可以按照大模型训练方式,从数据处理到各个阶段设计,重新跑一个全新的模型出来。

二、大模型在大数据领域应用分析

2.1 大数据领域应用需求分析

大数据领域的全生命周期,可以总结为如下三个阶段:

首先搭建大数据基础生态,存算、处理组件;

其次数据处理周期,从采集、处理、分析到数据应用;

最后是定制化的数据应用

2.2 分析大数据每个阶段人工智能应用的可能

2.2.1 ChatGPT在搭建大数据基础生态的可能性分析

这是一个什么需求场景呢?

       比如当你想要安装HADOOP生态的插件,你告诉ChatGpt,然后它就自己网上找安装资源,自动安装,然后遇到异常情况或不能解决的问题,将它需要的条件和需求告诉你,或把原因反馈给你寻求帮助。

      分析一下,这个跟问界的智能停车不就是一样的需求场景吗,你告诉车载智能系统“停车”,它就调用这个功能去执行这个功能。

如何实现呢?

       在大数据基础组件安装这个场景中,在ChatGpt之上包装一层语音文字转换系统,在ChatGpt之下构建一套智能安装运维系统;然后将各种大数据组件的安装功能,集成到安装运维系统之中,通过chatGPT理解需求,将需求对接安装运维系统,理论上是能实现基础生态的安装运维驱动;只是需要构建一套智能安装运维系统,然后将功能接口对接ChatGPT接口,在运维系统之上做需求识别。

2.2.2 ChatGPT在数据处理周期的可能性分析

这个场景需要做什么呢?

       现在这个阶段需要大数据开发工程师理解数据模型和业务需求,然后使用大数据工具,采集,构建模型,处理,存储,分析结果;这个过程核心的是对数据的理解和需求的理解,对需求的理解,通过语言模型是能实现的,但是对数据的理解,从原始数据到需求转换的这个过程,因为数据的不确定性,无法使用大模型训练出一个标准的处理方式。

无法处理的痛点能否解决?

       因为原始数据字段的定义没有特定的含义,所以无法通过大模型,训练出标准的处理方式,理解数据成为大模型的难点。

那有什么方式能解决呢?

       我能想到的,ChatGPT对于数据识别这个环节,先整理下大数据可能的字段含义,然后将所有含义做一张映射表,大模型自定义数据场景语义字段,通过大模型训练的自定义标准字段,构建初始的详情数据;

       让大模型能理解详情数据,当有需求时,可以这样对chatGPT说:“将kafka中app1的数据,构建一个按用户、性别、省份维度分钟级聚合的任务,索引为index_app1写入ES,并部署”。

       好像也能解决,但是这里需要多个操作,第一是自定义字段和语言模型的映射,让语言模型能识别数据scheme;第二有任务自定义(SQL语义自动生成能力);第三任务cicd部署能力;这是基础的三种功能,其他维护,优化监控等。这个周期需要极大的工作周期,基本要从零到一构建。

2.2.3 ChatGPT在数据应用的可能性分析

数据应用有哪几种?

数据分析,告警驱动,搜索,推荐,异常检测等。

对于不同的应用有不同的方案思路,这里选数据分析这个场景做分析

ChatGPT要实现数据分析,需要做什么呢?

分析数据应用,默认将数据处理完成,只是宽表数据;

  • 首先依旧是对数据scheme的理解,
  • 然后将语音转换成文字,
  • 之后将文字需求转换成SQL执行;
  • 最后将计算结果返回给前端用户形成报表。

        这种方式也是最简单大数据应用能接入chatGPT的场景,应为宽表字段可以很简单的更改和定义,可以构建这样一个系统,将语言的中的信息和字段在这个系统入口处分类;然后包装查询统计SQL,将语言里提到的维度填充到SQL里,获取执行返回结果,前端用BI报表渲染就可以实现应用的跨用户使用。

       这种方式是目前最简单能落地的应用,虽然通过语音系统构建也可以简单构建,但是引入chatGPT,可以增加识别能力。

三、结语

       ChatGPT依靠训练的语言大模型,极大的提升了语言类AIGC的应用。在大数据领域,期盼的愿望是可以通过语言就能实现大数据开发到应用,将chatGPT当作自己的私人管家,大数据工作者只需要去维护解决ChatGPT运维下的系统异常就行。这将极大释放大数据领域工作者的生产力,可以将精力聚焦在更有价值的地方。

       工作不是存量市场,就像电脑刚出现的时候以为好多人将没有工作,但是围绕电脑的工作却创造出更多价值,提供了更多的工作岗位;大数据也如此,到目前为止,大数据行业对于数据的应用如同老牛犁地,应用只是加速传统技术的处理能力和有限的大数据挖掘应用,当释放了数据领域者的生产力,相信大数据领域的工作者可以挖掘出更多有价值的数据黄金。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1401072.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

day25 组合总和Ⅲ 电话号码的字母组合

题目1:216 组合总和Ⅲ 题目链接:216 组合总和Ⅲ 题意 找出相加之和为n的k个数的组合 数字只可使用1~9之间的数(包括 1 9)且每个数字只能使用1遍 题目中有两个限制条件:1)k个数 2)k个…

HNU-数据挖掘-实验2-数据降维与可视化

数据挖掘课程实验实验2 数据降维与可视化 计科210X 甘晴void 202108010XXX 文章目录 数据挖掘课程实验<br>实验2 数据降维与可视化实验背景实验目标实验数据集说明实验参考步骤实验过程1.对数据进行初步降维2.使用无监督数据降维方法&#xff0c;比如PCA&#xff0c;I…

AttributeError: module ‘numpy‘ has no attribute ‘float‘解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

Linux第32步_编译ST公司的TF-A源码

正点原子STM32MP157开发板使用的CPU型号是STM32MP157DAA1&#xff0c;而开发板硬件参考了ST公司的STM32MP157 EVK开发板&#xff0c;因此我们在移植的时候需要关注“stm32mp157d-ev1”。 一、了解SDK 包 ST公司会从ARM官方下载TF-A软件包&#xff0c;然后将STM32MP1 芯片添加…

实例分割中mIOU的定义是什么?

问题描述&#xff1a;实例分割中mIOU的定义是什么&#xff1f; 问题解答&#xff1a; mIOU&#xff08;Mean Intersection over Union&#xff09;是实例分割任务中常用的性能指标之一&#xff0c;用于评估模型的准确性。mIOU 是每个类别的 Intersection over Union&#xff…

【Oracle】收集Oracle数据库内存相关的信息

文章目录 【Oracle】收集Oracle数据库内存相关的信息收集Oracle数据库内存命令例各命令的解释输出结果例参考 【声明】文章仅供学习交流&#xff0c;观点代表个人&#xff0c;与任何公司无关。 编辑|SQL和数据库技术(ID:SQLplusDB) 【Oracle】收集Oracle数据库内存相关的信息 …

原子操作以及原子操作类AtomicInteger简介

前言 问&#xff1a;什么是原子操作 什么是原子操作&#xff0c;所谓原子操作&#xff0c;就是一个操作是不能打断的操作。确切的说应该是不备其他线程或者任务影响的操作。 没错&#xff0c;原子操作就是你在家里的一次上厕所的操作 >> 进厕所&#xff0c;上锁&#…

TPM模拟器安装

目录 TPM模拟器安装 1&#xff09;安装配置所需依赖 2&#xff09;从官网下载TPM模拟器程序ibmtpm1332.tar.gz 3&#xff09;创建安装目录并将源码解压到对应目录 4&#xff09;进入解压后的目录&#xff0c;然后执行安装命令 5&#xff09;将tpm服务器添到Linux系统执行目…

【蓝桥杯日记】复盘篇一:深入浅出顺序结构

&#x1f680;前言 本期是一篇关于顺序结构的题目的复盘,通过复盘基础知识&#xff0c;进而把基础知识学习牢固&#xff01;通过例题而进行复习基础知识。 &#x1f6a9;目录 前言 1.字符三角形 分析&#xff1a; 知识点&#xff1a; 代码如下 2. 字母转换 题目分析: 知…

申请开启|成为亚马逊云科技 Community Builder,共建云端社区!

在探索由技术打造的云端世界时&#xff0c;和同行者一起学习&#xff0c;与技术专家共同探讨是开发者成长的最佳助力&#xff01; 亚马逊云科技开发者社区 Community Builders 为技术爱好者和新兴思想领袖提供技术资源、学习和交流机会&#xff0c;帮助开发者探索、分享技术相关…

windows如何切换访问NAS共享文件夹用户

从资源管理器对NAS共享文件夹输入用户名与密码进行访问后&#xff0c;想切换访问用户&#xff0c;搜索了一圈&#xff0c;网上介绍的方法都无效&#xff0c;最后只能注销windows7登陆&#xff0c;然后重新登陆&#xff0c;再访问NAS共享时才能切换用户&#xff0c;各位观众如有…

智能文件管理,按数量自动新建文件夹归类

文件管理&#xff0c;一直以来都是许多人头疼的问题。当你拥有大量的文件时&#xff0c;如何有效地归类和整理这些文件就显得尤为重要。现在&#xff0c;我们为你带来了一款全新的文件管理工具&#xff0c;让你轻松实现按数量自动新建文件夹进行归类&#xff01; 首先第一步&am…

数据库(MySQL库表操作)

目录 1.1 SQL语句基础&#xff08;SQL命令&#xff09; 1.1.1 SQL的简介 1.1.2 SQL语句的分类 1.1.3 SQL语句的书写规范 1.2 数据库操作 1.2.1 查看 1.2.2 自建库 1.2.3 切换数据库 1.2.4 删库 1.3 MySQL字符集 1.3.1 MySQL字符集包括&#xff1a; 1.3.2 utf8 和 u…

审稿周期短,且出版效率高的10本医学类中文核心期刊推荐!

常笑医学整理了适合医务工作者进行论文投稿的10本医学类中文核心期刊&#xff0c; 以及期刊详细参数&#xff0c;供大家参考。 1.《保健医学研究与实践》 &#xff08;详细投稿信息请点击刊物名称查看&#xff09; 简介&#xff1a;《保健医学研究与实践》是中国高校保健医学研…

SpringMVC环境搭配

概述 Spring MVC是Spring Framework提供的Web组件&#xff0c;全称是Spring Web MVC,是目前主流的实现MVC设计模式的框架&#xff0c;提供前端路由映射、视图解析等功能 mvc是什么 MVC是一种软件架构思想&#xff0c;把软件按照模型&#xff0c;视图&#xff0c;控制器来划分…

架构篇05-复杂度来源:高可用

文章目录 计算高可用存储高可用高可用状态决策小结 今天&#xff0c;我们聊聊复杂度的第二个来源高可用。 参考维基百科&#xff0c;先来看看高可用的定义。 系统无中断地执行其功能的能力&#xff0c;代表系统的可用性程度&#xff0c;是进行系统设计时的准则之一。 这个定义…

R2DBC-响应式数据库

简单查询 基于全异步,响应式,消息驱动 用法: 1.导入驱动:导入连接池(r2dbc-pool),导入驱动(r2dbc-mysql) 2. 使用驱动提供的api操作 pom.xml <properties><r2dbc-mysql.version>1.0.5</r2dbc-mysql.version> </properties><dependencies><d…

浙江建筑模板批发 — 广西源头厂家供应

在建筑行业中&#xff0c;高质量的模板材料对于确保工程的顺利进行和质量至关重要。我们的浙江强度高耐水建筑模板&#xff0c;直接来自广西的源头厂家&#xff0c;以其出色的性能和质量&#xff0c;成为建筑项目的理想选择。 产品特性 高强度稳定性&#xff1a;精选优质材料制…

Java--类继承

文章目录 主要内容一.学生类1.源代码代码如下&#xff08;示例&#xff09;: 2.结果 二.交通工具类1.源代码代码如下&#xff08;示例&#xff09;: 2.结果 三.圆类1.源代码代码如下&#xff08;示例&#xff09;: 2.结果 总结 主要内容 学生类交通工具类圆类 一.学生类 具有…

2.RHCSA启动配置

rht-clearcourse 0 #重置练习环境 rht-setcourse rh134 #切换CSA练习环境 cat /etc/rht #查看当前环境 virt-manager #打开KVM控制台 rht-vmctl start classroom #必做&#xff0c;start all不会包含classroom&#xff0c;需…