酷克数据简丽荣:“模型热”将引发云计算与数据库行业大变革

news2024/12/24 8:29:24

随着LLM智能涌现的发生和API的爆发式发展,各行各业都在关注如何用好通用模型,如何调校好适合自己的行业应用。LLM最重要的输入是数据,最频繁的接口是数据库。模型应用的普及会对数据库产生哪些影响?大模型时代对企业的数据管理能力和范式提出了哪些新的要求?

围绕这些问题,酷克数据联合创始人兼CEO简丽荣接受了《中国电子报》的专访,解读大模型时代云计算和数据库行业的变革与机遇。以下为专访全文:


当前,大模型引发的AI再造产业趋势已经势不可挡,对于支撑AI的底层数据库而言更是如此。“以ChatGPT为代表的超大语言模型的迅速应用将引发云计算与数据库行业的大变革。”北京酷克数据科技有限公司(简称“酷克数据”)联合创始人兼CEO简丽荣近日在接受《中国电子报》记者专访时表示。

大模型热潮将改变云计算和数据库市场竞争维度,加速企业IT架构向分布式和并行化发展的趋势,这也符合“东数西算”的政策导向。同时,大模型将会推动多云化的普及,具备中立性、产品支持多云部署的独立数据库厂商将有望从中受益。

数据处理全链路将被重塑

AI大模型是基于海量多源数据打造的模型,需要通过不断地训练从大量标记和未标记的数据中捕获知识,并将知识存储到大量的参数中,以建立对各种任务进行高效处理的技术架构。它具备通用、可规模化复制等诸多优势,是实现AGI(通用人工智能)的重要方向。

“‘数据仓库’‘数据平台’和‘大模型’本质上都是为了更好地回答决策问题。从某种意义上讲,它们之间是相辅相成的。”简丽荣表示,一方面,数据仓库成熟的数据管理、清洗、并行处理技术,可以有效提升训练、微调大模型所需训练数据的处理流程;另一方面,数仓作为天然的事实数据或知识管理平台,可以为生成式AI提供正确答案所需的上下文,有效解决大模型普遍存在的“幻觉”问题。数仓和大模型的有机结合,可以更好地帮助企业实现辅助决策。

区别在于,大模型处理数据的方式明显不同于现在主流的数据仓库、数据平台。数据仓库、数据平台往往会把原始数据编制成二维表格,然后进行数据清洗、规整、补全等处理,最终通过复杂的SQL实现商业智能。而大模型则需要不断把原始文本信息用提示的方式进行投喂,让其进行深度学习,从而实现对任务的高效处理,这与传统的基于二维表格的形式存储、管理数据完全不同。

简丽荣分析称:“传统数据处理需要消耗大量人力、物力以及时间,而且有很多环节非常容易出错,如数据清洗、数据血缘分析、主数据管理、数据质量、数据治理、ETL、数据分析、数据库运维等。以ChatGPT为代表的通用人工智能模型的迅速应用,将会大幅提升数据处理全链路各个环节的自动化程度。”

比如,Text2SQL(即Text-to-SQL,指将自然语言文本转换成结构化查询语言的过程),就是借助大模型的能力,自动根据自然语言生成结构化查询语言,完成BI(商业智能)任务,提升数据工程师工作效率。

简丽荣表示:“大模型的出现,一方面,让大家开始思考如何利用模型的能力去重构数据处理全链路的各个环节,以实现更高程度的智能化、自动化;另一方面,也促使大家开始思考如何将数据仓库、数据平台的数据处理规则与大模型进行适配,从而更好地支持大模型的训练、调优、部署、推理及应用。”

云计算资源消费模式将被改变

众所周知,大模型训练的关键在于算力、数据和算法。简丽荣认为,云计算平台正是提供这三个要素最合适的平台。首先,大模型需要大量算力,特别是高端GPU;其次,需要海量的数据,特别是一些高质量的数据;此外,大模型还需要算法的支持,Model as a Service将成为一种新的PaaS服务。这些都是新的需求,也是云平台最擅长做的事。所以,大模型的出现将会非常有效地提振云计算市场。同时,拥有更强GPU算力的云厂商会更具竞争优势。

简丽荣指出,大模型的出现,将会对自然语言处理、计算机图像,甚至自动驾驶造成颠覆性的影响,改变这些领域的整个软件和硬件技术栈,从而给云计算市场带来全新的资源消费模式。

以SaaS服务为例,大模型对低代码的冲击将会非常明显。低代码(或零代码)核心价值是通过拖拉组合解决软件开发慢、门槛高的问题。然而,大模型的出现颠覆了低代码的整个开发模式。“低代码能够覆盖的应用场景是有限的,未来后台的技术栈会被大模型彻底颠覆。”简丽荣表示。

像ChatGPT之类的大模型可以通过自然语言描述直接创建应用程序,AI生成代码的速度远超人工,甚至还可以通过对话持续提出改进建议。此前,曾经估值130亿美元的AI写作工具Grammarly在ChatGPT发布后就出现了网站用户直线下降的情况。

简丽荣认为,AI应用的大规模推广实际上增加了IT行业的竞争维度,不同的企业在不同的维度上面的竞争力是不一样的。IT层会更加多元化,这自然也会推动多云的普及程度。

未来,大部分普通的非科技企业用户只需要调用云厂商提供的MaaS服务(模型即服务)来构建自己的垂类模型和应用,而一些大型企业用户出于数据安全、行业监管要求、成本、自主可控等因素,可能会更倾向于建设自己的基础平台来完成专有模型训练和推理任务。

大模型加速数据库分布化和并行化

伴随“模型热”的兴起,庞大的数据量带来了存储和计算资源的压力,这要求数据库本身紧密跟云计算技术结合,通过元数据、计算和存储层解耦,从而充分发挥云平台的弹性和扩展能力。

简丽荣认为,在大模型爆发的背景下,数据库需要提供可以横向的并发访问能力、多范式的数据处理分析能力(包括支持声明式语言SQL,过程式语言Python/R,图计算、全文检索、流式计算、高性能计算、机器学习和人工智能)和海量异构数据(结构化数据、半结构化数据、非结构化数据以及实时数据)的存储管理能力。

在这种趋势下,基于云原生架构的数据仓库将成为未来数据库行业发展的重要方向,而大中型企业考虑到高可用以及议价能力等因素,通常会选择多云部署的模式。

“这种趋势对我们做多云数据库的企业也有明显影响,用我们的核心产品HashData云数仓为例,设计之初,我们对多云部署场景的考虑是通过将系统的不同组件解耦,降低对特定接口的依赖,方便对接各种开放的云平台,满足企业数据在不同云平台流转的需求。”简丽荣说,“我们现在在开发增强HashData数据仓库支持向量数据存储和处理检索能力的功能组件,再结合云数仓的高扩展性、高可用和高弹性,实现更好地支撑和扩展大模型的应用场景。”简丽荣表示。

与此同时,分布式和并行化潮流将进一步加速。“大模型的应用将进一步加速数据库行业的分布式和并行化潮流,而且在一个更深更广的层面上进行分布式和并行化。”简丽荣表示,“更深指的是更多异构的算力资源需要并行化,包括CPU、GPU、DPU等,更广指的是类似‘东数西算’工程,这些都要求数据系统能够更好地提供共享和协作能力。”

此外,除了类似ChatGPT一样的To C的形态外,大模型在企业级市场将更多地以个性化、独立部署的形态出现,也就是说各行各业甚至同一家企业不同的部门都会有各自的大模型实例,类似行业专家。在这样的背景下,需要在数据库内核集成深度学习和大模型的能力。

“无论是数据分析全链路的各个环节还是数据库自身的运维工作,都非常耗时和依赖经验,我们正在尝试利用大模型训练数据库领域的专家系统,期望提升数据分析和数据库智能运维能力,实现在数据库范围内有类似于‘自动驾驶’一样的功能。”简丽荣表示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/645198.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深度学习应用篇-元学习[13]:元学习概念、学习期、工作原理、模型分类等

【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等 专栏详细介绍:【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化…

通讯基站电源智能监控系统

通信基站又称无线基站,一般都安装在宽阔、偏远的地方,且分散,实现人工值守十分困难,成本高;另外局部内动力设备、蓄电池电源以及环境无法及时监视和控制,造成事故频发。然而蓄电池作为直流备用电源&#xf…

怎么把图片放大不改变清晰度,给大家介绍两个方法

时代的发展和进步,我们在使用手机、电脑等设备时,常常需要对图片进行放大操作。从功能上来说,图片放大可以让我们更好地观看和理解图片内容,同时也可以提高图像分辨率和清晰度,以满足不同的需求和场景首先,…

SQL-将数组打散regexp_replace/split/explode

目的:将数组(拒绝码refuse_codes)打散 原数据: 打散后数据col: – regexp_replace()替换函数 – split()函数是用于切分数据,也就是将一串字符串切割成了一个数组 – explode()函数是用于打散行的函数&am…

Ubuntu安装英伟达显卡驱动、Cuda和Cudnn

显卡驱动安装 1、下载对应型号显卡驱动 首先查看自己机器显卡型号 lspci | grep -i nvidia得到如下输出,其中GeForce GTX 1080就是型号 01:00.0 VGA compatible controller: NVIDIA Corporation GP104 [GeForce GTX 1080] (rev a1) 01:00.1 Audio device: NVIDI…

第14届蓝桥杯Scratch(中级)省赛真题解析2023.5.14

选择题 1. 已知下图角色一共有3个造型,则以下选项中,不能呈现下图中第三个造型效果的程序是(C) *选择题严禁使用程序验证,选择题不答或答错都不扣分 A. B. C. D. 2. 运行以下程序,循环执行4次后,x的值是(D)。 *选择题严禁使用程序验证,选择题不答或答错都不扣分

vue2之element-ui多个穿梭框实现 -Transfer

效果图 组件实现 -目录结构 Transfer.vue实现 <template><el-card :body-style"{ minHeight: 350px }"><el-inputv-show"filterable"v-model"filterName":placeholder"filterPlaceholder"clearableinput"han…

【Flutter】Flutter 如何切换页面

文章目录 一、简介二、Navigator 的使用三、实际示例&#xff1a;电影应用的页面切换四、完整代码五、 总结 一、简介 什么是页面切换呢&#xff1f;简单来说&#xff0c;页面切换就是在应用的不同界面之间进行跳转。例如&#xff0c;在一个电影应用中&#xff0c;从电影列表页…

java基础(多线程)-共享模型之管程

一、共享资源带来的问题 class ThreadProblem{static int counter 0;public static void testThread(){Thread t1 new Thread(()-> {for (int i 0; i < 5000; i) {counter;}},"t1");Thread t2 new Thread(()-> {for (int i 0; i < 5000; i) {count…

基于html+css的图展示126

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

苹果手机之间如何互传照片?批量传输操作指南

很多时候&#xff0c;我们用手机拍摄了好看的照片或者收藏了一些有趣的图片&#xff0c;想要分享给朋友&#xff0c;却不知道苹果手机之间如何互传照片&#xff1f;在分享大量照片的时候不清楚如何批量操作&#xff1f;别担心&#xff0c;下面小编就来分享一下苹果手机照片传输…

LeetCode279. 完全平方数 DP完全背包

https://leetcode.cn/problems/perfect-squares/ 题目描述 给你一个整数 n &#xff0c;返回 和为 n 的完全平方数的最少数量。 完全平方数 是一个整数&#xff0c;其值等于另一个整数的平方&#xff1b;换句话说&#xff0c;其值等于一个整数自乘的积。例如&#xff0c;1、4…

python类中常用的魔术方法

文章目录 构造方法__init__对象转字符__str__对象自定义大小比较First__lt__Second__le__Third__eq__ 构造方法__init__ 构造方法也是魔术方法的一种&#xff0c;此方法我在python对象与类中已经展示过了 注意&#xff1a;在方法中引用类成员变量一定要记得使用self关键字引用…

Elasticsearch:倒数排序融合 - Reciprocal rank fusion

警告&#xff1a;此功能处于技术预览阶段&#xff0c;可能会在未来版本中更改或删除。 Elastic 将尽最大努力修复任何问题&#xff0c;但技术预览中的功能不受官方 GA 功能的支持 SLA 约束。 倒数排序融合&#xff08;RRF&#xff09;是一种将具有不同相关性指标的多个结果集组…

蓝牙资讯|Canaly发布2023Q1全球可穿戴腕带设备报告

根据市场调查机构 Canalys 公布的最新报告&#xff0c;2023 年第 1 季度全球可穿戴腕带设备出货量为 4100 万台&#xff0c;同比下降 1%。 其中&#xff0c;本季度全球基础手环市场受到厂商和消费者更关注大屏设备影响&#xff0c;出货量为 750 万台&#xff0c;同比下降 24%…

Vue中如何进行拖拽与排序功能实现

Vue中如何进行拖拽与排序功能实现 在Web应用程序中&#xff0c;拖拽和排序功能是非常常见的。在Vue中&#xff0c;我们可以使用一些组件库来实现这个功能&#xff0c;例如sortablejs和vuedraggable。本文将介绍如何使用vuedraggable组件来实现Vue中的拖拽和排序功能。 什么是v…

Selenium Python教程第7章:Selenium编程其它功能

7. Selenium其它功能 7.1 Action Chains 动作链功能 WebDriver只能模拟针对特定元素的click, send_keys 操作&#xff0c;无法执行鼠标移动、悬浮、按键&#xff0c;选择菜单等操作&#xff0c;需要通过 Action Chains 类来操作 如下面操作&#xff0c;打开主菜单项后&#x…

实战:用dockerfile创建镜像实现springboot项目容器化

文章目录 前言技术积累docker基本操作命令dockerfile简介dockerfile指令说明 实战演示创建dockerfile创建挂载目录构建dockerfile启动容器完成验证 写在最后 前言 docker容器化方案是当下流行的服务部署方式&#xff0c;在软件领域举足轻重。我公司的测试、线上环境都采用dock…

选择最适合你的云服务器:腾讯云、华为云、阿里云对比

云服务器是一种基于云计算技术的服务器&#xff0c;它可以为企业提供高效、灵活、安全的运行环境。目前市场上有很多云服务器的选择&#xff0c;其中腾讯云、华为云和阿里云是最受欢迎的三个品牌&#xff0c;下面我们来看看它们各自的优势。 腾讯云的优势在于其强大的技术支持…

谷粒商城p45-自动装配-stream流-lambda表达式

软件&#xff1a;idea、postman、virtual box 服务&#xff1a;gulimall-product 请求路径&#xff1a;http://localhost:10000/product/category/list/tree 启动&#xff1a;启动idea product模块&#xff0c;启动vm&#xff0c;启动docker mysql controller代码 自动装配C…