当大模型遇到数据仓库 HashData助力LLM规模化应用

news2024/10/6 22:29:47

6月30日,由 IT168主办的第十六届中国系统架构师大会(SACC2023)在北京开幕。本届大会以“数字转型 架构演进”为主题,议题涵盖AIGC大数据、多云多活、云成本等多个热门领域。

在会上,酷克数据首席科学家杨胜文发表了题为《当LLM遇到数据仓库》的主旨演讲,分享了对大模型热潮的观察和思考,并介绍了借助酷克数据研发的下一代高级分析和数据科学工具HashML,简化从数据处理、模型微调到知识增强的智能应用构建流程,助力LLM在企业实现规模化落地应用。

杨胜文表示,目前百亿级参数LLM已经具备优秀的语言理解和生成能力。在LLM技术还在快速演进的过程中,相对于千亿级参数模型,百亿级参数模型具有非常明显的成本优势,成为现阶段推动LLM在企业低成本、规模化落地的一个重要选项。

“一方面,通过模型的低成本私有化部署,可以解决很多企业对数据安全担忧的问题。另一方面,企业可以更加方便地利用数据仓库中已有的数据对模型进行微调,并结合HashData对向量数据的存储和高效检索的支持,快速构建知识增强的智能应用。”杨胜文介绍,在具体实施过程中,企业可以通过简单易用、算法丰富、性能卓越的AI开发工具HashML,让数据科学家、数据工程师、应用开发者无门槛地使用LLM。

酷克数据首席科学家杨胜文

LLM热潮下的冷思考

自去年11月底ChatGPT发布以来,国内外很多厂商都加大了对大语言模型的研发投入,各种模型与应用如雨后春笋,层出不穷。据中国科学技术信息研究所统计,截止今年5月,国内已发布10亿参数规模以上的大模型79个,俨然进入一场新的军备竞赛。

对于这波大语言模型引发的AI热潮,学术界尚存诸多不同的看法。有些科学家认为,应该暂停大型AI实验,以免给人类社会带来潜在的风险和危害。有些科学家认为,自回归语言模型并不能让机器实现人类水平的智能,无需过度担心,实现通用人工智能(AGI),需要有别的技术路线。

尽管学术界仍有争议,但这并未影响LLM应用遍地开花。围绕ChatGPT,开发者和企业不仅可以通过API访问OpenAI提供的服务来构建自己的AI应用,也可以在ChatGPT中使用各种插件,从而让ChatGPT变得更加强大。OpenAI也在近期推出了ChatGPT App,支持语音输入,并对更多国家和地区开放了服务。谷歌、微软等跨国公司也相继宣布在全线产品接入大语言模型能力。在国内,不少企业通过与AI服务提供商合作,尝试在产品研发或IT系统中引入大语言模型能力。

杨胜文表示,尽管大模型的应用前景非常广阔,但并非所有企业和创业者都可以在这个领域取得成功,喧嚣过后最终仍将回归到场景价值,回到企业对于成本与收益的考虑上来。站在客户的角度,需要考虑选择合适的场景,以较低的成本进行应用试点,来验证可以获得的收益,而不是一开始就要求客户投入大量的启动资金。

“对个人消费者而言,一般通过聊天服务和基于大语言模型的各种效率工具,基本能够满足大多数需求。”杨胜文表示,“但对于企业客户而言,往往需要将大模型的能力与自研产品或IT系统做集成甚至深度融合,这里面会面临一些问题。”

他指出,目前企业应用千亿级参数大语言模型通常有两种方式,访问公有云服务或私有化部署,这两种模式各有其优缺点。公有云服务的优点在于可以快速接入,可灵活选择服务提供商,但面临着监管合规、数据泄漏风险、专属模型成本高昂等问题;私有化部署可以解决企业对数据安全担忧的问题,企业也可以利用自有数据更加方便地对基础模型进行微调定制,但同样也面临使用成本高的问题,千亿级参数大模型对计算资源和技术人员水平都会有较高的要求。

杨胜文表示,在LLM技术还在快速演进的今天,应该充分发挥当前大语言模型的优势能力,也就是卓越的语言理解和生成能力。百亿级参数模型不论是推理还是微调,都有明显的成本优势,是推动LLM在企业低成本、规模化落地的一个重要选项。同时,日益繁荣的开源生态也为百亿级参数模型在企业应用落地创造了条件。当前已经出现了一些由研究机构和初创公司发布的开源模型,效果表现良好且遵循对商业使用非常友好的开源协议。

HashML大幅降低LLM应用门槛

数据作为企业非常重要的资产,如何通过数据分析、挖掘、建模,释放数据价值,是当前企业数字化建设的一个关键话题。数据仓库是企业实现数据存储、分析、处理和计算的核心场所。

长期以来,数据仓库主要用来满足企业的描述性分析需求,而业务价值更高、同时技术复杂度更高的预测性分析和决策性分析,目前仍未获得广泛应用。过去,行业内曾经尝试在数据仓库中实现诸如机器学习这样一些高级分析能力,但传统的In-Database机器学习解决方案支持的算法种类有限,且偏传统的算法居多,对深度学习的支持非常弱,运行效率也整体欠佳。

相比传统架构的数据仓库,HashData采用存算分离的架构,不仅能够通过SQL计算引擎对传统的数仓业务提供很好的支持,还能够借助ML/DL计算引擎实现对机器学习和深度学习的高效支持,其中包括对大语言模型微调和推理的支持。HashML就是酷克数据利用HashData强大的计算引擎打造的下一代In-Database高级分析和数据科学工具。

图1 HashML主要功能概览

HashML通过以下特性为企业提供了简单易用、效果优异的AI开发体验:

1、HashML提供了广泛的算法支持,特别是通过对深度学习框架的支持,能够支持各种深度神经网络算法,也对大语言模型的微调、推理以及基于大语言模型的智能应用搭建提供了良好的支持;

2、新算法的开发和引入变得非常容易,客户仅需关注神经网络结构的定义和实现,就能开发一种全新的深度神经网络算法;

3、HashML支持分布式并行训练和推理,能够根据数据规模和模型复杂度灵活调整并行度,大幅提高了模型训练和推理的效率;

4、HashML支持GPU加速,通过多机多卡分布式计算能够进一步提升运算效率;

5、HashML提供标准、统一、简洁的API接口,大幅降低了应用门槛;

6、HashML支持Python和SQL两种编程语言接口,开发者可以根据个人偏好自主选择;

7、HashML通过Python接口能够与繁荣的数据科学生态相融合,为数据科学家和机器学习工程师提供便捷的开发工具。

HashML作为HashData云数仓的一个扩展实现,与数仓共享统一的存储和计算资源,随数仓的部署提供开箱即用的AI能力,大幅降低了系统部署的成本和复杂度,为开发者提供了统一的数据查询、分析、建模环境。

“HashML首要设计目标就是简单易用,希望客户能够无门槛使用各种经典和最前沿的AI算法和模型能力来解决实际业务问题。”杨胜文表示,LLM与HashData为代表的业界领先的企业数据仓库相结合,使得从数据处理、模型微调到知识增强的智能应用构建的全流程变得更简单,推动LLM走向规模化应用。

图2 基于HashData的LLM低成本落地方案

在会上,杨胜文介绍了HashData与LLM相结合的两个应用案例:知识增强的智能问答(见图3)和Text2SQL(从自然语言生成SQL,见图4)。在知识增强的智能问答应用案例中,用户可以通过收集整理文档,并对文档进行解析、分块、编码,构造向量知识库。当用户输入一个问题时,对话机器人首先基于问题去知识库查询相关信息,然后构造合适的Prompt去请求大语言模型并获得生成的结果。当知识库存在与问题高度相关的信息时,语言模型就可以基于对这些信息的理解和摘要,生成高质量的回答。

图3 基于向量知识库的智能问答

在Text2SQL应用案例中,由于基础模型在自然语言转SQL方面的能力相对较弱,需要对基础模型进行微调。为此,团队准备了大概十几万条训练语料,利用HashML封装的LoRA方法进行了微调,在一张V100的卡上进行训练。为了实现更好的效果,在和机器人交互的时候,除了提供用户输入的查询请求,还需要提供实现该查询所需的数据表的Schema信息。Schema信息可以由用户提供,也可以在实际生产场景中,由机器人连接数据库自动获取。

图4 Text2SQL:从自然语言生成SQL

展望未来,杨胜文认为,未来大语言模型发展方向必定是多元化、普惠化,每个企业都可以利用大语言模型来提升智能化水平,实现降本增效。数据与大语言模型的紧密结合,将会为企业和社会创造巨大的价值。以HashData为代表的企业数据仓库,为这种结合提供了一个天然的平台。企业可以在自有数据上通过模型微调和应用创新,释放大语言模型的应用潜力,进而充分释放数据价值,实现新的增长点。基于数据仓库和大语言模型构建面向场景的智能应用,将成为企业智能应用开发的新范式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/704382.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

UWB超宽带定位技术的原理及定位方法

uwb定位技术即超宽带技术,它是一种无载波通信技术,利用纳秒级的非正弦波窄脉冲传输数据,因此其所占的频谱范围很宽。传统的定位技术是根据信号强弱来判别物体位置,信号强弱受外界 影响较大,因此定位出的物体位置与实际…

JAVA-编程基础-08-Java异常处理全面解析

Lison <dreamlison163.com>, v1.0.0, 2023.04.01 JAVA-编程基础-08-Java异常处理全面解析 文章目录 JAVA-编程基础-08-Java异常处理全面解析什么是异常Exception和Error的区别checked和unchecked异常”关于 throw 和 throws关于 try-catch-finally小结 try-with-resourc…

升级Xcode14.3,项目无法运行解决

报错&#xff1a;link command failed with exit code 1(use -v to see invocaiton) 原因&#xff1a;新版本Xcode删除了特定目录下的一些文件 解决&#xff1a; post_install do |installer|installer.pods_project.targets.each do |target|target.build_configurations.e…

O2OA(翱途)开发平台如何在流程表单中使用基于Vue的ElementUI组件?

本文主要介绍如何在O2OA中进行审批流程表单或者工作流表单设计&#xff0c;O2OA主要采用拖拽可视化开发的方式完成流程表单的设计和配置&#xff0c;不需要过多的代码编写&#xff0c;业务人员可以直接进行修改操作。 在流程表单设计界面&#xff0c;可以在左边的工具栏找到Ele…

Linux--显示当前路径下的所有文件指令:ls

一、ls是list的简写 二、语法&#xff1a; ls [选项] [目录或文件] 三、功能&#xff1a; ①对于目录&#xff0c;该命令列出当前目录下的所有子目录与文件。 ②对于文件&#xff0c;将列出文件名以及其他信息。 四、常用选项&#xff1a; 1.-a 列出目录下的所有文件&…

Java实现将数据转成xmind脑图(附有工具类)。

&#x1f61c;作 者&#xff1a;是江迪呀✒️本文关键词&#xff1a;Java、工具类、xmind、脑图、转换☀️每日 一言&#xff1a;昨日已成过去,未来充满可能,唯有珍惜现在。 [TOPC] 前言 当谈到Xmind时&#xff0c;这是一个非常流行的思维导图工具&#xff0c;可…

超级实用!详解Node.js中的path模块和events模块

文章目录 3. path 模块路径操作方法路径格式化方法路径拆分方法 4. events 模块EventEmitter 类创建事件对象注册事件处理函数触发事件一次性事件处理函数异步事件处理函数移除事件处理函数 继承 EventEmitter 类 3. path 模块 用于处理文件路径&#xff0c;包括解析、拼接、规…

删除MySQL中名字首尾固定关键字相同的表

删除MySQL中名字首尾固定关键字相同的表 SELECT CONCAT(drop table , group_concat(TABLE_NAME), ;) FROM information_schema.TABLES WHERE table_schema test AND TABLE_NAME LIKE t_%_history ;查看表列表 SHOW TABLES;通过上图观察发现所有的表都是以 t_ 开头 和以 _his…

Mybatis-Plus学习1

mybatis-plus需要两个依赖&#xff0c;一个lombok&#xff0c;一个mybatis-plus <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.5.1</version> </dependency> …

Service 基础

今天开始来分享Service 的基础知识&#xff0c;后续我们可以慢慢打磨&#xff0c;分享 Service 的进阶知识和原理 Service 基本概念 Service 是 K8S 最核心的概念了 我们可以通过创建 Service &#xff0c;为一组具有相同功能的容器应用提供一个统一的入口地址&#xff0c;并…

linux上搭建ftp服务

linux上搭建ftp服务简要过程。 1.安装 在目标主机上安装对应软件。 rpm -qa | grep vsftpd # 查看是否已经安装了vsftpd软件 yum install -y vsftpd # 安装2.配置 安装好了之后可在这个路径下编辑配置文件&#xff0c;按需配置&#xff0c;这里采用默认。 vi /etc/vsftp…

螺杆支撑座要怎么选?

螺杆支撑座是连接螺杆和电机的轴承固定座&#xff0c;使用螺杆支撑座可以获得高刚性、高精度的稳定的回转性能&#xff0c;这也是大部分厂商愿意使用的原因之一。 目前&#xff0c;市面上做螺杆支撑座的品牌还比较少&#xff0c;给大家选择的空间也不多&#xff0c;那么我们如何…

centos8运行cloudstack4.18

安装软件&#xff1a; mysql 5.7.42 node v10.24.0 git 2.34.1 jdk openjdk version "11.0.19" 2023-04-18 maven Apache Maven 3.8.3 (ff8e977a158738155dc465c6a97ffaf31982d739)自行配置&#xff1a;nfs 代码克隆地址&#xff1a; git clone https://git-wip-us…

Lesson1-1:OpenCV简介

图像处理 学习目标 了解图像的起源知道数字图像的表示 1 图像的起源 1.1 图像是什么 图像是人类视觉的基础&#xff0c;是自然景物的客观反映&#xff0c;是人类认识世界和人类本身的重要源泉。“图”是物体反射或透射光的分布&#xff0c;“像“是人的视觉系统所接受的图在…

ss客服让您在Facebook 的客户服务更便捷

ss客服让您在Facebook Messenger 的客户服务更便捷 在这个信息时代&#xff0c;新兴通讯软件蓬勃兴起&#xff0c;比如Facebook Messenger。事实证明&#xff0c;这对企业来说非常有利&#xff0c;同时突出了电子邮件、网络聊天和电话等传统渠道的局限性。在传统渠道上&#xf…

fastadmin表格列表内部自定义按钮

效果图&#xff1a; 直接上代码&#xff1a; 打开js渲染文件---》找到渲染原生的按钮&#xff1a; {field: "operate",title: __("Operate"),table: table,events: Table.api.events.operate,buttons: [//可多个按钮{name: "record", //名称tex…

vue + js 实现导出excel

效果如下图所示&#xff1a; 下面是具体的步骤&#xff1a; 第一步&#xff1a;安装依赖 **注意&#xff1a;**安装的时候注意版本号 npm install --save file-saver xlsx第二步&#xff1a;新建导出文件 Export2Excel.js /* eslint-disable */ import { saveAs } from f…

C#winform listBox组件批量删除

修改listBox组件属性&#xff1a;可以选中多个板坯号 选中板坯列表&#xff0c;在界面上点击删除按钮&#xff0c;触发删除方法deleteList&#xff1a; private void deleteList() { ListBox.SelectedIndexCollection sic listBoxProducts.SelectedIndice…

亚马逊云科技推出Amazon AppFabric,SaaS安全不断加码

亚马逊云科技近日宣布推出Amazon AppFabric来增强公司在软件即服务&#xff08;SaaS&#xff09;应用程序方面的现有投入。Amazon AppFabric是一项无代码服务&#xff0c;可以为客户提高安全性&#xff0c;管理水平和生产力。只需在亚马逊云科技管理控制台上点击几下&#xff0…

gerrit 遇到的问题汇总

更新远程代码 git pull --rebase 回退到指定版本 get reset --hard commitid 修改之前的提交 git commit --amend 问题一 本地提交了两个记录到远程&#xff0c;远程还没有合并&#xff0c;本地使用 git reset --soft HEAD~1 回退到了上一个提交&#xff0c;现在需要将本地…