大型语言模型LLM的数据管理与应用

news2024/12/30 1:36:52

大型语言模型(LLM)风靡全球,尤其是 OpenAI 的最新发展。LLMs 的魅力来自于其理解、解释和生成人类语言的能力,而这曾被认为是人类的专属领域。像 CoPilot 这样的工具正在迅速融入开发人员的日常生活,而以 ChatGPT 为动力的应用也正日益成为主流。

LLM 的流行还源于其对普通开发人员的可及性。随着许多开源模型的出现,每天都有新的科技初创公司推出某种基于 LLM 的问题解决方案。

数据被称为 "新石油"。在机器学习中,数据是用于训练、测试和验证模型的原材料。要创建准确、可靠和稳健的 LLM,高质量、多样化和具有代表性的数据必不可少。

建立自己的 LLM 可能具有挑战性,尤其是在收集和存储数据方面。处理大量非结构化数据、存储这些数据并管理访问权限,只是您可能面临的部分挑战。在本篇文章中,我们将探讨这些数据管理挑战。具体来说,我们将探讨

  • LLM如何工作以及如何从现有模型中进行选择
  • LLM使用的数据类型
  • LLM 的数据管道和摄取

我们的目标是让您清楚地了解数据在LLM中的关键作用,让您掌握在自己的LLM项目中有效管理数据的知识。

首先,让我们对LLM有一个基本的了解。

LLM如何工作以及如何从现有模式中进行选择

在高层次上,LLM 的工作原理是将单词(或句子)转换为称为嵌入的数字表示。这些嵌入可以捕捉词的语义和词与词之间的关系,使模型能够理解语言。例如,LLM 可以了解到 "dog "和 "puppy "这两个词之间的关系,并将它们在数字空间中的位置靠得更近,而 "tree"(树)这个词则离得更远。

LLM 最关键的部分是神经网络,它是一种受人脑功能启发的计算模型。神经网络可以从训练数据中学习这些嵌入及其关系。与大多数机器学习应用一样,LLM 模型需要大量数据。通常情况下,用于模型训练的数据越多、质量越高,模型的准确性就越高,这意味着你需要一个管理 LLM 数据的好方法。

权衡现有模式时的考虑因素

对于开发人员来说,幸运的是,目前有许多 LLM 的开源选项,其中有几种流行的选项可以用于商业用途,包括:

  • 多莉(由 Databricks 发布)
  • 开放式 LLaMA(元再现)
  • 还有很多很多

面对如此广泛的可选列表,选择合适的开源 LLM 模型可能很棘手。了解 LLM 模型所需的计算和内存资源非常重要。模型大小(例如,30 亿个输入参数与 70 亿个输入参数)会影响运行和演练模型所需的资源量。请根据您的能力考虑这一点。例如,有几个 DLite 模型可以专门在笔记本电脑上运行,而不需要高成本的云资源。

在研究每种 LLM 时,重要的是要注意模型是如何训练的,以及它一般面向哪种任务。这些区别也会影响您的选择。在规划 LLM 工作时,您需要筛选开源模型选项,了解每个模型的最佳优势,并预测每个模型需要使用的资源。

根据您需要 LLM 的应用或环境,您可以从现有的 LLM 开始,也可以选择从头开始训练 LLM。对于现有的 LLM,您可以原封不动地使用它,也可以使用能代表您所考虑的任务的其他数据对模型进行微调。

要选择最适合您需要的方法,就必须充分了解用于训练 LLM 的数据。

LLM使用的数据类型

在训练 LLM 时,使用的数据通常是文本数据。然而,这些文本数据的性质可能千差万别,因此了解可能遇到的不同类型数据至关重要。一般来说,LLM 数据可分为两类:半结构化数据和非结构化数据结构化数据,即以表格数据集表示的数据,不太可能用于 LLM。

半结构化数据

半结构化数据以某种预定义的方式组织起来,并遵循一定的模型。这种组织方式允许对数据进行直接搜索和查询。就 LLM 而言,半结构化数据的一个例子可能是文本语料库,其中每个条目都与某些标签或元数据相关联。半结构化数据的例子包括

  • 新闻文章,每篇文章都与一个类别(如体育、政治或技术)相关联。
  • 客户评论,每条评论都附有评分和产品信息。
  • 社交媒体帖子,每个帖子都与发帖用户、发帖时间和其他元数据相关联。

在这种情况下,LLM 可能会根据新闻文章来预测类别,根据评论文本来预测评分,或者根据社交媒体帖子的内容来预测帖子的情感。

非结构化数据

另一方面,非结构化数据缺乏预定义的组织或模型。这种数据通常文字较多,还可能包含日期、数字和事实,因此处理和分析起来更加复杂。在LLM中,非结构化数据非常常见。非结构化数据的例子包括

  • 书籍、文章和其他长篇内容
  • 采访或播客的文字记录
  • 网页或文件

由于没有明确的标签或组织标记,非结构化数据对于 LLM 训练来说更具挑战性。不过,它也能产生更通用的模型。例如,在大量书籍语料库中训练出来的模型可以学会生成逼真的散文,GPT-3 就是这种情况。

我们已经看到,数据是 LLM 的核心,但这些数据是如何从原始状态转变为 LLM 可以使用的格式的呢?让我们把注意力转移到所涉及的关键流程上来。

LLM 的数据管道和输入

获取和处理 LLM 数据的基本要素在于数据管道和数据摄取的概念。

什么是数据管道?

数据管道是原始、非结构化数据与经过全面训练的 LLM 之间的通道。它们能确保数据得到正确的收集、处理和准备,使其为 LLM 建立过程中的训练和验证阶段做好准备。

数据管道是一套将数据从源头传输到目的地并进行存储和分析的流程。通常包括

  • 数据提取: 从数据源提取数据,数据源可以是数据库、数据仓库,甚至是外部 API。
  • 数据转换:原始数据需要清理并转换成适合分析的格式。转换包括处理缺失值、纠正不一致的数据、转换数据类型或对分类变量进行一次性编码。
  • 数据加载:将转换后的数据加载到存储系统中,如数据库或数据仓库。这些数据可随时用于机器学习模型。

当我们谈到数据摄取时,我们指的是这些管道流程的前端,处理数据的获取和使用准备。

LLM的数据管道是什么样的?

虽然 LLM 的数据管道可能与数据团队使用的大多数管道大致重叠,但 LLM 在管理数据方面引入了某些独特的挑战。例如

  • 数据提取: LLM的数据提取往往更加复杂、多样,而且计算量很大。因为数据来源可能是网站、书籍、成绩单或社交媒体,每个来源都有其细微差别,需要采用独特的方法。
  • 数据转换:由于 LLM 数据源种类繁多,每种数据的每个转换步骤都不尽相同,因此需要独特的逻辑将数据处理成 LLM 可用于训练的更标准的格式。
  • 数据加载:在许多情况下,数据加载的最后一步可能需要超常规的数据存储技术。非结构化文本数据可能需要使用 NoSQL 数据库,这与许多数据管道使用的关系型数据存储不同。

LLM 的数据转换过程包括与自然语言处理(NLP)类似的技术:

  • 标记化:将文本分解为单个单词或 "标记"。
  • 删除停顿词:删除常用词,如 "and"、"the "和 "is"。不过,根据 LLM 的训练任务,为了保留重要的句法和语义信息,可能会保留停顿词。
  • 词根:将单词还原为词基或词根形式。

可以想象,将所有这些步骤结合起来,从各种来源摄取海量数据,会形成一个极其复杂和庞大的数据管道。为了帮助您完成任务,您需要好的工具和资源。

数据输入常用工具

数据工程领域有几款非常流行的工具可以帮助您完成复杂的数据摄取过程,这些过程构成了数据管道的一部分。如果您正在构建自己的 LLM,那么大部分开发时间都将用于收集、清理和存储用于训练的数据。 帮助您管理 LLM 数据的工具可分为以下几类:

  1. 管道协调:监控和管理数据管道流程的平台。
  2. 计算:大规模处理数据的资源。
  3. 存储:数据库:用于存储有效LLM培训所需的大量数据。

让我们逐一详细了解一下。

管道协调

Apache Airflow是一个流行的开源平台,用于以编程方式编写、调度和监控数据工作流。通过它基于Python 的编码界面,您可以创建复杂的数据管道,该界面用途广泛且易于使用。Airflow 中的任务是以有向无环图(DAG)的形式组织的,其中每个节点代表一个任务,边代表任务之间的依赖关系。

Airflow 广泛用于数据提取、转换和加载操作,是数据摄取过程中的重要工具。Linode 的Marketplace 提供Apache Airflow,便于设置和使用。

计算

除了使用 Airflow 等工具进行管道管理外,您还需要能够可靠地大规模运行的充足计算资源。当您从多个来源摄取大量文本数据并进行下游处理时,您的任务将需要能够按需扩展的计算资源--最好是横向扩展。

Kubernetes 是可扩展计算的热门选择之一。Kubernetes 具有灵活性,并能与包括 Airflow 在内的许多工具很好地集成。通过利用托管的 Kubernetes,您可以快速、简单地启动灵活的计算资源。

存储

数据库是数据采集过程中不可或缺的部分,是采集数据经过清理和转换后的主要目的地。可以使用各种类型的数据库。使用哪种类型取决于数据的性质和使用案例的具体要求:

  • 关系数据库使用表格结构来存储和表示数据。对于关系明确、数据完整性至关重要的数据,关系数据库是一个不错的选择。虽然您的 LLM 将依赖于非结构化数据,但 PostgreSQL 等关系数据库也可以处理非结构化数据类型。
  • NoSQL 数据库:NoSQL 数据库包括面向文档的数据库,不使用表格结构来存储数据。它们是处理大量非结构化数据的良好选择,具有高性能、高可用性和易扩展性。

作为数据库存储 LLM 数据的替代方法,一些工程师喜欢使用分布式文件系统。例如AWS S3 或Hadoop。虽然分布式文件系统是存储大量非结构化数据的不错选择,但它需要额外的精力来组织和管理大型数据集。

对于来自Marketplace 的存储选项,您可以找到托管 PostgreSQL和托管 MySQL。这两个选项都很容易设置并插入到 LLM 数据管道中。

虽然小型 LLM 可以使用较少的数据进行训练,也可以使用较小的数据库(如单个 PostgreSQL 节点),但较重的用例需要处理大量数据。在这种情况下,您可能需要一个PostgreSQL 集群来支持大量数据,为 LLM 管理数据,并可靠地提供数据。

在为LLM选择管理数据的数据库时,要考虑数据的性质和案例的要求。您采集的数据类型将决定哪种数据库最适合您的需求。您的用例要求(如性能、可用性和可扩展性)也是重要的考虑因素。

有效、准确地摄取数据对于 LLM 的成功至关重要。通过适当使用这些工具,您可以为您的管道建立可靠、高效的数据摄取流程,处理大量数据,确保您的 LLM 拥有学习和提供准确结果所需的内容。

总结

LLM如雨后春笋般涌现,为科技领域打开了一扇新的大门。开发人员很容易获得这项技术,但他们管理 LLM 数据和利用数据来培训新的 LLM 或微调现有 LLM 的能力将决定他们的长期成功。

如果您正在开始一个 LLM 项目,那么在进入深水区之前,您需要了解一些基本知识。为了达到最佳效果,LLM 需要摄取大量非结构化数据,这一过程包括从源数据中提取、预处理、转换和导入。执行这些任务需要 Airflow 和 Kubernetes 等工具进行管道协调,并需要可扩展的计算资源。此外,LLM 培训常用数据的非结构化性质需要 PostgreSQL 等数据存储选项,这些选项可以通过集群可靠地大规模使用。

完整文章来源:大型语言模型LLM的数据管理与应用-国外VPS网站icon-default.png?t=N7T8https://www.vps911.com/gwvpstj/1550.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1624650.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用 Redux 管理全局状态

Redux 是个状态集中管理框架,状态可以跨组件共享,状态更新后,调用监听器。其实状态可以认为就是个全局对象,为什么要做一个框架来管理呢?如果我们自己使用一个全解字典来管理状态是不是也行?如果不做任何控…

不同语言在算法使用方面的差异(Java 、C++篇)

由于我认为的会了是能得到结果了,所以我亲自去把题解的C代码给改成了Java的,尽管代码和逻辑上的高度统一。编译器还是报错了。 第三个死都过不去。而且后面的还超时了。 这使我十分怀疑是不是超时或者空间不够所导致的。但是去问讯飞星火,它…

自有道 更从容——林肯携“四大美式客厅”登陆北京国际车展,以传世豪华 优雅从容为品牌注入全新内涵

【北京 2024年4月25日】传世豪华,优雅从容。今日,第十八届北京国际汽车展览会正式启幕。作为美式豪华品牌的引领者,林肯在此次北京车展为“豪华 自有其道”注入全新内涵,并以车展首创的四大美式客厅形式诠释不同的人生境界&#x…

AWS制作WordPress在国内外的利弊?

AWS作为全球领先的云计算服务供应商,为WordPress提供了强大且灵活的托管环境,使用AWS来搭建和运行WordPress无疑是个不错的选择。即便如此使用AWS制作还是会有些许利弊,九河云作为AWS的合作伙伴来为读者们仔细探讨AWS在WordPress的利弊。 利&…

diskMirror docker 使用容器部署 diskMirror 服务器!!!

Welcome to diskMirror-docker 获取项目 这个项目是 diskMirror-spring-boot 镜像版本的项目,您可以使用下面的命令将此项目编译为一个镜像! # 进入到您下载的源码包目录 cd diskMirror-docker# 点击脚本来进行版本的设置以及对应版本的下载 设置 和 编…

Linux 安装 nvm,并使用 Jenkins 打包前端

文章目录 nvm是什么nvm下载nvm安装设置 nvm 环境变量设置 Jenkins 打包命令 nvm是什么 nvm全英文也叫node.js version management,是一个nodejs的版本管理工具。nvm和n都是node.js版本管理工具,为了解决node.js各种版本存在不兼容现象可以通过它可以安装…

artifactory配置docker本地存储库

​一、概述 本地 Docker 存储库是我们部署和托管内部 Docker 镜像的位置。实际上,它是一个 Docker 注册表,能够托管的 Docker 镜像的集合。通过本地存储库,你可以保存、加载、共享和管理自己的 Docker 镜像,而无需依赖于外部的镜像…

简单的jmeter脚本自动化

1、创建线程组,定义自定义变量,保存请求默认值 2、用csv编写测试用例 3、使用csv文件读取测试用例 4、创建http请求 5、添加相应断言 6、运行结果

vue中使用echarts实现X轴动态时间(天)的折线图表

项目要求x轴以一天为间隔&#xff0c;时间是动态返回的数据&#xff0c;折线图平滑展示 实现代码如下&#xff1a; <div class"echarts-main"><v-chart ref"echarts" :options"options" /> </div>// 局部引入vue-echarts im…

ios CI/CD 持续集成 组件化专题一 iOS 将图片打包成bundle

一、 创建 选择 macos 下的Bundle 二 、取名点击下一步 三、Base SDK 选择ios 四 、Build Active Architecture Only 五、Installation后面的内容删除 六、Skip Install 选择NO 七、Strip Debug Symbols During Copy 中"Release"项设置为 "YES" 八、COM…

ansible-copy用法

目录 概述实践 概述 ansible copy 常用用法举例 实践 # with_fileglob 是 Ansible 中的一个循环关键字&#xff0c;用于处理文件通配符匹配的结果 # 遍历 addons/files/*.txt文件 # dest: /data/soft/test 目录要事先存在,才能正常的copy - name: Copy configuration filescop…

【threejs教程8】threejs添加3D场景键盘控制

【完整效果代码位于文章末】 目录 准备工作 目标 步骤1&#xff1a;初始化按键状态对象 步骤2&#xff1a;监听键盘事件 步骤3&#xff1a;编写事件处理函数 步骤4&#xff1a;更新相机移动方向 总结 完整代码如下 在3D应用开发中&#xff0c;用户交互是一个关键…

JS实现对用户名、密码进行正则表达式判断,网页跳转

目标&#xff1a;使用JS实现对用户名和密码进行正则表达式判断&#xff0c;用户名和密码正确时&#xff0c;进行网页跳转。 用户名、密码的正则表达式检验 HTML代码&#xff1a; <button type"submit" id"login-btn" /*onclick"login();alidate…

openstack界面简单修改

openstack Ubuntu主题登录界面修改修改登陆界面背景登录框边缘添加透明效果修改登录界面logo更换站点图片更换项目logo图片 本实验基于VMware17&#xff0c;使用Ubuntu2310搭建openstack-B版 Ubuntu主题 以下配置只对Ubuntu主题生效 登录界面修改 原界面 关闭登录界面域名输…

HTTP与HTTPS 对比,区别详解(2024-04-25)

一、简介 HTTP&#xff08;超文本传输协议&#xff0c;Hypertext Transfer Protocol&#xff09;是一种用于从网络传输超文本到本地浏览器的传输协议。它定义了客户端与服务器之间请求和响应的格式。HTTP 工作在 TCP/IP 模型之上&#xff0c;通常使用端口 80。 HTTPS&#xf…

百度沈抖:智能,生成无限可能

4月16日&#xff0c;Create 2024百度AI开发者大会在深圳举行。会上&#xff0c;百度集团执行副总裁、百度智能云事业群总裁沈抖正式发布新一代智能计算操作系统——百度智能云万源。它能管理万卡规模的集群&#xff0c;极致地发挥GPU、CPU的性能&#xff1b;它有强大的大模型作…

【树莓派】yolov5 Lite,目标检测,树莓派4B,推理v5lite-e_end2end.onnx,摄像头实时目标检测

文章目录 YOLOv5 Lite: 在树莓派上轻松运行目标检测1. 环境配置2. 克隆项目3. 安装依赖项4. 下载模型权重5. 理解end2end的含义6. 示例推理7. 文件介绍8. 把文件弄到树莓派4B执行9. 进一步尝试fp16的onnx&#xff08;行不通&#xff09;10. 视频流检测 这里有大概的环境配置&am…

太速科技-多路PCIe的阵列计算全国产化服务器

多路PCIe的阵列计算全国产化服务器 多路PCIe的阵列计算全国产化服务器以国产化处理器&#xff08;海光、飞腾ARM、算能RSIC V&#xff09;为主板&#xff0c;扩展6-8路PCIe3.0X4计算卡&#xff1b; 计算卡为全国产化的AI处理卡&#xff08;瑞星微ARM&#xff0c;算能AI&#x…

【预测】小米汽车电子电气架构的猜想

文章目录 前言 整车EEA 硬件平台 软件平台 总结 参考资料 前言 见《【Review】小米汽车发布会》 整车EEA 小米汽车整车电子电气架构方面的信息&#xff0c;小米官方并没有对外介绍&#xff0c;但是从近日流出的整车BOM和供应商列表中看到&#xff0c;车上各种控制器一个都…

四川易点慧电子商务:抖音小店引领潮流,先进模式打造电商新标杆

在当下数字化浪潮中&#xff0c;电子商务行业如日中天&#xff0c;四川易点慧电子商务有限公司以其独特的视角和前瞻性的战略布局&#xff0c;成功在抖音小店领域崭露头角&#xff0c;成为行业内的佼佼者。本文将深入剖析四川易点慧电子商务的成功秘诀&#xff0c;以及其在抖音…