数据湖存储在大模型中的应用

news2024/11/25 14:34:27

9月5日,浪潮信息新产品“互联网+AIGC”行业巡展在深圳举行。本次巡展以“智算 开新局·创新机”为主题,腾讯云存储受邀分享数据湖存储在大模型中的应用,并在展区对腾讯云存储解决方案进行了全面的展示,引来众多参会者围观。

ChatGPT 的横空出世为市场带来了一道曙光,通用型人工智能在可预期的将来可以为各行各样带来生产力的提升。会中腾讯云高级产品经理林楠主要从大模型的发展回顾、对存储系统的挑战以及腾讯云存储在大模型领域中的解决方案等三个角度出发,阐述存储系统在大模型浪潮中可以做的事情。他表示:为了满足大模型领域的需求,达成提高性能、降低成本的双目标,腾讯云提供了完整的IaaS产品大模型解决方案。数据湖存储可以帮助企业一站式解决数据采集、清洗、训练和消费等环节的存储需求,有效降低存储成本,提升数据使用效率,为大模型的训练和应用提供更好的支持。

图片

为什么模型越来越大

对存储系统而言,通用型人工智能也属于应用的一种,那么了解大模型的应用机制和核心需求对存储系统的设计也至关重要。回顾大模型的发展史,我们可以看到在过去的几年发展时间里,早期基于Transformer架构的模型使用小数据集、小参数量就可以完成训练,而现如今则快速迭代到需要大数据集,大参数量的架构。

研究人员关于大模型在通用型人工智能领域的模型性能表现展开了非常多的研究。大模型的“涌现”特性让越来越多人员认可了模型规模对性能表现的决定性作用。同时在OpenAI的研究中,研究人员也发现:在使用相同数量的计算资源进行训练时,更大的模型可以在更少的更新次数后达到最优的性能;模型性能随着训练数据量、模型参数规模的增加呈现幂律增长趋势。

图片

大模型对存储系统的挑战

回顾GPT3的论文可以发现,大模型的整体框架中包括了数据的采集、清洗、预训练、微调、推理等多个阶段。我们从基础设施、数据和算法这三个层面来看大模型这一新的技术和应用形态到底需要的是什么。

在基础设施层面,最关键的其实是效率,通过高性能的GPU,网络和存储服务等基础服务,尽可能地压缩模型训练时间,提升资源利用率;同时,通过平台化的PaaS乃至SaaS服务,进一步提升基础设施的运维人效比,降低训练中断带来的损失。

在数据层面则需要解决数据质量的问题。如何从浩瀚的互联网中获取并存储大量公开数据集,并通过高效的数据预处理技术筛选出来高质量、可靠的训练数据集,是获取优秀模型性能的关键前置环节。

在算法层面则需要关注确保模型的产出符合业务预期,一方面是提供高质量的内容产出,另一方面则需要确保内容是符合相关规范和要求的。

所以,大模型的这些技术特点,总结出来是存储系统中的“多快好省”。“多”指支持海量分布式存储;“快”意味着解决数据快速访问和传输需求,提升GPU效率,降低训练成本;“好”需要解决内容质量和合规问题;“省”则强调通过软硬件技术降低实际成本。

图片

腾讯云存储在大模型领域中的解决方案

为了应对大模型的技术需求,腾讯云在IaaS、PaaS和SaaS等不同产品方向均提供了多样的技术支持手段,主要体现为三个“快”:

  • 数据读取快:GooseFS数据加速,提供高性能存储,为AI集群训练快速提供数据。

  • 训练速度快:高性能计算集群HCC通过自研服务器提供最新代次A800、H800实例。通过TACO Train加速套件,提供软硬件协同优化,支持训练性能提升30%以上。

  • 网络交换快:基于自研星脉网络架构,提供最高3.2Tbps RDMA网络,结合自研拥塞控制算法及TCCL集合通信库加速分布式训练通信效率。

在存储视角下,我们回顾大模型整体技术框架中会涉及存储诉求的环节:

  • 数据采集环节。通过对象存储的海量分布式存储和高可用的公网接入能力,支持多种不同来源的结构化、半结构化、非结构化数据的快速接入。

  • 数据清洗环节。真实用于训练用的数据量只有几十TB级,但原始数据集规模却异常庞大,可以达到PB级。数据清洗环节需要支持高效、可靠地将原始数据清洗成训练所需的产出。

  • 数据训练环节。主要分为训练数据的预加载和Checkpoint写入两个环节。为了尽可能提升宝贵的GPU资源的利用率,这两环节都需要尽可能地压缩耗时,因此需要高IOPS、大吞吐的存储系统。

  • 推理和应用环节。大模型的推理和应用环节对存储的诉求与当前大数据/AI中台对存储的需求大致相同,需要注意的是,基于生成式AI产出的内容更需要关注数据治理,确保内容的合规性。

图片

腾讯云存储团队针对大模型推出了综合性的数据湖存储解决方案,主要由对象存储、数据湖加速器GooseFS和数据万象CI等多款产品组成。 

对象存储服务作为统一的数据存储池,提供了快速、便捷的公网接入、数据传输和海量存储能力。基于腾讯云自研的分布式对象存储引擎Yotta,它可支持单集群1万台服务器,单集群百EB级的存储;对象存储也提供了丰富的数据生命周期管理能力,可以很低成本地存储海量的公开数据集。

图片

数据加速器GooseFS可以将训练数据加载到GPU内存、本地盘或者可用区全闪存储集群等不同级别的缓存中,缩短IO路径,提升数据访问性能。相比起从对象存储COS中直接读取,GooseFS可以提供亚毫秒级的数据访问延迟、百万级的IOPS和Tbps级别的吞吐能力,有效提升数据清洗和训练的效率。针对大模型的Checkpoint写入场景,我们还提供了GooseFSx这一全兼容POSIX语义的高性能存储服务,提供高速的数据写入能力。

图片

数据万象是腾讯云提供的一站式智能平台,整合腾讯领先的AI技术,打造数据处理百宝箱,提供图片处理、媒体处理、内容审核、文件处理、AI内容识别、文档服务等全品类多媒体数据的处理能力。针对生成式AI的内容产出,数据万象能够基于腾讯内部的丰富业务实践,提供非常好的数据合规治理能力。

图片

除了数据合规治理能力之外,数据万象还提供了多模态检索能力。这一能力是基于授权的商业数据和自有业务进行预处理抽取,机器翻译,模型清洗,图文配对,人工校对等处理工作,然后训练出来的一个垂直领域大模型;可以有效解决海量数据情况下智能检索的诉求。

图片

上述的这一套完整的解决方案,腾讯云存储团队也通过TStor产品系列输出到私有化环境中,匹配私有大模型的客户诉求。TStor产品系列旨在打造“公私一体”的存储平台,将公有云存储能力延伸到私有环境中,提供可靠稳定的存储能力和数据处理能力。

图片

未来,基于大模型这一新技术的应用和业态将会日趋丰富。腾讯云存储将进一步提升存储的基础设施能力,丰富数据治理特性,为广大客户群体提供可靠、智能、高效的分布式存储底座。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1029490.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

A股20年数据回测结果mysql数据查询 phpadmin

编辑 数据库登录使用 1.登录mysql数据库管理台 phpadmin 访问地址: http://121.43.55.160:888/phpmyadmin_c77c64465f15a891/index.php 用户名:root 密码: root 2.切换到阿里云服务器 3 数据库密码 用户名:readonly 密码&am…

堆的OJ题

🔥🔥 欢迎来到小林的博客!!       🛰️博客主页:✈️林 子       🛰️博客专栏:✈️ 小林的算法笔记       🛰️社区 :✈️ 进步学堂       &am…

【数据结构】二叉树的·深度优先遍历(前中后序遍历)and·广度优先(层序遍历)

💐 🌸 🌷 🍀 🌹 🌻 🌺 🍁 🍃 🍂 🌿 🍄🍝 🍛 🍤 📃个人主页 :阿然成长日记 …

2023最新Nmap安装和使用详解,超详细教程

【点击文章末尾卡片,先领资料再阅读哦~】👇 文章目录 【点击文章末尾卡片,先领资料再阅读哦~】👇 Nmap概述功能概述运行方式 Nmap安装Nmap参数详解目标说明主机发现端口扫描端口说明和扫描顺序服务与版本探测脚本扫描操作系统探测…

C++输入流和输出流介绍

C 又可以称为“带类的 C”,即可以理解为 C 是 C 语言的基础上增加了面向对象(类和对象)。在此基础上,学过 C 语言的读者应该知道,它有一整套完成数据读写(I/O)的解决方案: 使用 scan…

DAZ To UMA⭐二.设置DAZ导出的变形内容 和 获取模型纹理贴图位置

文章目录 🟩 设置DAZ导出的内容1️⃣ 找到要导出的参数名称2️⃣ 打开导出面板3️⃣ 设置导出规则举例 : 导出身体Assets🟦 获取模型纹理贴图🟩 设置DAZ导出的内容 设置参数有两个目的: DAZ可以进行模型的参数调整,例如胖瘦等等,那如何将这些调整后的数值一起导出到FBX中…

Window通过VMWare搭建Linux集群后,将虚拟机暴露到宿主机局域网中,实现个人服务器搭建

目录 一、目的二、实现的方法 2.1 保证VMnet8为NAT模式2.2 获取虚拟机IP后,与宿主机进行端口绑定2.3 查看宿主机端口配置是否生效2.4 宿主机的端口准入规则设置2.5 效果 一、目的 解决宿主机通过VMware WorkStation安装了虚拟机后,宿主机所在的局域网…

A股风格因子看板 (2023.09 第07期)

该因子看板跟踪A股风格因子,该因子主要解释沪深两市的市场收益、刻画市场风格趋势的系列风格因子,用以分析市场风格切换、组合风格景露等。 今日为该因子跟踪第7期,指数组合数据截止日2023-08-31,要点如下 近1年A股风格因子收益走…

开源日报 0821:帮你修复老旧照片

这篇文章总结了几个开源项目的特点和优势。其中包括了 Python 资源列表、金融研究工具、动画精灵程序、游戏和旧照片修复项目等。这些项目提供了丰富的功能和技术支持,用户可以根据自己的需求进行定制和改进。总的来说,这些开源项目为开发者和用户提供了…

在如今内卷严重的背景下,程序员该如何提高自己的收入,享受美好人生?

无论是当今程序员行业,还是各行各业,内卷都非常严重,好多人都处于了一种卷又卷不过,躺又躺不平的境地,十分的难受,那么作为一个程序员而言,该如何在这样的境地下提高自己的收入,享受…

动力节点老杜JavaWeb笔记(全)

Servlet 关于系统架构 系统架构包括什么形式? C/S架构B/S架构 C/S架构? Client / Server(客户端 / 服务器)C/S架构的软件或者说系统有哪些呢? QQ(先去腾讯官网下载一个QQ软件,几十MB&#xff…

Innodb底层原理与Mysql日志机制

MySQL内部组件结构 Server层 主要包括连接器、词法分析器、优化器、执行器等,涵盖 MySQL 的大多数核心服务功能,以及所有的内置函数(如日期、时间、数学和加密函数等),所有跨存储引擎的功能都在这一层实现&#xff0c…

1536. 排布二进制网格的最少交换次数;754. 到达终点数字;1106. 解析布尔表达式

1536. 排布二进制网格的最少交换次数 核心思想:贪心。枚举每一行,然后去找离这行最近的满足要求的那一行。我们用j保存每一行的最后一个1,那么尾部的0个数为n-1-j,每一行需要的0个数为n-i-1,所以得出结论 i > j。然…

asp.net网站的建立及运行

点击创建新项目 在输入框中输入asp.net,并选择图中的 点击下一步 点击创建 然后,右键,添加,新建项 选择web窗体 点击添加 点击视图,工具箱 选择一个label,记住这个id 空白处右键,查看代码 添…

usmile F10 系列数字牙刷:数字化刷牙体验的新巅峰

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页: 🐅🐾猫头虎的博客🎐《面试题大全专栏》 🦕 文章图文并茂&#x1f996…

51单片机4【玩转开发板】

1.开发板完全介绍 1.配件 2.开发板主板及板载原件 1.单片机 (1)注意不要装反了,凹槽的一面向上是正的 (2)不要再开电的时候取下或者装上。 2.单片机工作必备的外围电路 1.晶振 2.复位电路 3.电源供电电路 4.USB下载…

NLP文本生成全解析:从传统方法到预训练完整介绍

目录 1. 引言1.1 文本生成的定义和作用1.2 自然语言处理技术在文本生成领域的使用 2 传统方法 - 基于统计的方法2.1.1 N-gram模型2.1.2 平滑技术 3. 传统方法 - 基于模板的生成3.1 定义与特点3.2 动态模板 4. 神经网络方法 - 长短时记忆网络(LSTM)LSTM的核心概念PyTorch中的LST…

漫画 | 两年,我学会了所有的编程语言!

本文想要探讨的一个话题是:作为一个程序员,如何看待这么多的编程语言?是不是要学习?该怎么学习?其实很多人都有这样的体会,当你学会了一门语言以后,再去学习新的语言,难度会大大降低…

音乐随行,公网畅享,群辉Audiostation给你带来听歌新体验!

文章目录 本教程解决的问题是:按照本教程方法操作后,达到的效果是本教程使用环境:1 群晖系统安装audiostation套件2 下载移动端app3 内网穿透,映射至公网 很多老铁想在上班路上听点喜欢的歌或者相声解解闷儿,于是打开手…

10分钟设置免费海外远程桌面

前言 本教程将向您介绍如何使用 Amazon Lightsail 服务的免费套餐轻松搭建属于您的远程桌面。依托于 Amazon 全球可用区,您可以在世界各地搭建符合您配置需求的远程桌面。 本教程需要先拥有亚马逊云科技海外账户。现在注册亚马逊云科技账户可以享受12个月免费套餐…