深度解读AIGC存储解决方案

news2024/11/26 10:48:48

5月26日,2023数据基础设施技术峰会在苏州举办,腾讯云首席存储技术专家温涛受邀出席并分享了腾讯云领先的存储技术在AIGC场景中的应用,通过对AIGC业务流程和场景的提炼,从内容生成、内容审核和内容智理三要素介绍了如何智能的存储和管理数据。下面我们一起回顾下温涛的精彩分享。

从去年年底到今年年初,由新版本的ChatGPT发布开始,全球掀起了一股AIGC的话题狂潮。AIGC触发了内容生成的革命,也引爆了众多行业颠覆式的创新。人工智能突然就从高科技研究课题,演进为渗透到我们每个人生活中的商业产品。

AIGC是使用人工智能技术生成内容的工具,它包含了文本、音频、图像、视频的生成,以及这几者之间的跨模态生成。我认为AIGC的商业化落地节奏,大致可以分为三个阶段:

1.  通用场景的应用落地

2.  垂直行业的应用落地

3.  创新型综合场景的应用落地

  • 通用场景是基于单纯的文本、图片、音视频的AI生产内容技术,提供给设计、媒体、娱乐、客服咨询等没有太强行业属性的企业和个人,解决相对基础的AI市场需求。代表性的应用包括了ChatGPT和Midjourney。这个场景依赖的技术相对比较成熟,已经具有很多实际的商业化落地。

  • 垂直行业是进一步把AIGC的能力和具体行业特点相结合,提供给强行业属性的企业,来提升技术和服务水平,提高行业生产效率。比如自动驾驶和医疗生物基因。这类应用目前还处于商业化前的基于预训练基础之上的Fine Tuning阶段,技术方面的问题基本上能够得到解决,商业模式也比较明确,商业化落地节奏属于正在进行时。

  • 创新型综合场景所对应的行业,是比较新兴的具有前瞻性和实验性的场景,以机器人和元宇宙为代表。在这类场景,AIGC只是核心技术的一部分,还依赖硬件和商业模式等方案的创新。这类场景还处于技术储备和商业落地探索阶段。

目前腾讯云AIGC存储解决方案,聚焦在通用场景和垂直行业这两类AIGC应用的支持。尤其是在图片、音视频和自动驾驶领域有了很多尝试、验证和落地。

我们在实际项目中对AIGC业务处理流程进行了梳理。按照顺序,流程主要分为数据收集、数据预处理、特征工程、模型训练、应用推理这几个环节,也可以聚合为模型训练和应用推理两个阶段。

在实际的项目中,我们了解到客户对训练场景的存储能力有几个要求:

1.  由于在每一个环节的前后,都涉及对数据的存储、加工、管理和流动,所以需要一种数据湖形态的统一存储来简化对数据的管理,提高数据流动的效率,并减低数据流动所带来的成本

2.  大模型训练需要极高的算力,算力越大,训练速度越快,综合成本越优。训练过程中需要对数据进行读取和写入,需要存储性能和算力形成匹配,否则容易成为整个处理流程的短木板。

3.  鉴于对AIGC生成物的侵权和合规性要求,在推理阶段需要对生产的内容进行审核和治理。

通过对业务流程和场景诉求的总结提炼,AIGC的核心要素,可以归结为内容生成、内容审核和内容智理三个要素。其中内容生成包括大模型训练和推理平台构建;内容审核包括对图片、文本和音视频等生成物的内容审核和数据处理;内容智理包括对生成物的内容分类、标注、内容特征的生产和查询...腾讯云在AIGC场景的存储解决方案,就是依据这三个核心要素来进行设计的。

接下来,我会围绕这三个核心要素,从数据存储与管理的角度,分别介绍腾讯云的解决之道。

内容生成之道

我们使用了数据湖存储来满足场景的要求,利用对象存储COS实现了通过一种存储类型,来满足各个环节对存储的需求,无需数据迁移,即可实现数据的统一接入,和数据的自由流动。同时利用数据加速器GooseFS的缓存加速能力,大幅度提升了数据处理和训练性能。使用COS+GooseFS的数据湖存储方案,也大大降低了AIGC系统的存储成本。

什么是GooseFS?

GooseFS是一种利用计算侧资源实现数据缓存加速的存储服务,适用于大数据分析、AI、HPC、基因测序、渲染等多种场景,配合COS对象存储,为客户提供低成本高性能的存储能力。

GooseFS有以下几个特点:

1.  多协议支持:可以对接HDFS、FUSE和S3等多种协议;

2.  支持云原生部署:可以通过容器化部署,也可以和Hadoop进行集成;

3.  可以使用内存和SSD等不同性能的介质作为缓存介质,实现多级缓存,根据不同的缓存介质,GooseFS可以提供2~10倍的性能提升。

如何实现多级缓存加速?

面向不同的业务场景,会有不同的数据量和不同的性能要求。以AIGC场景为例,对于NLP和GPT场景,训练所需的数据量通常在10~100TB,所需的存储空间不大,但是IO模型属于每次字节级的读操作,对时延要求很高。使用GPU节点自带内存的剩余空间作为缓存的存储介质比较合适,不需要额外配置SSD。而对于ViT和Diffusion这类图片模型训练场景,数据量通常在100T~1PB,就不适合放在内存里,选用本地的SSD介质可以达到更优的性价比。对于需要长期存放的原始数据,就可以放在COS里做持久化,从而降低成本。通过GooseFS多级缓存加速机制,就能够精细化的满足各种不同场景的性能要求。

因为训练场景需要读取海量文件,就需要缓存系统支持对海量文件规模的管理能力。我们来看看GooseFS在水平和垂直两个方向分别是如何实现的。

  • 水平方向上,也就是在跨节点方向上,GooseFS 采用分布式元数据架构,通过分布式KV管理元数据,元数据规模可以按需横向线性扩展。

  • 垂直方向上,也就是在节点内部,GooseFS利用Numa绑核绑内存来部署KV进程,从而使单节点可以部署多个分布式KV进程。

通过上述两个方向上的技术,GooseFS可以支持管理百亿文件规模的元数据,满足单集群管理海量训练数据集的需求。

AIGC训练时到底能够支持多大的体量的文件数?如何保障存储系统性能?关键的点就是元数据管理。

GooseFS支持Master的多机并发读,元数据服务由一个Leader Master和若干Follower Master构成,Follower Master承载跟Leader一样的读流量,元数据QPS性能随着Master节点的数量呈线性增加。从而可以提供百万级QPS的元数据访问能力。

GooseFS也支持私有化部署,来构建混合云缓存方案。基于数据湖搭建混合云大模型训练平台,做到一份Dataset,多地训练。通过这个方案,在数据湖上保存一份数据,可以通过缓存的机制把数据带到任何计算相关的地点去。

除了数据加速以外,腾讯云面向AIGC训练场景提供了端到端的解决方案。基于腾讯云高性能计算集群HCC、TACO训练加速、TCCL网络加速、GooseFS数据加速,构建了AIGC大模型训练和推理应用平台。

  • 存储方面,依靠COS的海量存储能力+GooseFS的数据加速能力,提供高性能低成本的存储,可为AI集群训练快速提供数据。

  • 计算方面,高性能计算集群HCC通过自研服务器提供最新代次A800、H800实例。通过TACO Train加速套件,提供软硬件协同优化,支持训练性能提升30%以上。

  • 网络方面,基于自研星脉网络架构,提供最高3.2Tbps RDMA网络,结合自研拥塞控制算法及TCCL集合通信库加速分布式训练通信效率。

内容审核之道

腾讯云数据万象CI基于深度学习的文本、图片、音视频检测技术,结合腾讯深耕内容领域积累的海量训练数据,可以精准高效识别出生成数据中的敏感信息。提供包括色情、涉政、暴恐、广告等多种合规问题的审核能力。对AIGC的输入和输出环节进行把控,帮助客户规避运营风险。

CI整合了腾讯多个前沿实验室的技术能力,包括了AI实验室的基础算法能量流、优图实验室的图像识别能力、多媒体实验室对编解码的研究,以及天御实验室的安全风控算法。同时具备腾讯多年在泛互行业的实践经验。此外CI还打造了无代码,0基础入门,无需下载,省时好用的智能处理工具-智能工具箱,降低技术接入门槛。

内容智理之道

AIGC存储解决方案复用了腾讯企业网盘的一些能力,可以对AI生成物提供权限划分、在线编辑、协同办公等企业化文件管理能力,助力终端用户和企业客户更好的对AI生成物进行管理,提升工作效率。

总结

腾讯云存储解决方案,围绕AIGC,提供了涵盖内容生成、内容审核和内容智理的全生命周期的数据存储与管理解决方案,很好的做到了高性能和低成本两个目标方向的兼顾,为基于海量数据的AI训练提供了坚实的存储与管理的数据底座。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/718640.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

你可以对AI中台有所了解

一个AI中台覆盖从数据管理、数据标注、模型开发、部署上线到运营管理的AI能力研发与应用全生命周期建设和管理。作为企业AI能力的生产、应用和集中化管理平台,AI中台包括智能数据、模型开发、模型中心、预测服务、AI集市和平台管理等部分。 智能数据:提供…

基于JavaSpringBoot+Vue+uniapp微信小程序实现鲜花商城购物系统

博主介绍:✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专…

归并排序 与 逆序对数量

一、归并排序 题目: 给定你一个长度为 n 的整数数列,请你使用归并排序对这个数列按照从小到大进行排序,并将排好序的数列按顺序输出。 输入格式: 输入共两行,第一行包含整数 n。 第二行包含 n个整数(所有整…

Kubernetes(k8s)入门:核心组件详解

文章目录 写在前面一、ReplicationController(RC)1、官方解释2、举个例子3、小总结 二、ReplicaSet(RS)1、官方解释2、举个例子 三、Deployment(用的最多)1、官方解释2、举个例子(1)创建nginx_deployment.yaml文件(2&a…

MySQL学习基础篇(七)---单行函数

MySQL学习基础篇(七)—单行函数 1 什么是函数 函数在计算机语言的使用中贯穿始终,函数的作用是什么呢?它可以把我们经常使用的代码封装起来,需要的时候直接调用即可。这样既 提高了代码效率 ,又 提高了可维护性 。在 SQL 中我们…

学习笔记整理-UML建模与应用复习4-构架建模

在一个更高的层次描述一个应用系统的结构,包括系统组件和组件之间的关系,组件的部署情况,以及硬件设备之间的关系。 1、组件图 用于描述功能所在的组件位置以及它们之间的关系。 包括:组件、接口、以及各种关系。可以显示…

IAR中Zstack协议栈相关问题解决办法

IAR中Zstack协议栈相关问题解决办法 1、Warning[w52]: More than one definition for the byte at address 0x4b in common segment INTVEC. 如果遇到类似 Warning[w52]: More than one definition for the byte at address 0x4b in common segment INTVEC. It is defined i…

uniapp打包之配置MacOS虚拟机生成iOS打包证书

前言 uniapp是一款跨端开发框架,可用于快速开发iOS、Android、H5等多端应用。本文将详细介绍如何实现uniapp开发的iOS应用打包。 详细步骤 一、下载苹果原版镜像文件 点击此处下载 二、安装VMware uniapp打包iOS应用需要生成相应证书和P2文件,这些都需要用到I…

android ChkBugReport 的安装

参考地址: https://github.com/sonyxperiadev/ChkBugReport/wiki/How-to-install-it 1:先下载下来 git clone https://github.com/sonyxperiadev/ChkBugReport.git 然后在把这两个下载下来 http://sonyxperiadev.github.io/ChkBugReport/download/chkbugreport (Launcher sh…

前台-打印

插件 jsbarcode、uuid、vue-easy-print、vue-qr 主页面 <script setup lang"ts">import { ref } from vueimport PrintUser from ./printUser.vueconst easyPrint ref()const printDemo () > {setTimeout(() > {easyPrint.value.print()}, 1000)}…

kotlin constructor init companion object 与初始化by lazy

kotlin constructor init companion object 与初始化by lazy class MyDemo(private var v: Int) {init {println("init $v")}constructor(m: Int, n: Int) : this(m) {println("constructor $m $n")}//只初始化一次companion object {private var TAG &qu…

spring工程的启动流程?bean的生命周期?提供哪些扩展点?管理事务?解决循环依赖问题的?事务传播行为有哪些?

1.Spring工程的启动流程&#xff1a; Spring工程的启动流程主要包括以下几个步骤&#xff1a; 加载配置文件&#xff1a;Spring会读取配置文件&#xff08;如XML配置文件或注解配置&#xff09;来获取应用程序的配置信息。实例化并初始化IoC容器&#xff1a;Spring会创建并初…

台阶仪是干什么的?在太阳能光伏行业能测什么?

太阳能作为应用广、无排放、无噪声的环保能源&#xff0c;在近些年迎来快速发展&#xff0c;而在各类型的太阳能电池及太阳能充电系统中&#xff0c;多会镀一层透明的ITO导电薄膜&#xff0c;其镀膜厚度对电池片的导电性能有着非常重要的影响&#xff0c;因而需要对镀膜厚度进行…

IPETRONIK推出第三代测量模块,专为热管理、电动车测试打造

一 应用场景 车辆的热管理测试变得越来越重要&#xff0c;特别是在电动车领域&#xff0c;且精确的温度测量将给车辆的运行、性能以及乘客的舒适度带来直接影响。 • 热监测和验证&#xff1b; • 气候控制系统的功能测试&#xff1b; • 控制环路的监测&#xff1b; • 发…

Android CrashHandler全局异常

CrashHandler 介绍 Android 应用不可避免的会发生crash 即崩溃&#xff0c;无论程序写的多好&#xff0c;都会不可避免的发生崩溃&#xff0c;可能是由底层引起的&#xff0c;也有可能是写的代码引起的。当crash发生时&#xff0c;系统会kill掉正在执行的程序&#xff0c;现象…

CMake静态库动态库的构建和链接

cmake的基础知识&#xff1a;CMakeLists常用命令&#xff0c;在这里不再赘述。 Windows平台下可用cmake-gui生成vs的.sln工程&#xff0c;Linux平台下可以运行cmake命令。 动态库和静态库的构建 现有C工程目录结构如下&#xff1a; 静态库的构建 add.h #include <iost…

【kingbase数据库】kingbase查看所有表名

进入kingbase数据库&#xff0c;在数据库活动页面中选择要查询的数据库。 在SQL命令行工具中输入以下命令&#xff1a; SELECT relname FROM sys_class WHERE relkind r AND relnamespace (SELECT oid FROM sys_namespace WHERE nspname public);执行命令后&#xff0c;…

deeplabv3+源码之慢慢解析main.py(1)--get_argparser函数

deeplab v3源码 慢慢解析系列 本带着一些孩子们做&#xff0c;但本硕能独立看下来的学生不多。和孩子们一起再学一遍吧。希望孩子们和我自己都能坚持写下去吧。网上资料太多了&#xff0c;但不够慢&#xff0c;都是速成&#xff0c;没有足够的解释和补充&#xff0c;希望这次够…

EC200u-cn-4G模块连接OneNet上传GPS定位数据(MQTT协议)

一、前言 这篇文章介绍EC200U-CN 4G模块通过MQTT协议上传GPS数据到OneNet平台,完成地图数据显示的过程。 当前的主控芯片采用MC9S12XS128MAA,通过串口连接EC200U-CN实现联网功能,通过内置的MQTT协议指令,将采集的GPS数据上传到OneNet平台,联合百度地图实现位置显示。 下…

C#(四十七)之关于流的异常

一&#xff1a;Try-catch-finally 声明文件对象要在 Try-catch-finally 结构体外边声明 声明在try中的对象有作用域问题&#xff0c;其并不能影响finally中的程序 在catch中显示程序错误代码。 在finally中释放程序&#xff0c;关闭文件流。 二&#xff1a;using语句 1&a…