AIGC数据处理与存储解决方案

news2024/11/18 22:26:26

2023年数智中国AIGC科技周· AI云智上海专场在普陀区召开。活动以“智能涌现”、“算力突围”、“超越现实”三大篇章开启,第一篇章以“智能涌现”开幕、重塑数实融合终极愿景;第二篇章“算力突围”,以AI为引擎,以计算为基石,构筑数字底座;第三篇章“超越现实”,引领“空间计算”新时代,进入“虚实相生”新阶段。

杨冠军 腾讯云存储解决方案专家架构师

针对在AIGC的场景下,如何解决在AIGC训练过程中数据的存储和数据处理的问题,杨冠军从三个方面进行介绍与解读:一是AIGC对存储提的新需求;二是介绍腾讯云可以给用户提供的整体存储解决方案;三是腾讯云提供的整体数据处理方案。

AIGC的新需求:模型训练与应用推理的述求

我国每年产生的数据量呈现非常大的增长趋势,这个前提还是前两年AIGC场景仍未出现的情况。而现在从UGC到AIGC以后,相信整个行业产生的数据量会比这个更为庞大,如何处理这些数据,这些数据怎么应用到系统上?这都对数据存储带来了更大的需求和挑战。

从最初收集的原始数据,基于这些数据做数据处理,产生对应预处理后的数据,然后再给后面的训练模型,可以看到在整个模型训练的过程当中,会带来很大的数据量增长,也带来了对数据的统一存储的需求。

腾讯云对此训练场景总结的需求有三点:一是数据湖的统一存储。在整个AIGC的过程当中,数据存储的量非常大,它带来的存储需求就需要用数据湖来解决,避免数据孤岛的问题。二是在各个业务的处理过程当中,数据流动的需求,这些数据如果用一些传统的文件存储的话,就会遇到数据孤岛的问题,因此需要一个统一存储来对其提供服务。第三是高吞吐和低延迟,在AIGC的场景下,GPU的算力是稀有和昂贵的,客户希望整个训练是跑的越快越好,对GPU使用的越满约好,这就对底层的存储提出了一个要求:越快的把数据读出来,越快的提供给上层训练,这样价值才是最高的。

在AIGC业务处理流程中,应用推理场景核心需求主要由内容审核与数据智理两部分组成。将训练好的模型部署后,并通过服务模式提供给用户,通常的逻辑就是用户提供prompt,基于prompt生成一些数据。无论是文生文,文生图,还是视频等,这都要海量数据的存储,在腾讯云上都是通过对象存储来提供。

而在这些数据生成的过程当中,基于有国家安全合规的监管要求,就需要用到腾讯云提供的内容审核和数据处理的能力。同时针对这些数据,用户希望它能够有一些数据智理的功能,这里基于我们对AIGC业务的梳理,用了一个智能的智,后面会详细的介绍该需求。

腾讯云存储解决方案

AIGC的整体存储解决方案,总共用到了腾讯云的三种产品:对象存储COS、GooseFS、GooseFSx。从最原始的数据集上云、到模型训练、推理应用、内容治理中的数据存储,腾讯云提供了一站式的整体存储解决方案。

AIGC的整体存储解决方案,总共用到了腾讯云的三种产品:对象存储COS、GooseFS、GooseFSx。从最原始的数据集上云、到模型训练、推理应用、内容治理中的数据存储,腾讯云提供了一站式的整体存储解决方案。

最左边显示的是腾讯云提供的专门的数据迁移上云服务,可以把用户收集到的数据、或友商上的数据导入腾讯云COS对象存储上。中间这部分描述的就是我们提到的一站式存储解决方案,最底层是腾讯云海量存储的底座-COS对象存储,上面通过GooseFS和GooseFSx两种产品,来完成AIGC场景下数据预处理的加速、模型训练中的POSIX访问的需求。

在数据爆炸性增长的时代,对象存储永远是最合理的存储底座,上面这个图是腾讯云对象存储COS的整体服务框架,在这个架构当中,最底层就是腾讯云自研的分布式对象存储引擎Yotta,它可支持单集群1万台服务器,单集群EB级的存储,对原始的数据和AIGC生成的数据做统一数据湖存储是非常适合的。另外COS对象存储提供了标准、低频、归档、深度归档等多种存储类型,支持通过生命周期管理的方式来做合适的降本,让客户在拥有一个海量的存储系统的同时,并且不会付出太高的存储成本。

在对接客户的数据预处理需求中,我们发现通常节点本地有很多的空闲磁盘可以利用,腾讯云GooseFS是一个分布式缓存系统,可以有效的把计算节点的这些磁盘利用起来,来加速对底层对象存储的访问,提供更高的读性能给上层应用。另外GooseFS也支持常用的多种协议,包括了HDFS、FUSE及S3协议。在不同的应用场景下,GooseFS可以有效的提升上层应用访问COS的性能,基本有2到10倍的性能提升。

下面介绍下GooseFS在数据预处理场景下的最佳实践,其部署方案主要有低成本、高性能及高可靠三个特点。低成本:GooseFS Worker部署在计算节点上,利用计算节点NVME SSD作为缓存介质,提供PB级别缓存空间;高性能:通过VPC网络打通数据流,多节点可以构建TB/s的吞吐能力;高可靠:GooseFS Master 单独部署,3节点通过RAFT协议保证GooseFS集群的高可靠性。

在AIGC的训练场景里,很多的访问都是基于文件的接口,这跟传统的HPC或者是AI的场景里通过POSIX的语义访问是一致的,我们的GooseFSx产品提供的就是完全兼容POSIX语义访问的能力。

相比传统客户自己部署分布式文件存储服务,GooseFSx整体有如下优点:

1.全托管云服务,一键式购买发货,省去部署、调测等运维工作;

2.完全兼容POSIX文件语义,工作负载无需进行任何改动;

3.按创建容量计费,按量付费、弹性扩容,避免资源闲置;

4.自动部署客户端软件,将GooseFSx挂载到主机的本地目录;

5.采用分布式架构,性能随节点扩展而线性增长;

下面我重点介绍下GooseFSx与COS数据的自由流动的能力,这在基于COS提供数据湖统一存储,然后上层应用需要POSIX文件访问的场景里是非常重要的。

1.COS 上的 Object 按照 Key,以相同的目录结构射到 GooseFSx 上;

2.关联多个存储桶:数据加速器能同时对多个存储桶进行加速;

3.双向流动:可以从 COS 加载,并将新生产的文件沉降到 COS;

4.自定义流动的策略:基于整个存储桶或自定义前缀、进行加载或沉降;

5.增量同步:再次加载或沉降时,仅同步增量的数据

6.数据流动任务:管理数据流动,输出任务报告,保障数据流动完整性,简单易用;

腾讯云数据处理方案

数据万象是腾讯云提供的一站式智能平台,整合腾讯领先的AI技术,打造数据处理百宝箱,提供图片处理、媒体处理、内容审核、文件处理、AI内容识别、文档服务等全品类多媒体数据的处理能力。

腾讯云内部有多个实验室,数据万象整合了腾讯前沿实验室技术能力,如AI实验室:基础算法;优图实验室:图像识别;多媒体实验室:编解码研究;天御实验室:安全封控算法,结合腾讯行业领先业务最佳实践,如腾讯音乐:降噪、分离等场景;腾讯视频:视频指纹、编解码等场景;腾讯新闻:图文审核等场景;腾讯全民K歌:歌唱评分、音乐标签等场景。

在AIGC的场景里面,目前大家关注最多的还是文本,随着后面多模态模型的发展,会有越来越多的文生图、文生音频、文生视频场景,甚至还会有基于图片生成一段视频的方式。数据万象对这些能力都是覆盖的,包括图片的处理、音频处理及视频处理的能力。

国家一直有内容合规和审核的要求,在数据万象的功能中,还包括了内容审核的能力,无论是针对文本、音频还是视频,数据万象都提供了一整套的内容审核解决方案和能力,基于存储在COS上的数据,你可以非常方便的做业务内容审的对接。

总结来看,腾讯云提供的一站式数据处理有如下三点优势:

一是便捷的介入,无论是对象存储还是数据万象,都是一体化的平台,提供一站式的存储和内容审核的方案;

第二是精准的模型,基于腾讯云对接的众多客户,我们针对AIGC场景做了专门的审核模型和一些专项的优化;

第三是更高的性能,数据存储在对象存储上,其调用审核和处理都是在同一个园区内,这个流程加载和处理的时延是非常低的;

数据万象还有一个很棒的功能就是智能检索服务。在AIGC的时代,随着自己拥有的数据越来越多,数据检索的需求也会越来越大。比如我们在个人电脑上有几十GB的数据,检索到合适的数据就会让人感觉困难,而随着AIGC的发展,用户拥有的数据会到TB、PB的量级,这个情况下要搜索到合适的数据就会更加困难。在大模型出现后,我们发现通过这种智能检索服务对文本、图片、视频做特征提取,然后把提取后的特征存储下来,后面再基于输入的文本做对应特征的匹配,这样搜索的丰富度和准确性都是很高的。

当前腾讯云数据万象支持的智能检索服务有:文搜图,图搜图,图搜视频,视频搜视频。智能检索服务的底层是数据万象的大语言模型,它是腾讯云基于授权的商业数据以及自有业务数据进行预处理抽取,机器翻译,模型清洗,图文配对,人工校对等处理工作,然后训练出来的一个垂直领域大模型。

在实际的应用需求中,智能检索服务可以有效的应用在多种图片检索场景,总结而言,数据万象有三点优势:

一是通过智能扣图来建立特征库更为精确;

二是支持文本、图片的多种的检索形态,提供API/SDK的访问方式较为便捷;

三是底层是腾讯云数据万象的自研的大语言模型,它可提供秒级的检测的结果;

总结回顾

围绕AIGC,腾讯云提供了生成、审核、智理全生命周期的存储和数据处理解决方案,分为下面三个部分:

第一是数据生成,腾讯云有对象存储COS、GooseFS、GooseFSx对接我们的大语言模型的训练,推理平台的构建;

第二是内容审核,通过数据万象中的内容审核来做一些合规性的审核,以此保证整个平台的安全;

第三是数据智理,通过智能检索的服务来做特征的匹配和查询,快速满足上层业务需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/928181.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java——一个简单的使用JPanel和JButton来设计窗口界面

这段代码是一个简单的使用JPanel和JButton来设计窗口界面的例子。 在designFrame方法中,创建了一个JFrame对象作为窗口,然后创建了两个JPanel对象作为面板,分别用于放置按钮。 创建了两个JButton对象作为按钮,并设置按钮的文本内容…

【谷粒商城】环境搭建一:Docker容器部署

Docker容器部署 VMware虚拟机安装 参考:VMware虚拟机安装Linux教程 Docker安装 Linux安装Docker # 1.更新apt包索引 sudo apt-get update# 2.安装以下包以使apt可以通过HTTPS使用存储库(repository) sudo apt-get install -y apt-transpor…

火狐渗透浏览器免安装版

火狐浏览器免安装版 📎网安火狐Firefox直接使用无需安装.zip 火狐浏览器设置代理,方便burp抓包 参考:burpsuite简单抓包教程_burpsuite抓包_Xiongcanne的博客-CSDN博客

从程序员进阶到架构师再到CTO,该如何破解焦虑?

引言 我们生活的时代,变化太快,许多人在职业发展的道路上都会面临焦虑与迷茫。这种焦虑源自我们内心的不安,也来自于外部形势的变化。 对于技术从业者来说,焦虑并不会随着职业发展而自动消失,不同职场阶段会面临不同的…

SSL/TLS协议的概念、工作原理、作用以及注意事项

个人主页:insist--个人主页​​​​​​ 本文专栏:网络基础——带你走进网络世界 本专栏会持续更新网络基础知识,希望大家多多支持,让我们一起探索这个神奇而广阔的网络世界。 目录 一、SSL/TLS协议的基本概念 二、SSL/TLS的工作…

VBA_MF系列技术资料1-167

MF系列VBA技术资料 为了让广大学员在VBA编程中有切实可行的思路及有效的提高自己的编程技巧,我参考大量的资料,并结合自己的经验总结了这份MF系列VBA技术综合资料,而且开放源码(MF04除外),其中MF01-04属于定…

苹果新健康专利:利用 iPhone、Apple Watch 来分析佩戴者的呼吸情况

根据美国商标和专利局(USPTO)公示的清单,苹果获得了一项健康相关的技术专利,可以利用 iPhone、Apple Watch 来分析佩戴者的呼吸系统。 苹果在专利中概述了一种测量用户呼吸功能的系统,通过 iPhone 上的光学感测单元&am…

前端需要理解的设计模式知识

设计模式的原则:1. 单一职责原则(一个对象或方法只做一件事) 2. 最少知识原则(尽可能少的实体或对象间互相作用) 3. 开放封闭原则(软件实体具有可扩展且不可修改) 设计模式是通过代码设计经验总…

2021年12月 C/C++(四级)真题解析#中国电子学会#全国青少年软件编程等级考试

第1题:移动路线 桌子上有一个m行n列的方格矩阵,将每个方格用坐标表示,行坐标从下到上依次递增,列坐标从左至右依次递增,左下角方格的坐标为(1,1),则右上角方格的坐标为(m,n)。 小明是个调皮的孩子,一天他捉来一只蚂蚁,不小心把蚂蚁的右脚弄伤了,于是蚂蚁只能向上或向右…

基于PIC单片机温度-脉搏-DS18B20温度-液晶12864显示(proteus仿真+源程序)

一、系统方案 1、上电初始化液晶第一行显示脉搏,第二行显示温度,第三行显示模式,第四行显示强度;按下K1按键可以选择模式,催眼模式或治疗模式。 2、治疗模块下,可以通过K2、K3修改强度。 二、硬件设计 原理…

探索数据湖中的巨兽:Apache Hive分布式SQL计算平台浅度剖析!

文章目录 ◆ Apache Hive 概述1.1 分布式SQL计算1.2 Hive的优势 ◆ 模拟实现Hive功能2.1 元数据管理2.2 解析器2.3 基础架构2.4 Hive架构 ◆ Hive基础架构3.1 Hive架构图3.2 Hive组件3.2.1 元数据存储3.2.2 Driver驱动程序3.2.3 用户接口 ◆ Hive部署4.1 VMware虚拟机部署步骤一…

SSL/CA 证书及其相关证书文件(pem、crt、cer、key、csr)

数字证书是网络世界中的身份证,数字证书为实现双方安全通信提供了电子认证。数字证书中含有密钥对所有者的识别信息,通过验证识别信息的真伪实现对证书持有者身份的认证。数字证书可以在网络世界中为互不见面的用户建立安全可靠的信任关系,这…

互联网医院成品功能你有哪些看法?

随着信息化的飞速发展,医疗领域信息化程度日益加深,医院对于信息化的自身需求越来越高,由此也推动了医院信息化的快速发展。而即时医疗信息服务能够解决普通老百姓医疗信息匮乏、花大钱看小病、就医不及时等基本问题。通过智能手机、平板电脑…

国内Android应用市场上线流程

国内各个Android应用市场的上线流程可能会有所不同,特别是在审核方面。此外,某些应用市场可能有一些特殊的政策和要求,您需要仔细阅读并遵循这些要求,以确保您的应用能够顺利上线并保持在市场上。在整个过程中,与市场的…

重磅丨《欧盟电池和废电池法规》最新发布!

《欧盟新电池法》 8月17日,欧盟官方公示满20天的《欧盟电池和废电池法规》(文中简称《新电池法》)将正式生效。 根据《新电池法》,自2027年起,动力电池出口到欧洲必须持有符合要求的“电池护照”,记录电池…

Spring与Mybatis集成且Aop整合(放飞双手,迅速完成CRUD及分页)

目录 一、概述 二、集成 ( 1 ) 为什么 ( 2 ) 优点 ( 3 ) 实例 三、整合 3.1 讲述 3.2 整合进行分页 带我们带来的收获 一、概述 集成是指将不同的组件、系统或框架整合在一起,使它们能够协同工作,共同完成某个功能或提供某种服务。在软件开发中&…

M1/M2打开Parallels Desktop提示“由于临界误差,不能启动虚拟机”解决办法

M1/M2安装Parallels Desktop 18.3.2PD虚拟机后,安装win11或者打开原有win系统提示由于临界误差,不能启动虚拟机。 解决方法: 很简单! 关闭系统SIP,重新安装PD18虚拟机激活即可。

4G模组EC20 网卡udhcpc获取IP但是没有设置IP

使能网卡: ifconfig usb0 up dhcp获取ip,虽然没有报error,但是很显然没有设置进配置 获取ip命令:udhcpc -i usb0 非正常现象: 正常现象: 解决方法: (1)rootfs 创建文件夹…

资深网络工程师的网络排障全过程,太强了!【附工具下载】

下午好,我的网工朋友 我们知道,交换机是局域网中一种很重要的网络设备,它的工作状态与客户端系统的上网状态息息相关。 可是,在实际工作过程中,交换机的状态很容易受到外界的干扰,那样一来局域网中就会出…

打印所有声母,韵母组合汉语拼音并显示到表格中

最近辅导孩子学习语文:声母,韵母。现在将其组合起来。打印所有拼音集合 以下是整理出的有关拼音的内容。 声母(23个): b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s、y、w。 韵母&#xff0…