AI 与数据的智能融合丨大模型时代下的存储系统

news2024/11/17 15:41:05

WOT 全球技术创新大会2024·北京站于 6 月 22 日圆满落幕。本届大会以“智启新纪,慧创万物”为主题,邀请到 60+ 位不同行业的专家,聚焦 AIGC、领导力、研发效能、架构演进、大数据等热门技术话题进行分享。

近年来,数据和人工智能已成为推动各行业创新和增长的关键力量。但如何将数据与人工智能融合,从而创造更大的价值,是企业都在寻找的答案。在 WOT 全球技术创新大会《AI 与数据的智能融合》专场中,来自腾讯云的专家分享了腾讯云在数据管理与人工智能领域的技术成果和成功案例,并探讨二者如何智能融合为企业提供更高效、更智能的数据服务。

图片

大模型时代下的存储系统

在当前时代的发展中,企业正逐步利用大规模的对象存储来构建企业级数据湖和智能存储服务,存储系统正朝着更加弹性、高效和智能的方向发展,以满足企业在数据处理和利用方面日益增长的需求。随着大模型的出现,存储系统还需要满足大模型训练和推理过程中对数据规模、性能和稳定性的多样化需求,以及在处理海量数据的同时保证对高价值数据的高性能访问,实现大规模存储与高性能访问的平衡,确保大模型的高效训练和推理能力。

腾讯云是如何应对多样化的存储需求的呢?首先,腾讯云通过全球基础设施,在 21个地区部署 3200+ 加速节点,为企业提供卓越、稳定的公网接入和传输能力,满足企业安全、高效、可靠的数据迁移需求。在过往的数据迁移案例中,我们曾经支持过数十 PB 甚至上百 PB 数据的稳定迁移。

其次,腾讯云全自研对象存储引擎 YottaStore 能够为大模型训练和推理提供非常坚实的底座支持。在数据接入层面,腾讯云自研了无状态的弹性接入集群,支持丰富的公网接入和弹性伸缩能力;在存储引擎层面,腾讯云提供了原生多 AZ 的特性,提供了高可靠的存储能力;通过元数据分级存储等方式,单集群可以轻松扩展到百 EB 级别。通过深耕软硬件技术优化,腾讯云对象存储一方面可以满足业务不同规模、不同类型的数据存储需求;另一方面,也为业务提供了连续可用的服务,保证数据随时可访问,数据可以永久存储、不坏不丢。

存储系统存在着海量数据,企业如何找到真正需要用的数据?这就需要腾讯云自研的 GooseFS 三级加速服务来提升数据使用效率。GooseFS可以将数据智能存储到内存、计算集群的本地盘、或可用区的全闪存储集群等不同级别的缓存中,提供亚毫秒级的数据访问时延、百万级的IOPS和Tbps级别的吞吐能力,有效提升数据清洗效率。

AI 场景中存在海量文件的存储和访问需求,因此GooseFS 面临着海量元数据存储以及数据亲和性调度的挑战。为了应对海量元数据存储的压力,GooseFS 通过在高性能 KVDB 上实现了元数据分库分表、跨节点硬链等技术手段,有效提升元数据规模和平行扩展能力,当遇到主节点元数据访问故障时,整个元数据的访问可以快速迁移到备节点中。通过这些方式,GooseFS可以为大模型训练场景提供百亿级的热点元数据存储能力,提供百万级 IOPS,并且可以在高压情况下做到秒级故障恢复的能力。

图片

介绍完对象存储COS如何助力大模型框架提效降本,接下来腾讯云存储高级产品经理林楠还介绍了数据万象CI如何利用AI赋能存储系统。

第一个能力是一体化AI审核+存储。在大模型的生产框架中,无论是训练还是推理都会涉及内容安全的问题,因此腾讯云数据万象在存储端提前预置审核能力,通过对用户输入和AIGC模型输出这两个阶段的内容审核,可以充分保障内容安全的合规要求。数据万象的审核能力可以根据数据存储位置智能地调度处理集群,通过近存储侧的处理能力,从而提供更优的数据传输时延和更低的成本。

第二个能力是知识产权保护。现阶段 AIGC 产权并没有明确的标识物,但当 AIGC 的产物被大规模应用时,知识产权保护的需求也会随之而生,这个时候就需要明确声明产出物的模型主权。腾讯云数据万象的数字水印技术提供一站式明暗水印添加能力,可以在图片、视频,文本中嵌入机密信息,保证数字产品的版权保护和侵权溯源。

第三个能力是多模态智能检索。与传统的基于标签的标量检索不同,腾讯云数据万象MetaInsight通过预先计算数据的向量空间并存储于向量数据库中,再利用向量检索技术在向量空间内寻找相似的图片、文本或视频内容,从而实现更精准的全媒体类型跨模态检索能力。MetaInsight支持以文搜图、以图搜图等多种高性能的数据检索手段,覆盖了上千个细分场景,可以帮助客户快速建设检索应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1891311.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springboot+vue+mybatis前台点菜系统+PPT+论文+讲解+售后

21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人们所认识,科学化的管理,使信息存储达到…

【操作系统】进程管理——调度基础(个人笔记)

学习日期:2024.7.3 内容摘要:调度的概念、层次,进程调度的时机,调度器和闲逛进程,调度算法的评价指标 调度的基本概念 有一堆任务需要处理,但由于资源有限,有的事情不能同时处理,这…

virtualbox+Ubuntu部分窗口显示错乱

如下图: 窗口标题显示错乱,跟一般乱码不一样。 解决办法: 在virtualbox设置中,显示选项卡,取消勾选启用3D加速 也可参考此链接:linux ubuntu 中vscode中央窗口显示出现异常/显示错误_开发工具-CSDN问答

替换数据库是换肤还是换心?

上周末参加了自主可控数据库的沙龙。在会上我进行了主题演讲《围追堵截下,Oracle还能在国内立足么》 先听结论吧 我个人认为在很长一段时间还是你可以立足的。IDC最近公布的数据如下。本地部署中,Oracle居然是第一位的。这个数据是超出我想象的。去O都…

【机器学习】Datawhale-AI夏令营分子性质AI预测挑战赛

参赛链接:零基础入门 Ai 数据挖掘竞赛-速通 Baseline - 飞桨AI Studio星河社区 一、赛事背景 在当今科技日新月异的时代,人工智能(AI)技术正以前所未有的深度和广度渗透到科研领域,特别是在化学及药物研发中展现出了巨…

[我靠升级逆袭成为大师]韩漫日漫无删减完整版,免费在线观看漫画

[我靠升级逆袭成为大师]韩漫日漫无删减完整版,免费在线观看漫画 不能多说,怕审-核不过,自己看图吧。 目前统计【统计日期:2024-07-03】: 完结的有:420部。 连载的有:308部,持续更…

关于工时表软件,知道这四点就够了

在当今商业环境日益加快的节奏中,分秒必争。对于企业而言,了解内部时间的使用情况是确保效率、优化资源分配和提高生产力的关键。工时表在这里发挥着不可或缺的作用,它不仅是行政工作的组成部分,更是明确运营、加强项目管理和简化…

程序员的加油站,各类技术文章,可视化技术,在线源码资源,在线实用工具,数据爬虫接口持续集成更新中

先挂网址:https://wheart.cn 可视化大屏模板与设计,在线预览 上百例可视化模板 技术文章、资源下载等各类资源导航页 echart在线实用demo 各种在线工具提升开发效率 echart在线代码模板

Raylib 坐标系适应与GPU绘制参数

通过750 - 鼠标坐标&#xff0c;把原点在左上角的鼠标坐标变成左下角 实现输入数据后的坐标系同GPU原点在左下角坐标相同&#xff0c; 比数组0&#xff0c;0对应左上角好&#xff0c; 此时实际上数组0&#xff0c;0对应左下角 #include <raylib.h> // 感受&#xff1a…

8624 多项式系数累加和

这个问题可以通过使用数学的导数规则来解决。对于一个多项式&#xff0c;它的导数可以通过将每一项的系数乘以它的指数&#xff0c;然后降低该项的指数来得到。这个过程可以重复M次来得到多项式的M阶导数。然后&#xff0c;我们可以简单地将所有项的系数相加来得到结果。 以下…

Android Studio上传新项目到Gitee

一、在Gitee上创建仓库 首先需要再Gitee上创建仓库 1、在Gitee中新建仓库 2、输入仓库信息 3、生成仓库地址 创建成功会生成一个仓库地址&#xff0c;格式如下&#xff1a; https://gitee.com/test/compose_mvi_demo.git二、Android Studio 上传项目到Gitee 1、在Android …

GPT-4预测股票涨跌更更更准了!东京大学新框架LLMFactor提升显著 | ACL 2024

花一秒钟就看透事物本质的人&#xff0c;和花一辈子都看不清的人&#xff0c;注定是截然不同的命运。——唐柯里昂 除了少数天纵奇才&#xff0c;大多数人都是通过知识和阅历的不断积累&#xff0c;才逐渐锻炼出观察和判断事物变化规律的能力。而如果说有一件事&#xff0c;可以…

数据库系统概论 | MySQL | 数据定义 | 单表查询 | 嵌套查询 | 连接查询 | 带有谓词的查询

数据定义 模式的定义与删除 定义模式与删除模式&#xff1a; CREATE SCHEMA S_C_SC; DROP SCHEMA S_C_SC;进入模式&#xff1a; USE S_C_SC;建立学生表&#xff1a; CREATE TABLE Student (Sno CHAR(8) PRIMARY KEY, Sname VARCHAR(20) UNIQUE, Ssex CHAR(6), Sbirthdate …

从零构建vue3+ts项目(三):vite plugin与打包配置

一、Svg配置 每次引入一张 SVG 图片都需要写一次相对路径&#xff0c;并且对 SVG 图片进行压缩优化也不够方便。 vite-svg-loader插件加载SVG文件作为Vue组件&#xff0c;使用SVGO进行优化。 插件网站https://www.npmjs.com/package/vite-svg-loader 1. 安装 pnpm i vite-svg…

反射(通俗易懂)

一、反射(Reflection) 反射就是:加载类&#xff0c;并允许以编程的方式解剖类中的各种成分(成员变量、方法、构造器等) 动态语言&#xff0c;是一类在运行时可以改变其结构的语言&#xff1a;例如新的函数、对象、甚至代码可以被引进&#xff0c;已有的函数可以被删除或是其他…

【软件测试】快速定位bug,编写测试用例

作为一名测试人员如果连常见的系统问题都不知道如何分析&#xff0c;频繁将前端人员问题指派给后端人员&#xff0c;后端人员问题指派给前端人员&#xff0c;那么在团队里你在开发中的地位显而易见 &#xff0c;口碑、升值、加薪那应该是你遥不可及的梦 但是作为测试人员来说&…

强化学习的数学原理:值迭代与策略迭代

概述 从课程地图上可以看出来&#xff0c;这是本门课程中第一次正式的介绍强化学习的算法&#xff0c;并且是一个 model-based 的算法&#xff0c;而在下一节课将会介绍第一个 model-free 的算法&#xff08;在 chapter 5&#xff09;。而这两节和之前所学的 BOE 是密切相关的&…

比较多种msvcr110.dll丢失的解决方法,哪一种更加方便?

当遇到“msvcr110.dll丢失”这种问题时&#xff0c;这通常意味着你的系统中缺少了Microsoft Visual C 2012 Redistributable的组件。下面我将详细介绍五种解决方法&#xff0c;并对比它们的优点。 一.多种msvcr110.dll丢失的解决方法 方法 1: 重新安装Microsoft Visual C 2012…

在CMD中创建虚拟环境并在VSCode中使用和管理

1. 使用Conda创建虚拟环境 在CMD或Anaconda Prompt中执行以下代码以创建一个新的虚拟环境&#xff1a; conda create -n my_env python 3.8 这样会创建一个名为 my_env 的环境&#xff0c;并在Anaconda环境目录下生成一个相应的文件夹&#xff0c;包含该虚拟环境所需的所有…

Steam夏促商店不是人民币/商店怎么改回人民币教程

游戏玩家们的狂欢节来了&#xff0c;steam夏促进行中&#xff0c;G胖真够舍得&#xff0c;好多游戏低到无法想象&#xff0c;steam其实也不止是游戏方面比较优秀&#xff0c;相关的拓展也非常全面&#xff0c;比如说创意工坊就是很强的一个功能&#xff0c;简单来说就是给玩家创…