多模态AI产业链全景梳理

news2025/1/8 6:11:18

当前AI模型从单模态向多模态演进,有望实现认知智能,是AI未来发展的明确趋势。

近期 AI 多模态模型不断取得突破性进展。

OpenAI 于11 月发布了 GPT-4 Turbo 且开放了 GPTs再次颠覆行业,GPTs短期上线数量已超3万,揭开AIGC应用生态序幕。

图片

海外初创公司PikaLabs正式推出的AI视频生成工具Pika1.0火爆全球,Pika1.0包括一个能生成和编辑 3D 动画、动漫、卡通、电影等各种风格视频的全新 AI 模型。

12月,谷歌紧随其后发布了其认为规模最大、功能最强大的人工智能模型Gemini,声称性能超越GPT-4和人类专家。

作为多模态大模型,Gemini 可以同 时识别和理解文本、图像、音频、视频和代码五种信息,且对信息的理解非常精准。有别于传统大模型对英伟达硬件及生态的依赖,Gemini 的训练来自 于谷歌的 TPU v4 和 v5e 的硬件支持。

图片

图片来源:Google

当前以Pika 1.0和Gemini为代表的AI多模态模型不断突破,或推动大模型应用领域加快落地并打开商业化空间。

以上两家也代表着挑战者对OpenAI和英伟达的强力反击,AI领域的高水平竞争正式进入了全新的阶段。

当前海外科技巨头之间多模态大模型的竞争日益激烈,同时驱动 着底层多模态大模型的能力不断突破,垂域应用遍地开花,AI 应用有望迎来快速爆发。

据市场分析机构IDC最新报告显示,2022年全球AI应用软件市场规模为640亿美元,预计到2027年将增加到2790亿美元,复合年增长率(CAGR)为31.4%。
 

01

多模态AI行业概览


人工智能领域研究一直致力于以技术实现计算机对于人类认知世界方式的高度效仿。

单模态交互是一个局限的、并不完整的模型,因此“多模态”研究大势所趋已十分明朗。

多模态学习(对应单模态)以多模态大规模数据为基础,同时利用多种感官进行学习,提供更丰富信息。

除传统的语言以及图像间的交互作用,其结合声音、触觉以及动作等多维度信息进行深度学习,从而形成更准确、更具表现力的多模态表示。

相比于单模态,多模态模型处理多种数据输入,结构上更复杂,可能涉及使用多个子网络,然后将其输出合并。

多模态模型的核心是处理和整合这些不同类型的数据源。这种模型可以捕获跨模态的复杂关系,使机器能够更全面地理解和分析信息,从而在各种任务中表现得更好。

AI模型走向多模态必然性的三大因素:跨模态任务需求+跨模态数据融合+对人类认知能力的模拟。

图片

来源:AWS,IBM Research,浙商证券、行行查

多模态AI以模态融合为核心技术环节,围绕“表征-翻译-对齐-融合-联合学习”五大技术环节,解决实际场景下复杂问题的多模态解任务。

多模态应用场景按架构可分为视频分类、事件检测、情绪分析、视觉问答、情感分析、语音识别、跨模态搜索、图像标注、跨模态嵌入、转移学习、视频解码、图像合成等。

多模态AI实现跨模态任务,应用场景丰富。能够实现基于文本、语音、图片、视频等多模态数据的综合处理应用,完成跨模态领域任务,应用于各种场景。

据布谷实验室统计,当前多模态内容主要应用于商业定制、游戏领域、影视领域、教育领域以及医疗领域五大行业。

多模态AI图示:

图片

根据技术迭代,多模态模型可以分为三个主要发展阶段。

2010年至今,深度学习为多模态研究带来了巨大的推动力,多模态模型已经达到了前所未有的准确性和复杂性。

这一阶段受益于四个关键因素的推动:1)大规模的多模态数据集;2)更强大的计算能力;3)研究者也开始掌握更为先进的视觉特征提取技术;4)出现了强大的语言特征抽取模型,包括Transformer架构。

多模态模型主要经历三个时代:

图片

数据来源:卡内基梅隆大学

02

多模态AI市场格局梳理


在 OpenAI 宣布 ChatGPT 实现联网及 支持图片、语音交流及与文字互转等多模态更新后,国内外大厂持续布局跨文本、图像、音视频等模态的AI模型,行业应用亦不断升级。

OpenAI多模态应用:

图片

资料来源:OpenAI

目前,国内外各家厂商仍把目光放在多模态大模型上,对标GPT-4开发竞品。

AI初创企业Anthropic开发了对标的AI聊天机器人Claude。谷歌一方面对Anthropic进行投资,一方面也在开发自己的语言模型PaLM2和聊天机器人Bard。谷歌拥有多个跨模态AI模型,并提供多项功能服务模块。

Meta走上了另一条道路,开源了自己的大模型LLaMA,后来也有越来越多的公司将自己的大模型进行开源,包括Vicuna、WizardLM、Guanaco等模型;微软KOSMOS-1模型拥有16亿参数,解锁多模态功能。

海外大模型加速迭代,多模态是主要方向:

图片

资料来源:OSCHINA、ZAKER、IT之家、开源证券

国内大模型百花齐放,版本与性能持续迭代。

随着AI大模型的竞争在国外激烈展开,国内许多互联网企业和科技企业也开始自研大模型,比如百度、阿里、科大讯飞、百川等。

相比于国外,国内大模型的版本与性能更新迭代更快。

百度发布文心一言并持续迭代;腾讯混元大模型迎来全新升级,并正式对外开放“文生图”功能;盘古基础大模型提供满足行业场景需要的上百种能力,盘古大模型为客户提供100亿、380亿、710亿和1000亿参数的系列化基础大模型,能够匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。

盘古大模型3.0架构图:

图片

资料来源:华为云官网

国内众多厂商也在多模态产业链上下游有所布局,代表厂商包括苏州科达、网达软件、当虹科技、竞业达、声迅股份、为亿嘉和、因赛集团、博汇科技、数字政通、大华股份、云从科技、中科创达、拓尔思、新大陆、恒生电子、易点天下、三六零、佳都科技、捷成股份、昆仑万维、科大讯飞、万兴科技、汤姆猫、中文在线、数字政通等。

三六零集团旗下智能硬件及物联网事业群360智慧生活发布了360智脑-视觉大模型,以及4款AI硬件设备,并宣布360智慧生活将进军SMB(中小型企业)市场。

科大讯飞星火认知大模型 V3.0 实现文本生成、语言理解、 知识问答、逻辑推理、数学、代码、多模态七大能力提升。

苏州科达推出了KD-GPT大模型,包括多模态大模型、AIGC图像大模型和行业大模型已经初具雏形,并开始在实际项目中投入应用。

亿嘉和发布的一种基于多模态超融合技术的大模型YJH-LM,目前已在公司商用清洁机器人上完成功能测试。

当虹科技视觉多模态分析技术基于自主研发视觉多模态分析技术,对多媒体进行视频、语音、文本、图像等内容的多维分析,针对视频中出现的内容进行多模态融合的智能理解分析并进行结构化标签提取,包含视频中出现的人物、车、物体、地标建筑、文字等内容的识别。

图片

03

多模态AI应用端梳理


AI 应用的主要方向包括已推出产品并开启商业化的 AI 应用领 域:工具、教育、音乐、校对、营销等;此外还有受益于 AI 视频生成等 AI 多模态模型的游戏、影视等 IP 开发领域。

后续随着 AI 大模型进一步朝多模态方向升级,广泛的数据交互方式和丰富的应用场景为提升用户体验提供了巨大的可能性。

从应用趋势来看,随着多模态大模型在语音、图像和视频等多种输入输出方式中的应用,内容创作领域可能会经历前所未有的变革。

多模态模型有望显著打开下游应用场景,破除单纯文字交互的局限性。下游应用场景在工业、医学、汽车、机器人等领域应用落地带来的商业化增量空间有望不断打开。

2023 年 8 月 31 日,国内首批 8 家厂商 AI 大模型通过《生成式人工智能服务管理 暂行办法》备案,11 月 3 日,又有 11 家 AI 大模型完成备案。

AI视频生成


多模态融合大势所趋,AI生成视频技术的迭代,加速应用落地和商业模式创新。

文生视频是一个年轻的方向,该领域面临多方面的挑战,包括高算力成本、 缺乏高质量的数据集等,但随着视频扩散模型技术的突破,新算法模型不断涌现。

以国外Runway为代表的企业在近半年内取得了较大的进步,生成视频的一致性和保真度也有了较大改进,未来在视频多模态领域的应用。

AI 视频生成领域,主要布局厂商包括万兴科技、新国都、虹软科技、光云科技等。

万兴科技旗下 AI 视频创作软件 Wondershare Filmora 13 内置创作 助手 Copilot,并上线了 AI 文本成片、AI 音乐生成器等 AI 生成功能;万兴“天幕”是国内首个专注于以视频创意应用为核心的百亿级参数多媒体大模型。

AI+游戏


游戏作为集合了文字、图像、声音、视频等内容形式的商业化应用,有望更好在研发端利用多模态大模型的能力,提升内容制作效率,并提高内容丰富度,同时一些基于 AI 的 NPC 等设计或进一步提升用户体验和付费意愿,打开游戏整体收入增量空间。

版号发放常态化带来供给端改善,新游戏陆续上线。多模态大模型有望提高游戏研发效率及内容、玩法丰富度,增强游戏社交属性,吸引增量用户,进一步打开游戏商业化空间。

“AI+游戏”相关布局厂商包括盛天网络、神州泰岳、网易、腾讯控股、吉比特、心动公司、创梦天地、姚记科技、完美世界,包括星 辉娱乐、恺英网络、掌趣科技、汤姆猫、宝通科技、巨人网络、三七互娱、吉比特、巨人网络、电魂网络等。

AI+ 影视 IP/音乐


AI多模态技术有望带来动画、影视、互动影视游戏、音乐等内容开发提速, 丰富内容供给,带来商业化增量。

该环节参与布局的厂商众多,代表厂商包括芒果超媒、奥飞娱乐、阅文集团、猫眼娱乐、光线传媒、中文在线、上海电影、掌阅科技、 华策影视、捷成股份、万兴科技、易点天下、盛天网络等。

AI+教育/电商/医疗


AIGC 在海外已实现教育产品功能创新、课程研发降本增收。语言学习应用程序多邻国(Duolingo)基于GPT-4大模型,推出DuolingoMax订阅服务。国内 AI 教育产品继续更新迭代,有望逐步带来增量。

AI 赋能电商“人”、“货”、“场”全面铺开,AI 导 购在国内外加速落地,实现了商品推荐、服装试穿等功能创新,有望帮助电商平 台和服务商提升商品销售效率,实现降本增效。

AI+医疗方面,在医保控费、分级诊疗的大背景下,AI能够通过提升人效、精细化运营、专业赋能的方式,帮助医院实现降本增效,同时帮助基层医院提高医疗能力。因此,AI大模型所嵌入的产品有望实现较好的落地。

未来多模型AI有望在成像技术、疾病筛查与预测、手术与康复等场景下持续发力。

该环节相关布局厂商包括世纪天鸿、南方传媒、皖新传媒、盛通股份、佳发教育、鸥玛软件、光云科技、值得买、壹网壹创、东方甄选、焦点科技、润达医疗、嘉和美康、卫宁健康、创业慧康、迪安诊断等。

医疗领域大模型支持场景:

图片

资料来源:创业慧康

AI+办公


在AI领域,语音输入和图像输入意味着更自然便捷的人机交互方式和更广泛的应用场景,或进一步革新办公产品。

微软面向企业客户全面推出Microsoft365Copilot,产品商业化步伐再度迈进,对于国内办公软件厂商来说有积极意义。

当前国内“AI+办公”类厂商多个产品进入测试阶段,监管落地后相关产品商业化有望加速。

金山办公发布的具备大语言模型能力的生成式人工智能应用,名为“WPS AI”,这也是国内协同办公赛道首个类ChatGPT式应用。

AI+办公环节主要布局厂商还包括彩讯股份、致远互联、科大讯飞等。

AI+元宇宙/虚拟人


苹果 MR 头显或带动整体 MR 设 备出货量提升及 AR/VR 内容需求增长。

多模态大模型有望为内容开发降本提效, 从而提高各应用场景下的 VR/AR 渗透率。

主要布局厂商包括风语筑、锋尚文化、恒信东方、蓝色光标、因赛集团、元隆雅图、引力传媒等。

AI+机器人


AI大模型深度赋能机器人感知层和规划层,助力机器人更贴近具身智能。

以微软ChatGPT预训练语言模型、谷歌PaLM-E模型、英伟达多模态具身智能系统NVIDIAVIMA为代表的AI技术突破,进一步助力机器人突破产品力上限。

2023年3月谷歌PaLM-E模型推出,融合了ViTVisionTransformer的220亿参数和PaLM的5400亿参数能力,集成了可控制机器人视觉和语言的能力。

2023年5月英伟达发布多模态具身智能系统NVIDIAVIMA,标志AI能力的又一显著进步,有望显著提升机器人的智能化水平、人机交互能力、自编译能力。

图片

04

算力:多模态AI关键基石


随着多模态时代正式开启,无论在训练阶段还是在推理阶段,对于算力的需求都相较于单模态模型有极大的提升。

应用场景多或请求量大会增加对计算资源的需求,导致计算集群规模的扩大。

OpenAI认为自2012年以来,大规模AI训练所需的算力呈指数级增长,每3.4个月翻一番。2012-2018期间已增长超过300,000倍。当前多模态大模型仍在不断迭代,训练阶段的算力将保持增长。

算力产业链核心环节包括服务器、网络设备、存储设备、芯片、IDC建设、光通信等。

服务器和算力租赁主要代表厂商包括浪潮信息、中科曙光、工业富联、寒武纪、神州数码、拓维信息、恒润股份、紫光股份、四川长虹、真视通、中国长城、莲花健康、鸿博股份、润建股份、中贝通信、烽火通信、恒为科技等;光通信头部布局厂商包括中际旭创、新易盛、华工科技、剑桥科技、光迅科技、光库科技、烽火通信、长飞光纤、亨通光电等。

算力基础设施产业链图示:

图片

资料来源:各公司官网、华泰研究、行行查

当前全球开启新一轮AI技术竞赛。大型科技公司一改传统AI解决方案的商业模式,聚焦AI大语言模型研发,并向更前沿的多模态大模型深耕。在AI浪潮持续爆发的背景下,多模态有望迎来全面爆发机遇,并带动产业链各环节高速发展。

本文转自 乐晴智库精选

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1465056.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

『运维备忘录』之 Ln 文件链接命令详解

运维人员不仅要熟悉操作系统、服务器、网络等知识,甚至对于开发相关的也要有所了解。很多运维工作者可能一时半会记不住那么多命令、代码、方法、原理或者用法等等。这里我将结合自身工作,持续给大家更新运维工作所需要接触到的知识点,希望大…

Linux编译器---gcc/g++使用详解

目录 前言 gcc/g介绍 gcc/g的编译指令(以gcc为例) ​编辑 gcc选项 预处理(进行宏替换) 编译(生成汇编) 汇编(生成机器可识别代码) 链接(生成可执行文件或库文件) 函数库 概念 …

电气机械5G智能工厂数字孪生可视化平台,推进电气机械行业数字化转型

电气机械5G智能工厂数字孪生可视化平台,推进电气机械行业数字化转型。随着科技的不断发展,数字化转型已经成为各行各业发展的重要趋势。电气机械行业作为传统制造业的重要组成部分,也面临着数字化转型的挑战和机遇。为了更好地推进电气机械行…

嵌入式stm32软件开发——中断概念

中断就是异常,异常就是中断 关注我,共同交流,一起成长 一、中断基础概念二、中断的编程要点三、中断控制器组四、关于EXIT外部中断 一、中断基础概念 关于中断这个东西,简单来说是程序进展过程中的重要节点,而在中断这…

C 嵌入式系统设计模式 10:中介者模式

本书的原著为:《Design Patterns for Embedded Systems in C ——An Embedded Software Engineering Toolkit 》,讲解的是嵌入式系统设计模式,是一本不可多得的好书。 本系列描述我对书中内容的理解。本文章描述访问硬件的设计模式之三&…

https://registry.npm.taobao.org淘宝npm镜像仓库地址更新

在工作中有遇见获取淘宝的npm镜像存在问题,图示如下的报错: 根据报错的内容是说 https://registry.npm.taobao.org地址访问失败了,然后通过排查发现淘宝的npm镜像仓库地址有更新了。需要使用最新的地址 旧的淘宝镜像仓库:https://…

如何进行高性能架构的设计

一、前端优化 减少请求次数页面静态化边缘计算 增加缓存控制:请求头 减少图像请求次数:多张图片变成 一张。 减少脚本的请求次数:css和js压缩,将多个文件压缩成一个文件。 二、页面静态化 三、边缘计算 后端优化 从三个方面进…

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的鸟类识别系统(Python+PySide6界面+训练代码)

摘要:本文详细阐述了一个利用深度学习进行鸟类识别的系统,该系统集成了最新的YOLOv8算法,并与YOLOv7、YOLOv6、YOLOv5等先前版本进行了性能比较。该系统能够在图像、视频、实时视频流和批量文件中精确地识别和分类鸟类。文中不仅深入讲解了YO…

10.Halcon形态学膨胀,腐蚀,开运算,闭运算

膨胀:对边界点进行扩充,填充空洞,使边界向外部扩张的过程。 腐蚀:消除物体边界点,使边界向内部收缩的过程,把小于结构元素的物体去除掉. 开运算: 先腐蚀后膨胀的过程称为开运算。 作用 : 去除孤立的小点,毛刺,消除小物体,平滑较大物体边界,同时不改变其面积. 闭运…

用友U8库存展望数据显示错误

1、库存展望显示有订单在途。 2、双击查看明细,显示某个采购订单显示有预计入库量。 3、查询该采购订单,发现已入库完成未退货,确定为数据异常。 修改采购订单表体的iReceivedQTY(累计到货数量)字段后,恢复正常。 UPDATE dbo.PO_…

koa项目部署云服务器(部署本地虚拟机中)

文章目录 一、服务器安装Node、MySQL1.1. 安装Node.js1.2. 安装MySQL1.3.配置MySQL1.4. 数据库迁移 二. 部署Node项目2.1. 代码托管到Git仓库(选做)2.2. 代码clone到服务器(选做)2.3. VSCode中打开代码(推荐&#xff0…

A股风格因子看板 (2024.2 第08期)

该因子看板跟踪A股风格因子,该因子主要解释沪深两市的市场收益、刻画市场风格趋势的系列风格因子,用以分析市场风格切换、组合风格景 露等。 今日为该因子跟踪第8期,指数组合数据截止日2024-01-31,要点如下 近1年A股风格因子收益走…

Android约束布局中用ConstraintHelper实现过渡动画效果

前些天发现了一个蛮有意思的人工智能学习网站,8个字形容一下"通俗易懂,风趣幽默",感觉非常有意思,忍不住分享一下给大家。 👉点击跳转到教程 一.创建一个类CircularRevealHelper继承ConstraintHelper代码如下 /*** Author: ly* Da…

机器学习基础(二)监督与非监督学习

导语:更深入地探讨监督学习和非监督学习的知识,重点关注它们的理论基础、常用算法及实际应用场景。 上一节我们深入探索机器学习的根本原理,包括基本概念、分类及如何通过构建预测模型来应用这些理论,详情可见: 机器学…

centos中安装go

安装过程 (1)源码二进制下载地址 wget https://dl.google.com/go/go1.13.5.linux-amd64.tar.gz (2)将下载的二进制包解压至 /usr/local目录。 tar -C /usr/local/ -xzf go1.13.5.src.tar.gz (3)设置环…

自定义电子凸轮曲线的运动:EtherCAT超高速实时运动控制卡XPCIE1032H上位机C#开发(十三)

PCIE1032H功能简介 XPCIE1032H是一款基于PCI Express的EtherCAT总线运动控制卡,可选6-64轴运动控制,支持多路高速数字输入输出,可轻松实现多轴同步控制和高速数据传输。 XPCIE1032H集成了强大的运动控制功能,结合MotionRT7运动控…

week04day03(爬虫 beautifulsoup4、)

一. 使用bs4解析网页 下载bs4 - pip install beautifulsoup4 使用的时候 import bs4专门用于解析网页的第三方库 在使用bs4的时候往往会依赖另一个库lxml pip install lxml 网页代码 <!DOCTYPE html> <html><head><meta charset"utf-8"><…

使用redisMQ-spring-boot-starter实现消息队列和延时队列

简介 redisMQ-spring-boot-starter是一个轻量级的、基于Redis实现的消息队列中间件&#xff0c;它有如下优点&#xff1a; 开箱即用&#xff0c;你几乎不用添加额外的配置支持消息队列、延时队列&#xff0c;并提供精细化配置参数提供消息确认机制支持虚拟空间&#xff0c;不…

华为算法题 go语言或者ptython

1 给定一个整数数组 nums 和一个整数目标值 target&#xff0c;请你在该数组中找出 和为目标值 target 的那 两个 整数&#xff0c;并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是&#xff0c;数组中同一个元素在答案里不能重复出现。 你可以按任意顺序返…

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的景区垃圾识别系统(Python+PySide6界面+训练代码)

摘要&#xff1a;本文介绍了一个先进的基于深度学习的景区垃圾检测系统&#xff0c;该系统集成了最新的YOLOv8算法&#xff0c;并与YOLOv7、YOLOv6、YOLOv5等前代算法进行了性能对比&#xff0c;通过对比实验证明了其在图像、视频、实时视频流和批量文件处理中对景区垃圾进行精…