多模态AI产业链全景梳理

当前AI模型从单模态向多模态演进，有望实现认知智能，是AI未来发展的明确趋势。

近期 AI 多模态模型不断取得突破性进展。

OpenAI 于11 月发布了 GPT-4 Turbo 且开放了 GPTs再次颠覆行业，GPTs短期上线数量已超3万，揭开AIGC应用生态序幕。

海外初创公司PikaLabs正式推出的AI视频生成工具Pika1.0火爆全球，Pika1.0包括一个能生成和编辑 3D 动画、动漫、卡通、电影等各种风格视频的全新 AI 模型。

12月，谷歌紧随其后发布了其认为规模最大、功能最强大的人工智能模型Gemini，声称性能超越GPT-4和人类专家。

作为多模态大模型，Gemini 可以同时识别和理解文本、图像、音频、视频和代码五种信息，且对信息的理解非常精准。有别于传统大模型对英伟达硬件及生态的依赖，Gemini 的训练来自于谷歌的 TPU v4 和 v5e 的硬件支持。

图片来源：Google

当前以Pika 1.0和Gemini为代表的AI多模态模型不断突破，或推动大模型应用领域加快落地并打开商业化空间。

以上两家也代表着挑战者对OpenAI和英伟达的强力反击，AI领域的高水平竞争正式进入了全新的阶段。

当前海外科技巨头之间多模态大模型的竞争日益激烈，同时驱动着底层多模态大模型的能力不断突破，垂域应用遍地开花，AI 应用有望迎来快速爆发。

据市场分析机构IDC最新报告显示，2022年全球AI应用软件市场规模为640亿美元，预计到2027年将增加到2790亿美元，复合年增长率（CAGR）为31.4%。

01 多模态AI行业概览

人工智能领域研究一直致力于以技术实现计算机对于人类认知世界方式的高度效仿。

单模态交互是一个局限的、并不完整的模型，因此“多模态”研究大势所趋已十分明朗。

多模态学习（对应单模态）以多模态大规模数据为基础，同时利用多种感官进行学习，提供更丰富信息。

除传统的语言以及图像间的交互作用，其结合声音、触觉以及动作等多维度信息进行深度学习，从而形成更准确、更具表现力的多模态表示。

相比于单模态，多模态模型处理多种数据输入，结构上更复杂，可能涉及使用多个子网络，然后将其输出合并。

多模态模型的核心是处理和整合这些不同类型的数据源。这种模型可以捕获跨模态的复杂关系，使机器能够更全面地理解和分析信息，从而在各种任务中表现得更好。

AI模型走向多模态必然性的三大因素：跨模态任务需求+跨模态数据融合+对人类认知能力的模拟。

来源：AWS，IBM Research，浙商证券、行行查

多模态AI以模态融合为核心技术环节，围绕“表征-翻译-对齐-融合-联合学习”五大技术环节，解决实际场景下复杂问题的多模态解任务。

多模态应用场景按架构可分为视频分类、事件检测、情绪分析、视觉问答、情感分析、语音识别、跨模态搜索、图像标注、跨模态嵌入、转移学习、视频解码、图像合成等。

多模态AI实现跨模态任务，应用场景丰富。能够实现基于文本、语音、图片、视频等多模态数据的综合处理应用，完成跨模态领域任务，应用于各种场景。

据布谷实验室统计，当前多模态内容主要应用于商业定制、游戏领域、影视领域、教育领域以及医疗领域五大行业。

多模态AI图示：

根据技术迭代，多模态模型可以分为三个主要发展阶段。

2010年至今，深度学习为多模态研究带来了巨大的推动力，多模态模型已经达到了前所未有的准确性和复杂性。

这一阶段受益于四个关键因素的推动：1）大规模的多模态数据集；2）更强大的计算能力；3）研究者也开始掌握更为先进的视觉特征提取技术；4）出现了强大的语言特征抽取模型，包括Transformer架构。

多模态模型主要经历三个时代：

数据来源：卡内基梅隆大学

02 多模态AI市场格局梳理

在 OpenAI 宣布 ChatGPT 实现联网及支持图片、语音交流及与文字互转等多模态更新后，国内外大厂持续布局跨文本、图像、音视频等模态的AI模型，行业应用亦不断升级。

OpenAI多模态应用：

资料来源：OpenAI

目前，国内外各家厂商仍把目光放在多模态大模型上，对标GPT-4开发竞品。

AI初创企业Anthropic开发了对标的AI聊天机器人Claude。谷歌一方面对Anthropic进行投资，一方面也在开发自己的语言模型PaLM2和聊天机器人Bard。谷歌拥有多个跨模态AI模型，并提供多项功能服务模块。

Meta走上了另一条道路，开源了自己的大模型LLaMA，后来也有越来越多的公司将自己的大模型进行开源，包括Vicuna、WizardLM、Guanaco等模型；微软KOSMOS-1模型拥有16亿参数，解锁多模态功能。

海外大模型加速迭代，多模态是主要方向：

资料来源：OSCHINA、ZAKER、IT之家、开源证券

国内大模型百花齐放，版本与性能持续迭代。

随着AI大模型的竞争在国外激烈展开，国内许多互联网企业和科技企业也开始自研大模型，比如百度、阿里、科大讯飞、百川等。

相比于国外，国内大模型的版本与性能更新迭代更快。

百度发布文心一言并持续迭代；腾讯混元大模型迎来全新升级，并正式对外开放“文生图”功能；盘古基础大模型提供满足行业场景需要的上百种能力，盘古大模型为客户提供100亿、380亿、710亿和1000亿参数的系列化基础大模型，能够匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。

盘古大模型3.0架构图：

资料来源：华为云官网

国内众多厂商也在多模态产业链上下游有所布局，代表厂商包括苏州科达、网达软件、当虹科技、竞业达、声迅股份、为亿嘉和、因赛集团、博汇科技、数字政通、大华股份、云从科技、中科创达、拓尔思、新大陆、恒生电子、易点天下、三六零、佳都科技、捷成股份、昆仑万维、科大讯飞、万兴科技、汤姆猫、中文在线、数字政通等。

三六零集团旗下智能硬件及物联网事业群360智慧生活发布了360智脑-视觉大模型，以及4款AI硬件设备，并宣布360智慧生活将进军SMB（中小型企业）市场。

科大讯飞星火认知大模型 V3.0 实现文本生成、语言理解、知识问答、逻辑推理、数学、代码、多模态七大能力提升。

苏州科达推出了KD-GPT大模型，包括多模态大模型、AIGC图像大模型和行业大模型已经初具雏形，并开始在实际项目中投入应用。

亿嘉和发布的一种基于多模态超融合技术的大模型YJH-LM，目前已在公司商用清洁机器人上完成功能测试。

当虹科技视觉多模态分析技术基于自主研发视觉多模态分析技术，对多媒体进行视频、语音、文本、图像等内容的多维分析，针对视频中出现的内容进行多模态融合的智能理解分析并进行结构化标签提取，包含视频中出现的人物、车、物体、地标建筑、文字等内容的识别。

03 多模态AI应用端梳理

AI 应用的主要方向包括已推出产品并开启商业化的 AI 应用领域：工具、教育、音乐、校对、营销等；此外还有受益于 AI 视频生成等 AI 多模态模型的游戏、影视等 IP 开发领域。

后续随着 AI 大模型进一步朝多模态方向升级，广泛的数据交互方式和丰富的应用场景为提升用户体验提供了巨大的可能性。

从应用趋势来看，随着多模态大模型在语音、图像和视频等多种输入输出方式中的应用，内容创作领域可能会经历前所未有的变革。

多模态模型有望显著打开下游应用场景，破除单纯文字交互的局限性。下游应用场景在工业、医学、汽车、机器人等领域应用落地带来的商业化增量空间有望不断打开。

2023 年 8 月 31 日，国内首批 8 家厂商 AI 大模型通过《生成式人工智能服务管理暂行办法》备案，11 月 3 日，又有 11 家 AI 大模型完成备案。

AI视频生成

多模态融合大势所趋，AI生成视频技术的迭代，加速应用落地和商业模式创新。

文生视频是一个年轻的方向，该领域面临多方面的挑战，包括高算力成本、缺乏高质量的数据集等，但随着视频扩散模型技术的突破，新算法模型不断涌现。

以国外Runway为代表的企业在近半年内取得了较大的进步，生成视频的一致性和保真度也有了较大改进,未来在视频多模态领域的应用。

AI 视频生成领域，主要布局厂商包括万兴科技、新国都、虹软科技、光云科技等。

万兴科技旗下 AI 视频创作软件 Wondershare Filmora 13 内置创作助手 Copilot，并上线了 AI 文本成片、AI 音乐生成器等 AI 生成功能；万兴“天幕”是国内首个专注于以视频创意应用为核心的百亿级参数多媒体大模型。

AI+游戏

游戏作为集合了文字、图像、声音、视频等内容形式的商业化应用，有望更好在研发端利用多模态大模型的能力，提升内容制作效率，并提高内容丰富度，同时一些基于 AI 的 NPC 等设计或进一步提升用户体验和付费意愿，打开游戏整体收入增量空间。

版号发放常态化带来供给端改善，新游戏陆续上线。多模态大模型有望提高游戏研发效率及内容、玩法丰富度，增强游戏社交属性，吸引增量用户，进一步打开游戏商业化空间。

“AI+游戏”相关布局厂商包括盛天网络、神州泰岳、网易、腾讯控股、吉比特、心动公司、创梦天地、姚记科技、完美世界，包括星辉娱乐、恺英网络、掌趣科技、汤姆猫、宝通科技、巨人网络、三七互娱、吉比特、巨人网络、电魂网络等。

AI+ 影视 IP/音乐

AI多模态技术有望带来动画、影视、互动影视游戏、音乐等内容开发提速，丰富内容供给，带来商业化增量。

该环节参与布局的厂商众多，代表厂商包括芒果超媒、奥飞娱乐、阅文集团、猫眼娱乐、光线传媒、中文在线、上海电影、掌阅科技、华策影视、捷成股份、万兴科技、易点天下、盛天网络等。

AI+教育/电商/医疗

AIGC 在海外已实现教育产品功能创新、课程研发降本增收。语言学习应用程序多邻国（Duolingo）基于GPT-4大模型，推出DuolingoMax订阅服务。国内 AI 教育产品继续更新迭代，有望逐步带来增量。

AI 赋能电商“人”、“货”、“场”全面铺开，AI 导购在国内外加速落地，实现了商品推荐、服装试穿等功能创新，有望帮助电商平台和服务商提升商品销售效率，实现降本增效。

AI+医疗方面，在医保控费、分级诊疗的大背景下，AI能够通过提升人效、精细化运营、专业赋能的方式，帮助医院实现降本增效，同时帮助基层医院提高医疗能力。因此，AI大模型所嵌入的产品有望实现较好的落地。

未来多模型AI有望在成像技术、疾病筛查与预测、手术与康复等场景下持续发力。

该环节相关布局厂商包括世纪天鸿、南方传媒、皖新传媒、盛通股份、佳发教育、鸥玛软件、光云科技、值得买、壹网壹创、东方甄选、焦点科技、润达医疗、嘉和美康、卫宁健康、创业慧康、迪安诊断等。

医疗领域大模型支持场景：

资料来源：创业慧康

AI+办公

在AI领域，语音输入和图像输入意味着更自然便捷的人机交互方式和更广泛的应用场景，或进一步革新办公产品。

微软面向企业客户全面推出Microsoft365Copilot，产品商业化步伐再度迈进，对于国内办公软件厂商来说有积极意义。

当前国内“AI+办公”类厂商多个产品进入测试阶段，监管落地后相关产品商业化有望加速。

金山办公发布的具备大语言模型能力的生成式人工智能应用，名为“WPS AI”，这也是国内协同办公赛道首个类ChatGPT式应用。

AI+办公环节主要布局厂商还包括彩讯股份、致远互联、科大讯飞等。

AI+元宇宙/虚拟人

苹果 MR 头显或带动整体 MR 设备出货量提升及 AR/VR 内容需求增长。

多模态大模型有望为内容开发降本提效，从而提高各应用场景下的 VR/AR 渗透率。

主要布局厂商包括风语筑、锋尚文化、恒信东方、蓝色光标、因赛集团、元隆雅图、引力传媒等。

AI+机器人

AI大模型深度赋能机器人感知层和规划层，助力机器人更贴近具身智能。

以微软ChatGPT预训练语言模型、谷歌PaLM-E模型、英伟达多模态具身智能系统NVIDIAVIMA为代表的AI技术突破，进一步助力机器人突破产品力上限。

2023年3月谷歌PaLM-E模型推出，融合了ViTVisionTransformer的220亿参数和PaLM的5400亿参数能力，集成了可控制机器人视觉和语言的能力。

2023年5月英伟达发布多模态具身智能系统NVIDIAVIMA，标志AI能力的又一显著进步，有望显著提升机器人的智能化水平、人机交互能力、自编译能力。

04 算力：多模态AI关键基石

随着多模态时代正式开启，无论在训练阶段还是在推理阶段，对于算力的需求都相较于单模态模型有极大的提升。

应用场景多或请求量大会增加对计算资源的需求，导致计算集群规模的扩大。

OpenAI认为自2012年以来，大规模AI训练所需的算力呈指数级增长，每3.4个月翻一番。2012-2018期间已增长超过300,000倍。当前多模态大模型仍在不断迭代，训练阶段的算力将保持增长。

算力产业链核心环节包括服务器、网络设备、存储设备、芯片、IDC建设、光通信等。

服务器和算力租赁主要代表厂商包括浪潮信息、中科曙光、工业富联、寒武纪、神州数码、拓维信息、恒润股份、紫光股份、四川长虹、真视通、中国长城、莲花健康、鸿博股份、润建股份、中贝通信、烽火通信、恒为科技等；光通信头部布局厂商包括中际旭创、新易盛、华工科技、剑桥科技、光迅科技、光库科技、烽火通信、长飞光纤、亨通光电等。

算力基础设施产业链图示：