2024年人工智能产业十大发展趋势
- 技术变革
- 1. 多模态预训练大模型将是人工智能产业的标配
- 2. 高质量数据愈发稀缺将倒逼数据智能飞跃
- 3. 智能算力无处不在的计算新范式加速实现
- 应用创新
- 4. 人工智能生成内容(AIGC)应用向全场景渗透
- 5. 人工智能驱动科学研究(AI for Science)从单点突破加速迈向平台化
- 6. 具身智能、脑机接口等开启通用人工智能(AGI)应用探索
- 安全治理
- 7.人工智能安全治理趋严、趋紧、趋难
- 8. 可解释AI、伦理安全、隐私保护等催生技术创新机遇
- 9. 开源创新将是AGI生态建设的基石
- 10. 模型即服务(MaaS)将是AGI生态构建的核心
人工智能技术的飞速发展给人类社会的生产生活方式带来重大变革影响。人工智能应用场景日渐丰富,AI技术在金融、医疗、制造、交通、教育、安防等多个领域实现技术落地。人工智能的广泛应用及商业化,加快推动了企业数字化转型、产业链结构重塑优化以及生产效率的提升。
人工智能产业链划分为基础层、技术层、应用层:
- 基础层包含数据、算力、算法三驾马车,代表性企业1有英伟达、百度、地平线机器人等。
- 技术层主要包含计算机视觉与模式识别、自然语言处理、类脑算法、语音技术、人机交互五类,代表性企业有OpenAl、旷视科技、智谱华章等。
- 应用层包含所有AI技术与传统应用结合形成的产业种类。
近日,毕马威联合中关村产业研究院共同发布《人工智能全域变革图景展望:跃迁点来临(2023)》,提出2024年人工智能产业十大趋势。
技术变革
1. 多模态预训练大模型将是人工智能产业的标配
多模态预训练大模型主要包括三层含义:
- “大模型”也称基础模型(Foundation Models),指基于大规模数据训练的模型,具备应用领域广泛的特点;
- “预训练”强调大模型训练发生在模型微调(fine- tuning)之前,大模型在预训练阶段能够集中学习到尽可能泛化的通用特征,在微调阶段则需结合较小规模、特定任务的数据集进行调整,从而达到广泛适用各类任务场景的效果,
- “多模态”指用于训练大模型的数据来源和形式具有多样性,例如,人类通过视觉、听觉、嗅觉等多种感官获取信息,继而通过声音、文字、图像等多种载体进行沟通表达,就是多模态的输入和输出。
预训练大模型发展起源于自然语言处理(NLP)领域,当前已进入“百模大战”阶段。
2017年,Transformer模型提出,奠定了当前大模型的主流算法架构,2018年,基于 Transformer架构训练的BERT模型问世,其参数量首次突破3亿规模,随后T5(参数量130亿)、GPT-3(参数量1750亿)、 Switch Transformer(参数量1.6万亿)、智源“悟道2.0”大模型(参数量1.75万亿)、阿里巴巴达摩院多模态大模型M6(参数量10万亿)等预训练语言大模型相继推出,参数量实现了从亿级到万亿级的突破;2022年底至今,ChatGPT引爆全球大模型创新热潮,国内科技厂商竞争尤为激烈。
值得注意的是,目前所公开的模型大部分仅支持文本输入,较为前沿的GPT-4还支持图像输入,但模型的输出只能实现文本和图像两种模态,2023年9月底以来,OpenAl 将 ChatGPT 4升级至GPT-4 with vision (GPT-4V) ,增强了视觉提示功能,在相关样本观察中,GPT-4V在处理任意交错的多模态输入(interleaved multimodal inputs)方面表现突出。
多模态的模型训练方法更接近于人类接收、处理、表达信息的方式,能更为全面地展现信息原貌,是未来人工智能模型演进的重点方向。Al大模型将从支持文本、图像、音频、视频等单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。这意味着,各家大模型的比拼重点将不再是单一模态下参数量的提升,而是转向多模态信息整合和深度挖掘,通过预训练任务的精巧设计,让模型更精准地捕捉到不同模态信息之间的关联。
多模态预训练大模型发展思路:
- 利用单模态模型如LLMs(大型语言模型)来调动其它数据类型的功能模块完成多模态任务,典型代表有Visual ChatGPT、 Hugging GPT等;
- 直接利用图像和文本信息训练得到多模态大模型,典型代表有KOSMOS-1等;
- 将LLMs与跨模态编码器等有机结合,融合LLMs的推理检索能力和编码器的多模态信息整合能力,典型代表有 Flamingo、BLIP2等。
随着技术日臻成熟,多模态预训练大模型将是AI大模型的主流形态,堪称下一代人工智能产业的“标配”。
2. 高质量数据愈发稀缺将倒逼数据智能飞跃
围绕AI大模型的商业化竞争不断加剧,作为模型训练“原料”的数据(尤其是高质量数据),正迎来短缺危机。
根据一项来自 Epoch Al Research团队的研究,高质量的语言数据存量将在2026年耗尽,低质量的语言数据和图像数据的存量则分别在2030年至2050年、2030年至2060年枯竭。这意味着,如果没有新增数据源或是数据利用效率未能显著提升,那么2030年以后,AI大模型的发展速度将明显放缓。
大模型的训练需要大量的高质量数据,但是目前在数据质量方面还存在一定的问题,包括数据噪声、数据缺失、数据不平衡等问题,均会影响大模型的训练效果和准确性。预计大模型领域不断迸发的高质量数据需求,将倒逼数据在大规模、多模态、高质量三大维度上的全面提升,数据智能相关技术有望迎来跨越式发展。
数据智能指的是从数据中提炼、发掘、获取有揭示性和可操作性的信息,从而为人们在基于数据制定决策或执行任务时提供有效的智能支持。数据智能融合了数据处理、数据挖掘、机器学习、人机交互、可视化等多种底层技术,可划分为数据平台技术、数据整理技术、数据分析技术、数据交互技术、数据可视化技术等部分。
以数据平台技术为例,湖仓一体技术(Data Lakehouse)充分整合了数据湖和数据仓库的优势,支持端到端的流式计算,有利于全面挖掘数据价值,实现即时数据洞察,为环湖服务(包括多维分析、预测分析、数据科学、机器学习、大数据处理、决策支持等)创造了良好的先决条件。云原生容器化技术有利于构建弹性可靠、松耦合、易管理、可观测的数据应用系统,从而实现数据处理能力跨区域、跨平台甚至跨服务商的规模化复制。预计,基于云原生容器化环境,支持流、批数据处理的“湖仓一体”架构将成为新一代数据平台的底座,助力数据质量提升。
此外,现代数据栈(Modern Data Stack)、数据编织(Data Fabric)等新型数据整理技术将极大提高数据处理效率,降低数据使用难度。机器学习、图计算等数据分析技术将有效拓展数据分析的维度和深度,有利于满足日益复杂的数据分析需求。自然语言处理等数据交互技术与向量数据库相结合,能够使计算机系统充分理解人类语言,在人机问答、知识检索等场景中,创造自然高效的用户体验。
总的来说,随着信息技术的不断普及,技术创新热点层出不穷,数据智能技术也在不断进步,核心驱动力始终在于将无实际意义的数据转化为能传递信息和知识甚至帮助人们思考决策的有效工具,大模型的爆发式发展、算力的不断提升将为数据智能的持续突破按下加速键。
3. 智能算力无处不在的计算新范式加速实现
算力是大模型训练的“燃料”,以高效且成本较低的方式为人工智能发展注入源源不断的核心动力,已逐渐成为产业界共识。
深度学习出现之前,用于AI训练的算力增长大约每20个月翻一番,基本符合摩尔定律;深度学习出现之后,用于AI训练的算力大约每6个月翻一番;2012年后,全球头部AI模型训练算力需求更是加速到每3-4个月翻一番,即平均每年算力增长幅度达到惊人的10倍。
目前大模型发展如火如荼,训练算力需求有望扩张到原来的10-100倍,算力需求的指数级增长曲线将更加陡峭15。然而,这也意味着发展 AI需要巨大的算力成本投入。以构建GPT-3为例,OpenAI数据显示16,满足GPT-3算力需求至少要上万颗英伟达GPUA100,一次模型训练总算力消耗约3,640PF-days(即每秒一千万亿次计算,运行3,640天),成本超过1,200万美元,这还不包括模型推理成本和模型后续升级所需的训练成本。
此背景下,变革传统计算范式成为必然趋势,产业界正加速推动芯片和计算架构创新。例如,谷歌自2016年以来就不断研发专为机器学习定制的专用芯片TPU(Tensor Processing Unit,张量处理器),并利用 TPU进行了大量的人工智能训练工作。英伟达则抓住AI大模型爆发契机大力推广“GPU+加速计算”方案。
此外,也有观点认为TPU、 GPU都并非通用人工智能的最优解,指出量子计算具有原理上远超经典计算的强大并行计算能力,IBM在2023年宣布将与东京大学和芝加哥大学合作建造由10万个量子比特(量子信息处理的基本单位)驱动的量子计算机,有望推进量子计算在新药物研发、探索暗物质、破译密码等方面的应用。
新硬件、新架构竞相涌现,现有芯片、操作系统、应用软件等都可能被推翻重来,预计有望实现“万物皆数据”“无数不计算”“无算不智能”,即智能算力将无处不在,呈现“多元异构、软硬件协同、绿色集约、云边端一体化”四大特征。
- 多元异构体现为CPU、GPU、ASIC、FPGA和 NPU、DPU为代表的“XPU”芯片使得算力日趋多元化,传统x86架构之外,ARM、 RISC-V、MIPS等多种架构也正在被越来越多的芯片公司所采纳,异构计算加速崛起。
- 软硬件协同设计要求高效管理多类型资源,实现算力的弹性扩展、跨平台部署、多场景兼容等特性,例如,可以不断优化深度学习编译技术,提升算子库的性能、开放性和易用性,尽可能屏蔽底层处理器差异,向上兼容更多AI框架。
- 绿色集约强调了对于数据中心和5G设施,平衡算力提升和能耗降低问题的重要性,包括提高绿色能源使用占比、采用创新型制冷技术降低数据中心能耗、综合管理IT设备提高算力利用效率等。
- 云边端一体化则是在云端数据中心、边缘计算节点以及终端设备三级架构中合理部署算力,推动算力真正满足各类场景需求,边缘智能、AR/VR、自动驾驶等新一代计算终端渗透率有望大幅提升。
应用创新
4. 人工智能生成内容(AIGC)应用向全场景渗透
AlGC ( Artificial Intelligence Generated Content,人工智能生成内容)即利用各类机器学习算法,从数据要素中学习,使机器能自动生成全新的文本、图像、音频、视频等多媒体内容,是继专业生产内容(PGC)、用户生产内容(UGC)之后的新一代内容创作方式。现阶段大模型最主要的应用方向就是AIGC,主要包括AI写作、AI编程、AI绘画、 AI视频生成等。
传统人工智能偏重于数据分析能力,AIGC则将人工智能的价值聚焦到了创造上,其所创建的内容来源于历史数据和内容,却不是简单复制历史,而是衍生出新内容。
得益于大模型、深度学习算法、多模态等技术的不断进步,近年来各种内容形式的AI生成作品百花齐放,尤其是2022年,AIGC呈现出爆发态势。其中,最引发市场关注的是Stable Diffusion和ChatGPT。Stable Diffusion 于2022年10月发布,用户输入文字描述后即可得到AI生成的图像,使得AI绘画作品风靡一时。
ChatGPT于2022年底面世,其人机文本对话功能和文本创作能力将机器水平推向新高,在全球范围里掀起了一轮AIGC创新热潮。2023年以来,AIGC领域文生文、文生图等垂直赛道划分愈发清晰,由于人类社会语言文化相较图片类视觉艺术的理解难度更高、对出现失误的容忍度更低,因此,文生文等类 ChatGPT应用大规模普及的难度相对更大且进展更慢,文生图领域应用创新热度则相对更高。
随着 Disco Diffusion 、Stable Diffusion、DALL-E2、Midjourney等对公众开放,文生图应用在C端的普及已初见成效。 AIGC的发展源头在数字内容创作领域,从单模态内容到多模态数字化内容创建已初显雏形,预计未来会进一步提高人类创造内容的效率,丰富数字内容生态,开启人机协同创作时代,各种需要创意和新内容的场景,都可能被AIGC重新定义,AIGC向全场景渗透指日可待。
具体到场景来看,AIGC目前集中在创造性工作场景中,包括广告营销、游戏创作、艺术设计等。一方面,创意属于稀缺资源,AIGC的创造性对激发灵感、辅助创作、验证创意等大有助益,另一方面,互联网大规模普及使得“一切皆可线上”,数字内容消费需求持续旺盛,AIGC能更低成本、更高效率地生产内容,经济性愈发凸显。
不过,AIGC在内容准确性、细节把控度、风格个性化等方面仍有较大优化空间,AIGC潜力能否充分释放取决于和业务需求能否有效结合。例如,在客服场景中,多轮人机对话式客服不仅能改善用户体验,还节约了人工客服成本,但AIGC内容仍难以应对某些极为细分和高复杂度的需求。在芯片研发场景中, AIGC生成的3D模型能帮助优化芯片元件位置,将产品开发周期从几周缩短至几小时,但对于某些定制化芯片往往还需额外投入参数训练。在医疗科技场景中,AIGC基于真实病例数据生成的新数据解决了因医疗数据的稀缺性、敏感性造成的数据缺乏问题,为药物研发、精准医疗、医疗影像等领域提供数据生成服务。长期来看,AIGC实现全场景渗透的本质是机器创造能力的低成本复制,必然离不开大规模高质量数据和低成本算力的托底, AIGC有望成为新一代内容生产基础设施。
5. 人工智能驱动科学研究(AI for Science)从单点突破加速迈向平台化
AI4S (Al for Science,人工智能驱动的科学研究)是利用AI的技术和方法,去学习、模拟、预测和优化自然界和人类社会的各种现象和规律,从而推动科研创新。AI4S可显著降低前沿科技研究中的智力成本并提升研究效率,主要应用领域包括生命科学、气象预测、数学、分子动力学等,有望成为和经验范式、理论范式、计算范式、数据驱动范式互相促进的第五大范式。
业界一般认为2017-2021年是AI4S的概念导入期,此期间相关模型精度、技术路径、学科门类、应用场景持续完善,出现了 DeePMD加速分子动力学模拟、AlphaFold2破解蛋白质折叠预测难题等一批创新成果。
结合全球AI4S领域基础模型和软件的发展情况来看,2022年以后,全球范围AI4S领域的模型和基础软件数量明显增多,且功能由“辅助”“优化”更多转向“启发”“指导”,一定程度上表明AI4S已由概念导入期的“单点突破”发展过渡到“平台化”发展。
“单点突破”阶段,AI4S发展由科研学者主导,数据、模型、算法及方法论的原创性是市场关注重点,AI4S在特定任务或场景中的“单点应用”初步证明了对应解决方案的落地价值。“平台化”发展则意味着,需要将这些已被证明的价值能力沉淀为平台化工具,提升对下游的通用性价值,与此同时,产业界对于AI4S的工程化需求也逐渐增加,工程师和科研学者将共同主导AI4S下一阶段的发展。
AI4S的平台化发展主要依靠四大工具的建设:模型算法和数据分析方法、高效率高精度的实验表征方法、数据库和知识库、专用芯片和高效整合的计算能力。
落地路径主要为在共性平台和功能套件的基础上,针对特定学科的应用研究进行垂直整合,其他落地模式仍有待探索。目前亟需克服密集型计算数据庞杂无序、学科知识壁垒高、跨学科研究生态整合难度大等痛点。预计随着相关科研机构和科技企业不断沉淀底层数据分析和结构仿真设计能力,将更多“科学问题”转化为“计算和工程问题”,AI4S领域有望出现类似Transformer、GPT-3等的通用模型和框架,涌现一批“高效便捷、开箱即用”的科学研究智能化工具。
6. 具身智能、脑机接口等开启通用人工智能(AGI)应用探索
一般来说,学术界将人工智能的发展阶段分为专用人工智能、通用人工智能和超人工智能。
- 专用人工智能指机器具备表象性的智能特征,包括像人一样思考、感知环境以及像人一样行动,是机器学习的时代,典型案例如第一个战胜围棋世界冠军的人工智能机器人AlphaGo。
- **通用人工智能(AGI,General Artificial Intelligence)**指与意识、感性、知识、自觉等人类特征相连结,能够执行人类智力行为的机器智能
- 超人工智能指的是在科学创造力,智慧和社交能力等多方面都比人类大脑聪明很多的智能。目前,人工智能逐步向通用人工智能发展。
通用人工智能的技术原理强调两大特性:
- 需要基于先进算法实现智能处理和决策,包括深度学习、强化学习、进化计算等;
- 需要具备和人类大脑相似的认知架构,包括感知、记忆、分析、思考、决策、创造等模块。
ChatGPT在文本对话领域表现出和人类行为的相似性,被认为是人类通往AGI道路上的重要里程碑式产品,但在实际应用环境中, ChatGPT仍存在数据在线更新能力缺乏、多模态信息不足等问题。参照AGI技术原理来看, ChatGPT在感知尤其是实时感知能力等方面,仍需进一步优化,而具身智能、脑机接口等技术的发展恰恰能带来有效助力。
**具身智能(Embodied AI)**是指具备自主决策和行动能力的机器智能,它可以像人类一样实时感知和理解环境,通过自主学习和适应性行为来完成任务。
**脑机接口(Brain Computer Interface)**是指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换,结合大脑解码技术等让机器更好地理解人类认知过程。
目前,具身智能和脑机接口技术均处在早期技术孵化阶段,存在核心技术不成熟、研发成本较高、场景化应用难度高、监管制度缺位等突出问题,距离实现商业化应用还有较长一段距离。一些研究机构和企业已经开始探索具身智能、脑机接口如何与ChatGPT相结合,有望催生一批更符合AGI特征的应用。
目前,具身智能和脑机接口技术均处在早期技术孵化阶段,存在核心技术不成熟、研发成本较高、场景化应用难度高、监管制度缺位等突出问题,距离实现商业化应用还有较长一段距离。一些研究机构和企业已经开始探索具身智能、脑机接口如何与ChatGPT相结合,有望催生一批更符合AGI特征的应用。
在具身智能方面,2023年2月,微软发布论文《ChatGPT for Robotics: Design Principles and Model Abilities》,提出了ChatGPT应用于机器人的设计原则,并总结了两者结合后带来的跨平台、跨任务机器人控制等多项解决能力。2023年3月,谷歌联合柏林工业大学团队发布多模态具身视觉语言模型PaLM-E,该模型可执行各种复杂的机器人指令且无需重新训练,已表现出较好的迁移能力。2023年7月,AI科学家李飞飞团队公布了利用大型语言模型(LLMs) 和视觉语言模型(VLMs)驱动的机器人项目VoxPoser,人类可以用自然语言给机器人下达指令,机器人直接能够听懂人话,无需额外数据和训练。在脑机接口方面,2023年5月,日本荒谷研究开发部通过非侵入式脑机接口与ChatGPT结合的方式,成功实现了脑电波控制邮件发送。总的来说,具身智能、脑机接口均是AGI不可或缺的技术底座,未来一段时间内,相关研究将进入拓宽加深期。
安全治理
7.人工智能安全治理趋严、趋紧、趋难
深度神经网络大模型的预训练以及在大规模人机交互过程中强化学习必将带来人工智能以认知发展为导向的“自我进化”,如何确保这种自我性特征对人类社会有益而无害,是目前需要面对的巨大挑战。
人工智能带来的挑战主要体现在技术安全、应用安全和数据安全等三方面。从技术安全看,人工智能技术的复杂性和不透明性造成了“黑箱”困境。人工智能模型包含大量的代码,人工智能的设计者利用各种来源的数据训练算法,进行建模,获得结果。随着算力的提升,海量数据被收集利用,机器学习逐渐普及,人工智能高速迭代,在不依赖人工调整的情况下,能够自我学习和更新,不过,人工智能的设计者很难说明人工智能的决策过程和结果,造成了其结果的“不可解释”。
从应用层面看,随着大模型与AIGC 的快速融合发展,生成的内容能够达到“以假乱真”的效果,人人都能轻松实现“换脸”“变声”,人工智能在应用层的风险也相应增加,所带来的虚假信息、偏见歧视乃至意识渗透等问题无法避免,对个人、机构乃至国家安全都存在较大的风险。此外,随着人工智能技术的发展及应用的泛在化,越来越多的工作将被机器取代,失业人群增加,这将对社会公平提出挑战。根据牛津大学和耶鲁大学的一项调研,研究人员预计未来AI将在多个领域赶超人类,例如,卡车驾驶(2027年),零售业(2031年),畅销书写作(2049年),外科医生工作(2053年) 。
8. 可解释AI、伦理安全、隐私保护等催生技术创新机遇
人工智能在发展过程中面临的技术伦理与社会伦理风险表明,人工智能安全、可信的发展之路任重道远,在解决AI风险的过程中催生出可解释 AI、联邦学习等技术创新机遇。
(1)可解释性
对模型透明性和可解释性的要求推动可解释 AI向纵深发展。随着机器学习模型在各个领域的广泛应用,人们对于模型的可信度和可解释性的要求也越来越高。2021年,联合国发布《人工智能伦理问题建议书》,“透明性与可解释性”成为其提出的十大AI原则之一。透明性与可解释性是对AI系统的基本要求,是实现其他伦理价值的必要前提。
可解释 AI ( Explainable Artificial Intelligence)通过对算法决策的解释赋予公众知情权和同意权,有助于提升公众对AI的信任,对算法黑箱、算法失灵等问题进行回应,通过算法透明机制倒逼开发者防范算法歧视,促进算法公平。
可解释AI工具在2016年出现时功能较为简单,之后可解释AI工具越来越多且功能更加强大,可以同时对集成学习模型、图像识别模型以及自然语言处理模型等不同的机器学习模型和深度学习模型进行解释,为AI面临的可解释性问题提供了可行的解决方案。
目前,谷歌的模型卡片机制(Model Cards)、IBM的事实清单机制(Al Fact Sheets)及微软的数据集数据清单(Data-sheets for Datasets)等走在行业前列。随着越来越多的科技公司加大研发投入、布局可解释AI等AI伦理研究与应用场景,将会不断涌现出新的技术和方法,增加人们对于机器学习模型的信任和使用,促进人工智能技术的更广泛应用。
(2)AI对齐
**通过“为机器立心”,逐步实现人机价值观对齐。“人机价值观对齐”(AI Alignment,简称“价值对齐”“AI对齐”)要求AI系统的目标要和人类的价值观与利益相对齐或保持一致。**如果AI和人类的价值观不能对齐,可能会出现AI的行为不符合人类意图、在多种设定目标冲突时做出错误取舍、伤害人类的利益以及脱离控制等。目前AI对齐主要面临选择合适的价值观、将价值观编码在AI系统中及选择合适的训练数据等挑战,让AI系统真正理解人类的价值观并获得人类的信任是人机协作的重要课题。
目前在AI对齐研究方面,2023年4月, DeepMind发表论文,从“提出合适的价值观”方面对AI对齐进行研究;2023年7月, OpenAl组建了由Ilya Sutskever(OpenAl联合创始人兼首席科学家)等领导的人工智能对齐团队,从“用技术方法实现对齐”方面进行研究;2022年7月,北京大学朱松纯团队发表AI对齐论文,提出通过设计“人机协作探索”游戏,尝试形成以人类为中心、人机兼容的协作过程,从而实现实时双向人机价值对齐。
AI对齐是走向通用人机协作的第一步,未来AI对齐的研究方向不仅仅局限于单任务环境,将进一步探索多个任务中的人机价值对齐。此外,信念、欲望、意图等人机之间心理模型的因素是“为机器立心”的过程,也是重要研究方向。
(3)隐私计算
为解决数据难以集中管理、隐私安全问题突出以及机器学习算法本身具有局限性等问题,联邦学习技术应运而生。联邦学习(Federated Learning)是一种机器学习框架,指根据多方在法律法规、隐私保护、数据安全等要求下,将数据样本和特征汇聚后进行数据使用和机器学习建模。联邦学习中各个参与方可以在不共享数据所有权的情况下,通过加密和隐私保护技术共享数据,有助于破解数据孤岛、保障隐私安全及减少算法偏差等。联邦学习自2016年首次由谷歌提出后,由科技企业在金融、安防、医疗、在线推荐系统等B端推广创新应用,逐渐成为解决合作中数据隐私与数据共享矛盾的新方法。
目前联邦学习研究热点主要聚焦在机器学习方法、模型训练、隐私保护等方面,未来研究方向将更多涉及算法模型和安全隐私技术,如数据隐私、深度学习、差分隐私、边缘计算等。联邦学习正成为新型的“技术基础设施”,有望成为下一代人工智能协同算法,隐私计算和协作网络的基础,使数据在合法合规、安全高效的基础上,实现数据价值流动。
9. 开源创新将是AGI生态建设的基石
开源,即开放源代码。代码开源后,开发者可以公开获取版权限制范围内的模型源代码,并进行修改甚至重新开发。与之相反,闭源意味着只有源代码所有者(通常是软件开发商)掌握修改代码的权力。
开源的自由度越高,越有利于吸引更多开发者参与到生态建设中。
AGI强调人工智能的通用性,意味着其生态需满足大量细分场景和长尾需求,这种情况下,生态系统越是繁荣开放,越能穷尽可能地覆盖所有专用化、场景化乃至碎片化的需求,保证AGI生态的丰富性和完整性。进一步地,开发者越多,意味着底层模型和上层应用等的迭代速度也会越快。例如,在三大文生图大模型 Midjourney、DALLE-3、Stable Diffusion中, Stable Diffusion是唯一选择完全开源的,在一定程度上使得其虽诞生最晚,但用户关注度和应用广度优于其他两类模型。
但是,开源也存在一定风险,对于产业生态中的主体企业来说,选择开源某种程度上就意味着公开商业机密,不利于其构建竞争壁垒。此外,开源模式还可能会引发专利侵权风险,主要包括违反开源许可证的规定使用开源软件的侵权情形,以及因开源软件的贡献者引入有版权瑕疵的代码而引发的侵权情形,对开源的知识产权管理规则和流程规范建立提出了挑战。
10. 模型即服务(MaaS)将是AGI生态构建的核心
商业模式关乎整体生态能否实现从价值创造到价值实现的完整闭环,目前AGI生态的商业模式主要以AIGC相关的商业模式为代表,主要包括MaaS (Model as a Service,模型即服务),即大模型厂商将预训练模型开源,形成可调度、可管理、标准化API,按照API调用量来收费、按照产出内容收费、软件订阅收费、或按照模型租赁收费等形式。
以GPT系列模型为例,OpenAI共制定了四种收费模式,分别是ChatGPT Plus订阅收费、 API (除GPT模型接口外,还包括模型微调接口和嵌入接口)调用量收费、文生图按生成量收费和音转文按分钟收费、模型实例租用收费。
业界目前对于MaaS的具体定义并未形成统一说法,API收费模式也只是MaaS的实现路径之一。不过,综合各主流厂商的公开表述,基本可以将MaaS模式的核心价值归纳为:降低算法需求侧的开发技术和使用成本门槛,使AI模型和应用成为简单易用、触手可得的工具。
MaaS模式下,需求侧用户可以专注自身业务逻辑和使用体验,而不必关注底层技术细节,有利于解决AI“能用”但“不好用”这一关键落地瓶颈。而在供给侧,有望形成“通用大模型+领域大模型+行业大模型+企业/个人小模型”这一基础业态(图28),推动 AI落地千行百业,最终实现AGI。换言之,MaaS将会是AGI生态构建的核心。
其中,通用大模型和领域专用模型处于基础层,发挥着基础设施的作用,具有通用性强、多模态乃至跨模态的特点,技术难度高且成本投入巨大,拥有高质量数据、强大的多元异构计算能力、自研大模型的科技巨头企业将是主要参与者,行业大模型在中间层,相较基础层来说更为直接地深入到特定行业,在模型训练方面会接入较稀缺的行业Know- how数据,在部署方面会更多采用API接口、 SDK私部署的形式,呈现出工具化、平台化趋势。
目前,基础层的主流厂商正积极推出行业大模型,例如国外有谷歌的AI医疗大模型,国内有百度旗下度小满推出的金融大模型,预计随着基础大模型走向开源、模型技术成本逐渐降低,未来还会有一批拥有垂直行业优质数据集、数字化转型服务经验丰富的中小科技企业加入中间层,推出更专业、更细分的行业大模型,当底层通用大模型竞争格局逐渐明晰之后,行业大模型将成为各家争夺的关键领域。
企业和个人小模型处在应用层,在大模型基础上蒸馏、裁剪后再使用,具有高性价比、部署高效、安全可靠等特点,小模型功能会以插件形式与SaaS应用、智能硬件等相结合,成为AGI时代的流量入口,例如目前已有多家手机厂商布局手机大模型,预计企业和个人小模型有望在基础层和中间层大模型基本完善后迎来爆发式发展,除应用层软硬件厂商会迎来发展机遇外,普通用户也会迎来类似移动互联网阶段的自媒体形式的创作红利期。