阿里版的 ChatGPT 语言大模型来了。
张勇在峰会上表示,阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面改造。他认为,面向AI时代,所有产品都值得用大模型重新升级。
目前,钉钉、天猫精灵等产品已接入通义千问测试,将在评估认证后正式发布新功能。接入后,钉钉可实现近10项新AI功能,全面辅助办公。接入通义千问后,新天猫精灵变得更拟人更聪明,知识、情感、个性、记忆能力大幅跃升。
阿里的“通义千问”将让生成式AI更贴近中国人的生活。
生成式AI又可称为AIGC(Artificial Intelligence Generated Context,即可以利用人工智能技术自动产生内容)。
生成式AI起源于分析式AI,分析式AI发展过程中的技术积累为生成式AI的产生奠定基础。分析式AI其学习的知识局限于数据本身;生成式AI在总结归纳数据知识的基础上可生成数据中不存在的样本。
分析式AI是数据学习。利用机器学习技术学习数据分布, 进行如分类、预测等任务。 发展过程中诞生了卷积神经网络, 残差深度网络,Transformer网络结构等。
生成式AI是数据学习+新数据生成。在学习归纳数据分布的基础上,学习数据产生的模式,并创造数据中不存在的新样本。 在分析式AI技术基础上诞生大型 Transformer网络,Diffusion等新模型。
生成式AI为何爆发?
生成式AI发展经历了早期萌芽、沉淀积累和2014年之后的快速发展阶段。从模型赋智阶段(从现实生成数字),生成式AI可利用AI技术构建模拟现实世界的数字孪生模型;到认知交互阶段(从数字生成数字),AI能够学习并创作更丰富的内容;再到现今的空间赋能阶段(从数字生成现实),生成式AI基于物联网,多模态技术获取多维信息,已然能实现更加智能的人与机器互动。
生成式AI的本质是内容与场景,其发展需要AI与后端基建,算法、算据和算力三要素耦合共振。
算法持续迭代。2017年推出的Transformer架构的并行训练优势奠定了大模型训练的基础,GPT为代表的预训练模型,通过使用无标注数据预训练及微调缓解了标注数据不足的问题,并不断提升参数量级及模型通用性,ChatGPT在此基础上加入了利用人类反强化学习的训练方法。扩散模型取代GAN成为图像生成领域的主流模型,CLIP模型推动跨模态生成技术的发展。
模型商业化及开源释放创造力。GPT3的商业化及CLIP及Stable Diffusion模型的开源推动文本生成、文生图产品化浪潮。
AI模型的升级迭代为生成式AI性能跨越式发展奠定基础。人工智能技术推动生成式AI行业不断发展,其中学习范式的更新赋予AI模型主动学习能力,模型结构升级提升AI模型学习、归纳与创新能力。
生成式AI进入应用爆发期
随着内容创造的爆发式增长,如何做到内容在质量和语义上的可控,成为可控式生成,将是生成式AI面临的主要挑战。在产业化方面,降成本仍是关键挑战。只有像ChatGPT这样的大模型训练成本和推理成本足够低,才有可能规模化推广。此外,数据的安全可控、创作版权和信任问题也需要随着产业化加快逐一解决。
未来三年,生成式AI将步入技术产品化的快车道,在商业模式上会有更多探索,产业生态也会随着应用的普及逐步完善。届时,生成式AI的内容创造能力将达到人类水平。拥有数据、计算能力、产品化经验的大型科技公司将成为生成式AI落地的主要参与者。
基于生成模型的计算基础设施和平台会逐步发展起来,模型变成随手可得的服务,客户不需要部署和运行生成式模型的专业技能就可以使用。生成模型将在交互能力、安全可信、认知智能上取得显著进展,以辅助人类完成各类创造性工作。