最常见的AI大模型总结

news2024/9/29 23:26:22

前言:大模型可以根据其主要的应领域和功能,可以分类为“文生文”(Text-to-Text)、“文生图”(Text-to-Image)和“文生视频”(Text-to-Video),都是基于自然语言处理(NLP)和计算机视觉(CV)的大模型所实现的功能。这些大模型的发展极大地推动了人工智能技术在各个领域的应用,并且随着技术的进步,未来可能会出现更多创新性的应用和服务。


一、AI大模型分类

1.1、文生文大模型(Text-to-Text)

这类模型专注于文本生成和变换任务,如回答问题、文章写作、摘要生成、新闻撰写、故事创作、翻译等。市面上经典应用包括ChatGPT、通义千问、豆包、文心一言等。

一些典型的模型包括:

  - Llama:Meta推出迄今为止能力最强的开源大模型Llama 3系列,发布8B和70B两个版本。

  -Qianwen:阿里云开源通义千问 Qwen2 大模型,Qwen2的开源旨在推动全球范围内的落地和商  业应用,并计划将Qwen2扩展为多模态模型,融入视觉和语音理解能力。

  -ChatGLM:清华开源的GLM-4-9B模型在综合能力上比ChatGLM3-6B提升了40%,并且在中文学科能力上提升了50%

  - GPT系列(如GPT-3, GPT-4):由OpenAI开发,广泛用于生成连贯的文本。

  - Bard:由Google推出,是一个能够生成对话和文本的模型。

1.2、文生图大模型 (Text-to-Image)

这类模型能够根据给定的文字描述生成相应的图像。应用于创意设计、插图生成、游戏开发中的角色或场景生成、艺术创作等。市面上经典应用Midjoumney是一款AI制图工具,只要关键字就能通过AI算法生成相对应的图片,只需要不到一分钟。

一些典型的模型包括:

  - Stable Diffusion:一个开源的生成模型,能够根据文本生成图像。

  - Kolors:快手推出的文生图大模型,支持多种风格的图像生成。

1.3、文生视频大模型 (Text-to-Video)

这类模型可以根据文本描述生成视频内容。应用于视频制作、广告创意、教育视频生成、娱乐内容创作等。市面上经典应用Sora,​美国人工智能研究公司OpenAI发布的人工智能文生视频大模型,但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器​。

一些典型的模型包括:

Open-Sora1.0:由Colossal-AI团队开源的视频生成模型,能够从文本生成视频。


二、开源大模型总结

针对“文生图”、“文生文”和“文生视频”的分类,下面列出一些当前较为知名的开源大模型。

2.1 、开源文生文大模型

  • Llama :  Meta发布的开源模型,支持多种语言。Llama 是由 Meta AI 开发的一系列语言模型。稳定的版本称为 LLaMA2,特别是 LLaMA2 Long,它具有长达 32,000 个 token 的上下文窗口,并且在多项任务上显示出了超越 ChatGPT 和 Claude2 的性能。这意味着 LLaMA2 在处理长文本和需要更多上下文的任务方面更为出色。最近开源标杆Llama-3.1登上开源顶峰,但其最强的405B版本模型900多GB的内存需求,对资源构成了更加苛刻的挑战。

  • Qianwen:Qianwen(千问)是阿里云推出的一系列大规模预训练语言模型。这些模型可以执行多种自然语言处理任务,包括但不限于文本生成、对话管理和代码理解。它们在多个基准测试中取得了优异的成绩,并且由于是开源的,可以被广大开发者用于各种应用和服务中。

  • ChatGLM:ChatGLM 是智谱AI发布的一款对话模型,基于智谱AI自主研发的中英双语对话模型ChatGLM2。智谱清言具有千亿级别的参数,并且提供了丰富的文档和代码功能,允许用户根据自己的行业需求对模型进行训练和优化。智谱清言的主要功能包括但不限于内容创作、信息归纳总结、通用问答、多轮对话等。智谱AI还在持续更新和改进其模型,例如发布了GLM-4开源模型,该模型相比之前的版本有了显著的能力提升。GLM-4-9B模型在综合能力上比ChatGLM3-6B提升了40%,并且在中文学科能力上提升了50%。此外,智谱AI还提供了支持多达26种语言、最高支持达1百万tokens长文本等功能。

  • GPT-J: 一个基于GPT-3架构的开源模型,具有60亿参数。

  • GPT-NeoX: 一个拥有200亿参数的开源模型,基于GPT-3架构。

  • BLOOM: 一个多语言模型,支持47种语言,具有1760亿参数。

2.2、开源文生图大模型

  • Stable Diffusion: 一个非常流行的开源模型,能够根据文本生成高质量的图像。

  • Sora: Colossal-AI团队发布的开源模型,支持从文本生成图像。

  • Kolors:  快手可图是由快手公司基于Stable Diffusion框架开发的大规模文本到图像生成模型,在图像质量和综合评分方面表现出色。

  • HunyuanDiT: 腾讯开源的混元文生图模型,采用DiT架构,支持中英文输入及理解。

2.3、 开源文生视频大模型

  • Open-Sora1.0: Colossal-AI团队开源的模型,能够从文本生成视频。

  • Make-a-Video: 由Meta AI团队发布,是一个能够根据文本生成视频的模型。

2.4、 其他相关模型

RCG (Representation Conditional Generation): 由麻省理工学院和Meta合作开发的模型,能够在没有人工标注的情况下生成图像。


三、2023-2024大模型关键进展

自2022年11月30日Chat GPT发布以来, AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮 。 国内学术和产业界在过去一年也有了实质性的突破 。  大致可以分为三个阶段, 即准备期 (Chat GPT发布后国内产学研迅速形成大模型共识) 、 成长期 (国内大模型数量和质量开始逐渐增长) 、爆发期 (各行各业开 源闭源大模型层出不穷, 形成百模大战的竞争态势) 。


中文大模型基准测评2024年4月报告

GLM-4-9B:智谱AI推出了一个新的实力强大的小模型!

AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney

Meta震撼发布Llama 3,一夜重回开源大模型铁王座

 大模型千问2(Qwen2)系列新产品来了

腾讯混元文生图大模型开源:Sora 同架构,更懂中文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1980197.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM从入门到放弃

前言:关于JVM,其实有很多大厂开发了不同版本的JVM,比较知名的有:Sun HotSpot VM、BEA JRockit VM、IBM J9 VM、 Azul VM、 Apache Harmony、 Google Dalvik VM、 Microsoft JVM等等。现在使用的比较多的JDK8版本就是Sun HotSpot V…

「C++系列」指针

文章目录 一、指针的定义二、指针的基本概念1. 基本概念2. 案例代码示例 1:基本指针使用示例 2:指针与数组 3. 注意事项 三、指针的用途1. 指针的用途2. 案例代码案例1. 动态内存分配案例2. 函数参数(通过指针修改值)案例3. 数组和…

poky yocto(04):编译在vmware上运行的镜像

编译镜像 bitbake build-appliance-image 得到文件:build-appliance-image-qemux86-64.wic.vmdk 问题的关键来了,如何启动这个东西呢?由名字可知,这是一个vmware的硬盘文件,需要创建一个新的虚拟机加载它。 创建虚拟…

黑神话悟空游戏电脑配置要求 黑神话悟空Steam销量全球两连冠 黑神话悟空苹果笔记本电脑能玩吗 黑神话悟空是什么类型的游戏

相信不少游戏爱好者,近期被《黑神话:悟空》这款游戏刷屏了,备受期待的国产单机大作《黑神话:悟空》将于8月20日全球同步上线,登陆 PC (Steam / Epic / WeGame) 和 PS5 平台。凭借空前的关注度,该游戏有望成为国产游戏行…

sql注入漏洞复现

and 11 正常 and 12 报错 从这就已经说明是sql数字型注入了 上sqlmap验证一下 存在布尔盲注,时间盲注...... 我是在漏洞盒子上提交的,能不能通过看运气吧 下面这个漏洞已经是很久之前的了,现在已经是修复了,当时还是太年轻了...…

文献阅读:扩散波模型的物理信息神经网络

目录 摘要 Abstract 扩散波模型的物理信息神经网络 文献摘要 讨论|结论 理论知识 扩散波动方程(曼宁方程) 梯度停止(Stop-gradient)技术 时分PINN(TPINN) 新结构(fPINN) 实验设置 稳定流问题 等速和扩散问题 非线性速…

基于STM32的简易音频播放系统

目录 引言环境准备工作 硬件准备软件安装与配置系统设计 系统架构硬件连接代码实现 初始化代码音频播放代码应用场景 简易音频播放语音提示系统常见问题及解决方案 常见问题解决方案结论 1. 引言 音频播放系统在日常生活中有着广泛的应用,从简单的语音提示到复杂…

基于Transformer的语音识别与音频分类

重磅推荐专栏: 《大模型AIGC》 《课程大纲》 《知识星球》 本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域,包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用,以及与之相关的人工智能生成内容(AIGC)技术。通过深入的技术解析和实践经…

如果我的发明有修改,需要如何处理?

如果我的发明有修改,需要如何处理?

近期关于云服务器window server 2012屏蔽游戏加速器/IP加速器模拟IP连接限制策略

winr 打开运行 输入 gpedit.msc 找到本地组策略编辑器的对应设置 设置启用即可。

【redis 第七篇章】动态字符串

一、概述 string 类型底层实现的简单动态字符串 sds,是可以修改的字符串。它采用预分配冗余空间的方式来减少内存的频繁分配。 二、SDS动态字符串 动态字符串 是以 \0 为分隔符。最大容量 是 redis 主动分配的一块内存空间,实际存储内容 是具体的存的数…

BACnet 调试工具 工程师必备

文章目录 BACnet 调试工具 工程师必备主要功能软件截图 BACnet 调试工具 工程师必备 官网地址 BACnet(Building Automation and Control Networks)是由美国采暖、制冷与空调工程师学会(American Society of Heating, Refrigerating and Air…

【网络层】IP报文解析和网段划分

文章目录 网络层的作用IP协议协议报头格式网段划分DHCPCIDR划分方案 IP地址的数量限制私有IP地址和公网IP地址LAN和WAN 路由 网络层的作用 前面学习了应用层和传输层,应用层的作用是为用户和应用程序提供网络服务,传输层的作用是提供端口到端口的通信服…

Android 10.0 系统默认蓝牙打开状态栏显示蓝牙图标功能实现

1.前言 在10.0的系统rom定制化开发过程中,在默认系统中,打开蓝牙开关的时候不会状态栏不会显示蓝牙图标,而只有 蓝牙连接成功后会显示蓝牙图标,客户开发需要要求在蓝牙打开的时候在状态栏就显示蓝牙图标,接下来分析下 相关的状态栏图标显示流程,然后实现相关功能 2.系统…

模块的介绍

一、模块的基本介绍 1、模块是什么? 1)模块是一个py文件,后缀名.py 2)模块可以定义函数、类和变量,模块里也可能包含可执行的代码 2、模块的作用有哪些? 1)当函数、类、变量很多时&#xf…

java基础--字符串用法

一、前言(在java中字符串的重要性) 在 Java 编程中,字符串(String)的重要性不言而喻,它几乎贯穿于所有的应用程序和系统中。以下是 Java 中字符串重要性的几个方面: 1. 数据表示和处理 文本数…

使用PXE和kickstart完成自动化批量主机的安装

本实验采用的版本为rhel7.9 kickstart: 首先写一个kickstart脚本 安装脚本工具 配置自动化脚本 下载http服务用来共享脚本 yum install httpd -y systemctl enable httpd --now 实验的过程中把防火墙和selinux都关闭 配置自动化脚本 创建一个软链接使得用户访…

集团ERP信息化项目实施方案(可编辑82页PPT)

引言:在当前信息化快速发展的时代,集团企业面临着日益增长的业务复杂性和数据管理挑战。为了提升集团的整体运营效率、加强数据集成与共享、优化业务流程,我们决定实施ERP(企业资源计划)信息化项目。 方案介绍&#x…

最新口型同步技术EchoMimic部署

EchoMimic是由蚂蚁集团推出的一个 AI 驱动的口型同步技术项目,能够通过人像面部特征和音频来帮助人物“对口型”,生成逼真的动态肖像视频。 EchoMimic的技术亮点在于其创新的动画生成方法,它不仅能够通过音频和面部关键点单独驱动图像动画&a…

翻译: 可视化深度学习反向传播原理二

顺便一提 这有一点点像描述生物中 神经元的网络如何学习的一个理论 “赫布理论” 总结起来就是“一同激活的神经元关联在一起” 这里 权重的最大增长 即连接变得更强的部分 就会发生在已经最活跃的神经元 和想要更多激发的神经元之间 可以说 看见一个“2”时激发的神经元 会和…