热门AI通用大模型对比盘点(附论文)

news2024/12/20 2:24:03

今天我来和大家聊聊通用大模型,垂直领域大模型等整理完了再和大家分享。大家可以先关注一下我,有更新可以立马看见。

本文文末有整理好的通用大模型论文,都是各个大模型的原始论文,强烈建议大模型方向的同学,或者对大模型研究感兴趣的同学阅读。

另外也分享一下我之前盘点过的GPT4平替模型,大家感兴趣的可以点蓝字  看看。

自ChatGPT发布以来,通用大模型就仿佛坐了火箭,短短几个月的时间,各大企业便争相发布自己的大模型,这其实也反应了目前人工智能发展的方向,所以,目前通用大模型的研发已经成为各国新一轮技术竞争的核心领域。

既然都这么火了,那让我们来看看到现在都有哪些通用大模型。

国内:

1.文心一言

网址:文心一言

使用评价:在文学创作上回答的挺全面,数学解答能力有点不太行,代码能力也是一般般。

2.通义千问

网址:通义千问

使用评价:文学创作也很不错,翻译和数学问题回答的也可以,代码能力有待提高。

3.讯飞星火

网址:讯飞星火认知大模型

使用评价:首先它这个审核速度我是满意的,两天就通过可以上手玩耍了,代码解释能力不错,但是写代码还是差点意思。

4.天工

网址:天工官网

使用评价:文学创作能力也在线,数理问题也能做,代码能力整体也是一般。

5.360智脑

网址:360智脑 - 体验平台

使用评价:这个也是申请了好久,刚刚才通过,我都快忘了...简单试用了一下,数理问题复杂点的不太行,代码编程能力还不错。

国外:

1.ChatGPT

网址:https://chat.openai.com/

使用评价:这还需要评价嘛(doge)

2.new bing

网址:必应

使用评价:这么说吧,我现在找论文基本都用它。

3.Claude

网址:Slack is your productivity platform | Slack

使用评价:用Claude需要先注册一个slack号,然后才能使用。流程还是比较简单的,有同学需要注册攻略吗?需要的话在评论区吱一声,我之后整理一下。

偏题了...Claude好处是登录之后就不用再用魔法了,而且用它来辅助阅读论文是真不错~

4.Bard

网址:https://bard.google.com/

使用评价:这个我用的少,用的时候还不支持中文,创造力不如GPT,其他能力还是可以的。

必读论文:

1.word2vec

论文标题:Efficient Estimation of Word Representations in Vector Space

这篇论文在词向量学习和大规模文本表示学习方面做出了以下贡献:

1) 提出两种词向量学习模型架构:word2vec模型

2) 这些模型可以在大规模数据集上快速学习高质量词向量

3) 学习到的词向量在词相似度任务上优于其他方法,达到当时的最先进水平

这篇论文为大规模词向量学习和文本表示学习提供了有价值的参考,为自然语言处理任务奠定了基础。

2.Seq2Seq

论文标题:Sequence to Sequence Learning with Neural Networks

这篇论文提出了一种基于LSTM的端到端序列学习方法:Seq2Seq,首次将编码器-解码器结构应用于自然语言处理任务。

该方法在英法机器翻译任务上取得了当时最先进的结果,可以学习词序敏感的短语和句子表示,并且可以通过引入更多短期依赖关系来提高性能,表现出较强的表达能力和学习能力。

这篇论文为序列学习和神经网络机器翻译研究提供了有价值的参考,为后续研究奠定了基础。

3.Transformer

论文标题:Attention is All You Need

这篇论文的主要贡献为:

1) 提出一种网络架构Transformer,引入了自注意力机制

2) Transformer在机器翻译质量和效率上优于其他序列转换模型

3) Transformer显示出很强的泛化能力,可以应用于其他自然语言处理任务

这篇论文为序列学习和神经网络机器翻译研究提供了新的思路和参考。该网络架构Transformer已成为机器翻译和其他序列学习任务的主流框架之一。

4.BERT

论文标题:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

这篇论文的主要贡献为:

1) 提出BERT模型,实现实现了多项自然语言处理任务的突破性进展。

2) BERT在11个NLP任务上取得SOTA,展示了其强大的适用性

3) BERT通过简单的微调即可迁移到不同任务,无需重大改变模型架构,这大大减轻了研发模型的工作量。

这篇论文在NLP的预训练模型和深度学习模型的研究与应用方面具有里程碑意义。

BERT模型的提出开启了NLP中大规模语言理解的新篇章。其强大的表征学习能力和任务迁移能力使其迅速应用于NLP的各个子领域,产生广泛影响,极大地推动了NLP技术的进步。

5.GPT

论文标题:Improving Language Understanding by Generative Pre-Training

这篇论文的主要贡献为:

1) 提出一种基于生成式预训练和歧视性微调的方法,实现NLP任务的迁移学习

2) 使用面向任务的输入变换实现迁移,仅需要少量改变模型架构

3) 实证该方法在12个任务上的有效性,实现SOTA

4) 提供一种通用的框架,解决NLP任务学习中的数据匮乏问题。

这篇论文在NLP中迁移学习和端到端学习的研究方面具有重要意义。作者提出的方法为解决不同任务的数据匮乏问题提供了一种有效和实用的框架。

6.GPT2

论文标题:Language Models are Unsupervised Multitask Learners

这篇论文的主要贡献为:

1) 提出了一个从大规模文本数据中自动发现任务的方法

2) 利用大规模网页数据集WebText预训练语言模型,使其可以零样本学习执行NLP任务

3) 证明语言模型的容量对迁移学习至关重要,更大的模型可以实现更好的性能

4) 模型GPT-2在7个语言建模数据集上达到SOTA,但仍然不足以拟合全部WebText

这篇论文在NLP中的迁移学习和无监督学习方面具有重要意义。作者证明了大规模语义模型在合适的数据集上的预训练可以实现对NLP任务的零样本学习和适配。这为解决数据匮乏问题,构建可以像人类一样从示例中学习任务的语言模型提供了参考。

7.T5

论文标题:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

这篇论文的主要贡献为:

1) 提出一个统一的框架T5,推动迁移学习的发展

2) 系统研究不同迁移学习方法,并在多个NLP下游任务上进行比较

3) 基于Colossal Clean crawled语料库和模型规模,在许多基准测试上达到SOTA

这篇论文在NLP中迁移学习的研究和应用方面具有重要意义。作者提出的框架和比较研究可以指导未来在不同任务和方法上的工作。

8.GPT3

论文标题:Language Models are Few-Shot Learners

这篇论文的主要贡献为:

1) 提出大规模语言模型GPT-3

2) 在少样本设置下,GPT-3在许多NLP任务上达到或超过先前SOTA,展示了规模化带来的性能提高

3) GPT-3在某些任务上表现人类水平,但也面临方法论方面的挑战

4) 讨论大规模语言模型可能带来的广泛社会影响。

GPT-3的强大能力预示着深度学习在NLP领域可能取得的显著进步,但也提示研究社区需要正视并处理人工智能带来的广泛影响。

9.LLaMA

论文标题:Open and Efficient Foundation Language Models

这篇论文的主要贡献为:

1) 开发并开源一组不同规模的语言模型LLaMA

2) 证明可以仅使用公开数据集训练最先进的语言模型

3) 这些模型在性能上匹配或超过专有模型,为语言模型的研究和应用带来更大选择

这篇论文在大规模语言模型和神经网络模型的研发和应用方面具有重要意义,减少了语言模型研究的门槛,使更多研究者可以接触并开发大规模神经网络模型,有助于推动该领域技术的发展。

10.GPT4

论文标题:GPT-4 Technical Report

这篇论文的主要贡献为:

1) 开发了大规模多模态语言模型GPT-4

2) GPT-4在人工智能基准测试中达到或超过人类水平

3) 模型研发采用可扩展的框架,可以在不同规模下保证性能,为后续更大规模模型提供经验

4) 该模型为多模态智能体研究和人工通用智能发展提供了有价值的参考

GPT-4的强大能力表明在人工智能的发展已进入新的阶段,为人工智能的未来发展指明了方向。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“通用”获取全部论文PDF

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/612395.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

突破软件交付不可能三角,企业级无代码如何实现卓越交付?

一、VUCA时代下项目交付面临的困境 软件开发或软件项目交付一直以来都存在着“不可能三角”,即成本、效率和质量三者难以兼得。 交付周期长、成本高、满意度低等一直是行业内长期存在的现象,甚至软件交付双方都习以为常。传统项目管理与软件实施过程难…

Niagara—— Texture Sample 与 Particle Subuv 区别

一,Texture Sample 此节点是最基本的采样节点,依据UV坐标来采样Texture; MipValueMode,设置采样的Mipmap Level; None,根据当前Texture大小和物理缩放,自动选择合适的 Mipmap Level &#xff1b…

行为型设计模式03-观察者模式

🧑‍💻作者:猫十二懿 🏡账号:CSDN 、个人博客 、Github 🎊公众号:猫十二懿 观察者模式 1、观察者模式介绍 观察者模式是一种行为型设计模式,也被称为发布-订阅模式,它定…

Hive学习---4、函数(单行函数、高级聚合函数、炸裂函数、窗口函数)

1、函数 1.1 函数简介 Hive会将常用的逻辑封装成函数给用户进行使用,类似java中的函数。 好处:避免用户反复写逻辑,可以直接拿来使用 重点:用户需要知道函数叫什么,能做什么 Hive提供了大量的内置函数,按…

《相信》读后感

近日阅读了蔡磊的《相信》一书,蔡磊先生曾是京东集团副总裁,中国电子发票的推动者。上天给了他优越的智商条件,从上学到工作,前半生几乎顺风顺水、获誉无数,却在初为人父、本该享受家庭幸福的时候,接到突患…

Python字典及用法详解

Python中的字典(Dictionary)是一种无序、可变的数据类型,用于存储键(Key)和值(Value)之间的映射关系。字典是一种高效的数据结构,可以用于快速查找和检索数据。 1.创建字典 可以使…

MobileViT详解:轻型,通用,移动友好的视觉变压器

MobileViT详解:轻型,通用,移动友好的视觉变压器 0. 引言1. 网络结构2. 模型详解2.1 MobileViT Block2.1.1 Local representations2.1.2 Transformers as Convolutions (global representations)2.1.3 Fusion 2.2 MV2 3. 简化版理解4. 总结 0.…

Ubuntu系统搭建FTP服务器

Ubuntu 系统版本:Ubuntu 22.04.2 LTS 安装 vsftpd 软件包 sudo apt-get update sudo apt-get install vsftpd查看版本,验证是否安装成功:vsftpd -v 配置文件 以下是我翻译后的默认配置文件(地址 /etc/vsftpd.conf)&a…

[NOI2009] 描边

题目描述 小 Z 是一位杰出的数学家。聪明的他特别喜欢研究一些数学小问题。 有一天,他在一张纸上选择了 n 个点,并用铅笔将它们两两连接起来,构成 (�−1)22n(n−1)​ 条线段。由于铅笔很细,可以认为这些线段的宽度为…

ROS:参数的使用与编程方法

目录 一、参数模型二、 创建功能包三、参数命令行的使用(rosparam)四、使用程序来使用参数(C)4.1创建代码4.2编译4.3运行 一、参数模型 在ROS Master中,存在一个参数服务器(Parameter Server),它是一个全局…

Python高光谱遥感数据处理与机器学习实践技术丨Matlab高光谱遥感数据处理与混合像元分解

目录 Python高光谱遥感数据处理与机器学习实践技术 第一章 高光谱基础 第二章 高光谱开发基础(Python) 第三章 高光谱机器学习技术(python) 第四章 典型案例操作实践 Matlab 高光谱遥感数据处理与混合像元分解 第一章 理论…

java SSM 互助旅游管理系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

一、源码特点 java SSM 互助旅游管理系统是一套完善的web设计系统(系统采用SSM框架进行设计开发,springspringMVCmybatis),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采…

预制菜进击万亿市场,谁能更快上桌“吃菜”?

文 | 螳螂观察 作者 | 图霖 消费行业很少有可持续的风口,这两年的预制菜算其中一个。 艾媒咨询发布的行业预测显示,2026年我国预制菜市场规模有望达到10720亿元。 过去这一年,武汉、大同等地已相继召开了预制菜相关的产业峰会。峰会规模有…

gismo-3维IGA

文章目录 前言一、简单示例二、gismo-3维IGA3维程序中的几何模型 三、xml文件的理解1、xml文件示例2、gismo中二维示例文件-一个曲面(简单) 四、三维程序中xml文件的理解三维几何模型边界信息 五、三维程序运行细化四次细化5次 总结 #pic_center 前言 只…

C#读写FDX-B ISO11784/85协议动物标签源码

一个FDX-B ISO11784/85协议动物标签内包括了以下信息: 11位的前导码;38位的SN序号;10位国家代码;1位data block标识;14位保留位;1位Animal动物标识;以上64位数据的crc16ccitt校验码&#xff0c…

短视频矩阵源码系统打包.源码

Masayl是一款基于区块链技术的去中心化应用程序开发平台,可帮助开发者快速、便捷地创建去中心化应用程序。Masayl拥有丰富的API和SDK,为开发者们提供了支持。此外,Masayl还采用了高效的智能合约技术,确保应用程序的稳定、安全和高…

项目集管理—项目集治理

一、概述 项目集治理是实现和执行项目集决策,为支持项目集而制定实践,并维持项目集监督的绩效领域。 本章包括: 项目集治理实践项目集治理角色项目集治理设计与实施 项目集治理包括为了满足组织战略和运营目标的要求,对项目集实…

【虹科案例】虹科数字化仪在激光雷达大气研究中的应用

01 莱布尼茨研究所使用激光雷达进行大气研究 图 1:在 Khlungsborn 的 IAP 办公室测试各种激光器 大气研究使用脉冲激光束通过测量大气中 100 公里高度的多普勒频移和反向散射光来测量沿光束的温度和风速。返回的光信号非常微弱,会被阳光阻挡&#xff0c…

90后的心声:都别卷了,上年纪了真的卷不动.....

内卷,是现在热度非常高的一个词汇,随着热度不断攀升,隐隐到了“万物皆可卷”的程度。 内卷的来源 内卷最早的“出处”是几张名校学霸的图片。 大学生们刷爆朋友圈的几张“内卷”图片是这样的:有的人骑在自行车上看书&#xff0c…

如何处理亿级图片排重(精准排重,相似排重)

图片相似度对比 1、需求 假如有一个图片池,存有1亿图片。给一张目标图片,在图片池中做匹配。 判断一张图片是否在图片池中出现过。(完全一样)判断有没有相似的出现过。比如两张图相似度90,两张图片是在描述一件事情。 …