2023年4月中旬值得关注的几个AI模型:Dollly2、MiniGPT-4、LLaVA、DINOv2

news2024/11/15 9:08:57

AI模型的发展速度令人惊讶,几乎每天都会有新的模型发布。而2023年4月中旬也有很多新的模型发布,我们挑出几个重点给大家介绍一下。

  • Dolly-v2

  • MiniGPT-4

  • LLaVA

  • DINOv2

Dolly-v2

Dolly是EleutherAI开源的一系列大语言模型,EleutherAI认为大语言模型应该被所有人共享,并为大多数人提供服务,因此他们开启了大语言模型开源计划。Dolly系列就是他们开源的成果。Dolly 1.0在2023年3月24日发布,而过了还不到一个月时间,Dolly 2.0就发布了。

Dolly 2.0是一个基于Pythia微调的语言模型,Pythia是EleutherAI开源的语言模型,共8个版本,最大的参数120亿(Pythia模型卡信息:https://www.datalearner.com/ai-models/pretrained-models/Pythia )。而Dolly 2.0就是在120亿参数版本上微调得到的。

需要注意的是,Dolly 2.0专门在一个新的高质量人类生成的指令跟踪数据集上进行微调(即databricks-dolly-15k,它包含了15,000个高质量的人类生成的提示/响应对,专门用于调整大型语言模型的指令。),这些数据集是由Databricks员工众包生成的。因此,它在理解人类意图上表现很好。

Dolly 1.0是基于斯坦福Alpaca进行微调的,训练成本为30美元。但是因为Alpaca禁止商业使用,所有Dolly2.0改成了Pythia基础上进行微调,而pythia允许商业使用。

我们认为Dolly 2.0最大的贡献是允许商业使用!它的代码到模型到数据集均开源!

  Dolly 1.0模型卡地址:

https://www.datalearner.com/ai/pretrained-models/Dolly

  Dolly 2.0模型卡地址:

https://www.datalearner.com/ai/pretrained-models/dolly-v2

MiniGPT-4

MiniGPT-4是一个低成本的多模态预训练模型,用了4个A100,10个小时左右训练完成的。基于前段时间开源的Vacuna模型和BLIP-2结合得到。先用500万个文本-图像数据训练,然后再用3500个高质量的数据微调,一下就让语言模型有了理解图像的能力。

从测试结果看,MiniGPT-4在理解图像上有着很不错的效果。而这种低成本的将语言模型能力扩展到对图像的理解,十分值得继续关注。

研究发现,MiniGPT-4具有许多与GPT-4类似的功能,比如生成详细的图像描述和从手写草稿创建网站。MiniGPT-4还有其他新兴功能,包括根据给定的图像撰写故事和诗歌,提供解决图像中显示的问题的方法,以及基于食品照片教用户如何烹饪等。

  MiniGPT-4模型卡地址:

https://www.datalearner.com/ai/pretrained-models/MiniGPT-4

LLaVA

LLaVA全称Large Language and Vision Assistant,是由微软与威斯康星大学麦迪逊分校教授一起提出的一个多模态大模型。

LLaVA将预训练的CLIP VIT-L/14作为encoder,然后和MetaAI开源的LLaMA连接。

与MiniGPT-4不同的是,这个模型主要是把instruction-tuning放到了多模态模型上,这是将指令调整扩展到多模态空间的第一次尝试,使用ChatGPT/GPT-4将图像-文本对转换为适当的指令跟随格式。将CLIP视觉编码器与语言解码器LLaMA连接起来,并进行端到端微调。最终效果也是很不错。

将instruction-tuning能力运用到语言模型的图像理解上是一个值得关注的思路,可能是多模态模型的一个重要的微调方向。

  LLaVA模型卡地址:

https://www.datalearner.com/ai-models/pretrained-models/LLaVA

DINOv2

DINOv2是MetaAI最新开源的计算机视觉领域的预训练大模型。相比较DINO的第一个版本,作者做了很多的修改,使得v2版本的DINO模型性能更加强大。

2021年4月30日,MetaAI公开了DINO算法,DINO的核心思想是在无需标注数据的情况下,学习图像的有意义表示。通过自监督学习,DINO可以从大量未标注的图像中提取视觉特征,这些特征对于各种下游计算机视觉任务非常有用,例如图像分类、物体检测和语义分割。时隔一年后的2022年4月8日,MetaAI开源了DINO的实现代码和预训练结果。

一年之后的2023年4月17日,MetaAI开源DINOv2版本。相比较原始的DINO模型,DINOv2能够对视频进行处理,生成比原始DINO方法更高质量的分割结果。DINOv2能够呈现出非凡的特性,例如对物体部分的强大理解,以及对图像的鲁棒语义和低级理解。

相比较之前的模型,它的性能更好,而且比基于text-image的预训练模型也好很多,不过因为是纯CV领域的预训练结果(1.40亿图像数据集),它主要抽取的是基础特征。但是可以用这个特征做图片分类、图像分割、深度估计等,模型开源,11亿参数版本也就4.2G。

  DINOv2模型卡地址:

https://www.datalearner.com/ai-models/pretrained-models/DINOv2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/458935.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue的diff算法原理

diff 概念diff比较流程头头尾尾头尾尾头比对查找过程 与vue3的区别 diff 概念 vue基于虚拟DOM做更新,diff的核心就是比较两个虚拟节点的差异。 vue的diff算法是平级比较,不考虑跨级比较的情况。内部采用深度递归 双指针的方式进行比较 diff比较流程 先…

文本挖掘 实践笔记

文本挖掘流程:(How) 文本预处理->特征提取->文本分析->可视化展示 文本预处理:包括文本清洗、分词、词性标注等 特征提取:将文本转化为词频、TF-IDF、embedding向量等 文本分析:利用统计学或机器学习的知识,做聚类、情感识别等 可视化展示:帮助人们更好…

Java版本电子招标采购系统源码:营造全面规范安全的电子招投标环境,促进招投标市场健康可持续发展

营造全面规范安全的电子招投标环境,促进招投标市场健康可持续发展 传统采购模式面临的挑战 一、立项管理 1、招标立项申请 功能点:招标类项目立项申请入口,用户可以保存为草稿,提交。 2、非招标立项申请 功能点:非招标…

Pandas技术重点来了

Pandas库建立在NumPy之上,并为Python编程语言提供了易于使用的数据结构和数据分析工具。 1.安装及调用 pip install pandasimport pandas as pd 一种能够保存任何数据类型的一维标记数组 >>> s pd.Series([3, -5, 7, 4], index[a, b, c, d]) 一种具有潜…

第八届cccc团体程序设计天梯赛——个人参赛总结——无代码纯粹的参赛总结

第八届cccc团体程序设计天梯赛——个人参赛总结——无代码纯粹的参赛总结 目录 第八届cccc团体程序设计天梯赛——个人参赛总结——无代码纯粹的参赛总结引言~介绍一下cccc天梯赛(选读)开篇介绍(以下是个人经历部分的分享)赛前准备…

其他品牌的触控笔能用在ipad上?性价比高的触控笔合集

随着平板电脑在学校、办公室等领域的广泛应用,越来越多的人需要一支出色的电容笔。虽然苹果原装的电容笔很给力,但是其的价格实在是太贵了,仅仅把它用于在纸上写写字,实在是太可惜了。所以,哪个电容笔更便宜&#xff1…

密歇根大学Python系列之一:零基础 Python 入门

密歇根大学计算机专业注重将计算机科学理论与实践相结合,旨在帮助学生全面掌握计算机科学的基础理论和实践技能: 1.计算机程序设计:编程技能和常见编程语言,如C和Java和Python等; 2.数据结构和算法:数据结…

2023年能源与环境工程国际会议(CFEEE 2023)

会议简介 Brief Introduction 2023年能源与环境工程国际会议(CFEEE 2023) 会议时间:2023年9月1日-3日 召开地点:中国三亚 大会官网:CFEEE 2023-2023 International Conference on Frontiers of Energy and Environment Engineering 由三亚纵横…

手撕八大排序算法(解析源码+图解)

八大排序算法 文章目录 八大排序算法一、插入排序1.代码实现2.思路图解 二、希尔排序1.代码实现2.思路图解 三、选择排序(优化版)1.代码实现2.思路图解 四、堆排序1.代码实现2.思路图解 五、冒泡排序1.代码实现2.思路图解 六、快速排序1.递归版本2.非递归版本3.快速排序的两个优…

Android之 Bitmap使用

一,简介 1.1 Bitmap是一种图片在内存中的表现形式,不管是png,还是jpg最终都是以bitmap的形式显示到控件上面。 Bitmap是一种位图,位图​是点阵图像​或栅格图像,是由称作像素(图片元素)的单个…

C++篇----类、封装、类访问权限、类实例化

文章目录 一、面向过程和面向对象二、类 一、面向过程和面向对象 c语言是面向过程的编程语言 c是面向对象的编程语言 面向过程:关注过程,对于求解问题的不走,调用函数逐步解决问题 就洗衣服来说:洗衣服需要放水,倒洗衣…

PCL点云库(2) — IO模块

目录 2.1 IO模块接口 2.2 PCD数据读写 (1) PCD数据解析 (2)PCD文件读写示例 2.3 PLY数据读写 (1)PLY数据解析 (2)PLY文件读写示例 2.4 OBJ数据读写 (1&#xff…

QMS-云质说质量 - 10 我和我的客户投诉(2) - 客户逐利 驱除良币

云质QMS原创 转载请注明来源 作者:王洪石 上策伐谋 中策伐交 前面发过一篇关于客户投诉的文章“逢年过节要祈祷”,引起了很多质量人的共鸣,特别是汽车零部件行业曾经和正在负责客诉的质量同行们。 真实的产品质量问题,是否发生只…

Linux-初学者系列2——用户组管理和权限管理

用户组管理和权限管理 Linux-初学者系列2_用户组管理和权限管理一、所有者1、查看文件的所有者指令 2、修改文件所有者指令实操 二、组创建语法指令:实操: 三、所在组1、查看文件/目录所在组基本指令:实操: 2、修改文件所在组基本…

【读书笔记】高效能人士的7个习惯

高效能人士的7个习惯-史蒂芬柯维 个人成功1. 积极主动(BE PROACTIVE)2. 以终为始(BEGIN WITH THE END IN MIND)3. 要事第一(PUT FIRST THINGS FIRST)个人成功总结 集体成功4. 双赢思维(THINK WI…

flex布局属性详解

Flex布局 flex-directionflex-wrapflex-flowjustify-contentalign-itemsalign-content其他orderflexalign-self 含义:Flex是Flexible Box的缩写,意为”弹性布局”,用来为盒状模型提供最大的灵活性。 flex-direction flex-direction属性决定主轴的方向&…

服务(第十二篇)LVS-DR模式

数据包流向分析: (1)客户端发送请求到 Director Server(负载均衡器),请求的数据报文(源 IP 是 CIP,目标 IP 是 VIP)到达内核空间。 (2)Director Server 和 Re…

022 - C++ 析构函数

上期我们讨论了构造函数。认识了它是什么以及如何使用它。如果你没有看上一期,那么你一定要回去看一下。 今天我们要讨论一下它的“孪生兄弟”,析构函数,它们在某些方面非常相似。 构造函数是你创建一个新的实例对象时运行,而析…

无线测温系统在煤矿高压电气设备上的应用

摘要:随着社会经济的不断发展,电力系统向着高电压、高容量的方向前进着,电力系统全新的技术与设备层出不穷,电力的输送能力不断提升。然而,高压电气设备承载的高压电力负荷也让其自身的温升问题成为了威胁电网稳定的元…

张驰咨询:企业如何在不确定的环境中逆势增长?

企业不确定环境主要包括以下几个方面: 1、宏观经济环境的不确定性 包括国内外经济形势、政策调整、外汇汇率等因素的变化,会对企业的发展带来不确定性。 2、市场需求的不确定性 市场需求的变化,包括消费者需求、市场规模、市场结构等方面…