Llama 3.2 视觉能力评估

news2024/10/5 11:35:29

Meta 发布了 Llama 3 模型的新版本;这次,有四种模型用于不同的目的:两个多模态模型,Llama 3.2 11B 和 90B,以及两个用于边缘设备的小型语言模型,1B 和 3B。

这些是 Meta AI 的首批多模态模型,基准测试表明它们是小型和中型专有替代品的强大竞争对手。我不太喜欢 LLM 基准测试;它们往往具有误导性,可能无法代表现实世界的表现。但是,你可以在官方博客文章中查看结果。

我想在我每天经常遇到的最常见的视觉任务上测试该模型,并将其性能与我的首选 GPT-4o 进行比较。

我关注的任务包括:

  • 基本图像理解
  • 医疗处方和报告分析
  • 从图像中提取文本
  • 财务图表解释

 NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割

1、一般图像理解

本节包含一般图像理解、计数和识别对象等的示例。

1.1 Frieren的吃汉堡的图像

因此,我从 Frieren 吃汉堡的著名图像开始。以下是 GPT-4o(左)和 Llama3.2(右)的回应。

两个回应都同样好,但 GPT4o 可以正确显示麦当劳的标志。

1.2 统计物体的数量

接下来,让我们看看它是否能正确计算图像中的物体数量。让我们从一个简单的图像开始。

两个模型都能够正确回答。

现在,让我们让它变得有点困难。

我要求两个模型计算图像中的叉子数量。

令人惊讶的是,Llama 3.2 可以正确回答,而 GPT4o 忽略了桌子上没有立即可见的叉子。

接下来,我让他们数一数杯子的数量并解释它们的形状。

两者都给出了正确的数字。Gpt4o 的描述要好得多,眼镜的形状得到了正确的解释。另一方面,Llama 3.2 的描述部分正确。

视觉语言模型的一个广泛用例是识别任何架子工具并要求它解释其功能。

所以,我要求模型识别——这个实用工具。

两者都做得很好,但 Gpt-4o 更详细、信息量更大。

1.3 叶病诊断

让我们更进一步,让模型从照片中识别植物疾病。我有一个小种植园,经常使用 GPT-4o 来识别植物疾病。

因此,我提取了一张图片并让模型识别植物疾病。

这次 GPT4o 也正确无误。它正确地将植物的疾病识别为霜霉病,而 Llama 3.2 错误地识别为萎黄病。

我再次尝试了它们,两个模型都正确地识别出了疾病。

2、理解处方和医疗报告

我无法强调我有多少次需要帮助才能理解医疗处方。我很确定很多人可能都是这种情况。

所以,我让模型解读这个处方。

GPT 4o 在这里表现更好;它理解了病人的姓名和处方药。Llama 3.2 一点也不费力。

现在让我们在医疗报告上测试它们。这是甲状腺测试的测试报告。

这令人惊讶;即使提到了标准的 TH 水平,GPT-4o 仍然说这是甲状腺功能减退症。另一方面,Llama 3.2 vision是正确的。所以,不要盲目相信 ChatGPT 的医疗建议,

我还要求两个模型理解 X 射线报告。

两者都是正确的。不过,GPT4o 的回应很详细,而 Llama 3.2 vision则直接简洁。

图像理解总结:Llama 3.2 vision无疑是开源社区的福音,它可以完成很多视觉任务,性能接近 GPT-4o,考虑到性价比,这是一个不错的选择。

3、文本提取

从图像中提取重要文本是视觉语言模型的另一个有价值的用例。

以下是我测试图像到文本提取可以受益的模型的几个案例。

3.1 发票处理

从发票中提取实际细节通常很有用。因此,我为这两个模型提供了最近购买的冰箱的发票。

可能存在比通过提示提取文本更好的方法。你可能需要使用 Instructor 等外部工具。无论如何,我想测试这些模型的原始输出,两者似乎都时好时坏。有时,它们做得很好,有时,它们做得很糟糕。

3.2 表格提取

让我们从 JSON 格式的表格图像中提取数据。我为这两个模型提供了随机表格数据,并要求它们以 JSON 格式提取数据。

从我的测试来看,GPT-4o 的表现优于 Llama-3.2。GPT-4o 的提示遵循性比 Meta 的 Llama-3.2 好得多。

文本提取总结:Llama 3.2 是一个强大的模型;但是,如前所述,GPT-4o 更好地遵循提示。因此,使用 GPT-4o 更容易提取所需数据。

4、财务图表分析

现在让我们使用财务图表分析来测试这些模型。由于我不是财务分析师,我将判断哪种解释更好。

我给出了 Reliance Industries 的一个月走势线图。

下面是两个模型的输出:

我不会说这些响应是准确的,但 GPT4o 的解释似乎要好得多——Llama 3.2 似乎产生了很大的幻觉。

财务图表分析总结:GPT-4o 仍然更适合复杂的图表和分析。 Llama 3.2 比 GPT4o 产生更多的幻觉,并且会自行编造东西。

5、最终裁决

以下是我对新 Meta 的 Llama 3.2 视觉模型的看法。

这是第一个原生开源多模态模型,是未来的一个好兆头。 多模态 405B 一定是有可能的。

何时使用 Llama 3.2 Vision?

该模型在理解和分析一般图像方面非常出色。考虑到成本和隐私优势,在不需要复杂分析或深度知识的任务中使用它很有意义。


原文链接:Llama 3.2 视觉能力评估 - BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2189792.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

反射第二弹:用注册器动态注册(用自定义的注解标注的)策略,实现策略模式的设计

引言 曾经有人问我,假如有一个业务或者数据处理逻辑,会根据甲方客户繁杂的业务需求,而动态变化,该怎么处理,具体怎么实现? 将所有策略strategy都写出来,然后放入一个hashMap,根据不同…

VTK+其他布尔运算库

文章目录 一、vtkBool1.1 安装1.2 使用1.3 效果 二、CGAL 本文的主要内容:VTK内置的布尔运算类具有稳定性差、计算时间长等缺点,为了避免使用VTK内置的布尔运算,本文简单介绍了两个比较实用的库用于替代,主要涉及vtkBool和CGAL库的…

私域高效管理指南:提升用户粘性的高效法则

随着越来越多的品牌将目光投向私域流量,如何高效地管理这些用户并提升他们的粘性,成为了营销领域的重要课题。 下面,就分享一些私域高效管理的实用法则,帮助你在私域管理中游刃有余。 1、用户分层 对于新用户而言,他…

redhat7.7 linux 网络配置文件

一、为什么虚拟网卡配置文件是ens33 变更目录至网络脚本(network-scripts)文件夹,发现网络配置文件名称为“ifcfg-ens33” cd /etc/sysconfig/network-scripts ls扩展:“ifcfg-ens33”文件下面还有一个“ifcfg”前缀的文件&…

LabVIEW程序怎么解决 Bug?

在LabVIEW开发过程中,发现和解决程序中的Bug是确保系统稳定运行的关键环节。由于LabVIEW采用图形化编程方式,Bug的排查和处理与传统编程语言略有不同。以下是解决LabVIEW程序中Bug的常见方法和技巧,涵盖从问题发现到解决的多个步骤和角度&…

LabVIEW裂纹深度在线监测系统

随着铁路运输技术的快速发展,火车安全问题成为重中之重,尤其是轮面裂纹的检测和管理。裂纹的出现可能导致严重的列车事故,因此,建立可靠的在线监测系统,实时掌握裂纹情况,对保障铁路运输安全至关重要。 La…

快速构建 yolo 训练集 测试集

在机器学习工作流程中,数据处理是一个关键步骤。通常我们会使用不同的工具来标注数据,而每种工具都有其特定的格式。在这篇文章中,我们将展示如何从数据集中快速抽取样本,构建训练集和测试集。 YOLO简介 YOLO(You On…

响应重定向

响应重定向 重定向也可以跳转servlet,也可以跳转页面 (功能与请求转发类似) 使用的方法: resp.sendRedirect("路径"); 测试: 改造登录Servlet,重定向到ListServlet ps: 可以跳转到ListServlet,但是因为请求域数据不能共享,可能会报错 特点 重定向是响应重定向,是浏…

大语言模型的微调方法_大语言模型六种微调方法,零基础入门到精通,收藏这一篇就够了

01 引言 自2018年BERT发布以来,“预训练微调”成为语言模型的通用范式。以ChatGPT为代表的大语言模型针对不同任务构造Prompt来训练,本质上仍然是预训练与微调的使用范式。千亿规模的参数微调需要大量算力,即使提供了预训练的基座模型&…

jQuery——文档的增删改

1、添加 / 替换元素 append(content):向当前匹配的所有元素内部的最后插入指定内容prepend(content):向当前匹配的所有元素内部的最前面插入指定内容before(content):…

一、机器学习算法与实践_06迭代法和KMeans、线性回归、逻辑回归算法笔记

0 迭代法 迭代法不仅是机器学习、深度学习的核心,也是整个人工智能领域的重要概念,其对于算法的设计和实现至关重要 0.1 适合场景 对于不能一次搞定的问题,将其分成多步来解决,逐步逼近解决方案 0.2 典型应用 KMeans 聚类算法…

开放式耳机哪个品牌好?适合运动的开放式蓝牙耳机分享

如今,开放式耳机的购买量呈现出持续上升的趋势,变得越来越多。而随着人们对音频设备需求的不断提升以及对舒适佩戴体验和自然聆听感受的日益追求,开放式耳机也以其独特的优势逐渐走进大众的视野,成为众多消费者的新宠。 在各大电…

中文llama3仿openai api实战

课程介绍 本次课属于【大模型本地部署应用】,基于Chinese-LLaMA-Alpaca-3(GitHub - ymcui/Chinese-LLaMA-Alpaca-3: 中文羊驼大模型三期项目 (Chinese Llama-3 LLMs) developed from Meta Llama 3)项目,介绍如何封装一个私有的兼容…

谷歌收录批量查询,谷歌收录批量查询的简单方法

谷歌收录批量查询是网站管理员和SEO优化人员常见的需求,以下提供几种简单且高效的批量查询方法: 一、使用Google Search Console(谷歌搜索控制台) 注册并验证网站: 首先,确保你已经在Google Search Conso…

常用正则匹配中国手机号码

正则表达式匹配中国的手机号码。 我可以提供一些匹配中国手机号码的常用正则表达式: 仅匹配11位数字的手机号码:^1[3456789]\d{9}$匹配以1开头的11位数字手机号码:^1\d{10}$更宽松的匹配规则,允许0开头的手机号码:^(?:0|86|+?86)?1[3-9]\d{9}$ 这些正则表达式可…

Java基础知识总结(超详细整理)

Java基础知识总结(超详细整理) Java语言的特点 1.面向对象 面向对象(OOP)就是Java语言的基础,也是Java语言的重要特性。面向对象的概念:生活中的一切事物都可以被称之为对象,生活中随处可见的事物就是一个对象&#…

CMSIS-RTOS V2封装层专题视频,一期视频将常用配置和用法梳理清楚,适用于RTX5和FreeRTOS(2024-09-28)

【前言】 本期视频就一个任务,通过ARM官方的CMSIS RTOS文档,将常用配置和用法给大家梳理清楚。 对于初次使用CMSIS-RTOS的用户来说,通过梳理官方文档,可以系统的了解各种用法,方便大家再进一步的自学或者应用&#x…

【人工智能深度学习应用】妙策API最佳实践

功能概述 在文章创作过程中,用户可以借助AI妙策来辅助创作。AI妙策主要集中在聚合热点话题榜和平台话题榜两个方面。 具体功能 话题分析 AI妙策中的话题分析可以作为创作的灵感来源,通过网页视角选题、热门视角选题、时效视角选题、新颖视角选题&…

网站建设中,如何处理多语言版本?

在全球化的今天,网站多语言版本的处理成为了一项基本要求,尤其是对于面向国际用户的企业来说。以下是一些关于网站建设中如何处理多语言版本问题的建议: 使用URL国际化:通过在URL中添加语言代码(如example.com/en/表示…

【文心智能体】猫咪用品购物指南搭建教程

前言 随着科技的飞速发展和人们生活水平的提高,越来越多的家庭开始养宠物,其中猫咪因其可爱、独立和温顺的性格而备受青睐。然而,面对市场上琳琅满目的猫咪用品,如何为自家的“喵星人”挑选最合适的商品,成为了许多宠…