论文阅读:Vary论文阅读笔记

news2024/10/2 16:30:49

目录

    • 引言
    • 整体结构图
    • 数据集构造
      • Vary-tiny部分
        • Document Data数据构造
        • Chart Data构造
        • Negative natural image选取
      • Vary-base部分

引言

论文:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

Paper | Github | Demo

许久不精读论文了,内心一直想找个专门的时间来细细拼读自己感兴趣的论文。现在想来,无异于是自己骗自己了–根本就不存在那个专门的时间。所以改变最好的时候就是现在。

因为自己一直在做OCR相关,因为对LLM中文档智能相关的工作比较感兴趣。因此,就以旷视出的这篇工作Vary作为切入点,借此来学习LLM在文档智能领域的相关工作。

整体结构图

Vary
Figure 1:主要想说明Vary在产生vocabulary时,采用两阶段策略:在第一阶段,通过自回归方法,先产生一个新的vocabulary,在第二阶段,将新的vocabulary与原始的融合,作为一个新的vocabulary。

在这里插入图片描述

Figure 2: 第一阶段中,Vary为Vary-tiny,主要用来产生新的vocabulary;而Vary-base主要基于new vision vocabulary来处理各种visual tasks。
在这里插入图片描述
Vary-tiny中,使用在VitDet上预训练过的SAM作为image encoder,之后为了和之后CLIP-L对齐,又加了两个Conv。

Vary这篇工作整体思路较为简单,更多地方就要去看源码的细节实现了。

🤮 不过想要吐槽一下的是,论文中竟然和Nougat作比较。Vary和Nougat参数量来看简直不是一个量级啊。转过来想,也是,毕竟这个方向目前也没有一个除Nougat之外的基线了。

数据集构造

之所以将这部分作为一个单独章节来说,是因为这个工作的难点就在于此。Nougat和Vary都没有开源所用的数据集。Nougat好在给出了一些制作数据集的相关代码。Vary目前一点也没有放出来。所以这里也就根据论文来简单看看怎么做的了。

Vary-tiny部分

该部分主要聚焦于fine-grained perception,例如文档智能和图表理解,说是为了弥补CLIP的不足,因此这部分网络输入都是图像,没有文本输入的分支。

在训练Vary-tiny部分,作者将文档和图表数据作为positive samples,自然场景图像作为negative数据。

Document Data数据构造

由于该部分需要的数据为:输入是文档图像,输出是对应的markdown格式文本。目前没有公开的中英文文档数据集,因为作者自行构建的。

其中,英文文档主要来源于arXiv和CC-MAIN-2021-31-PDFUNTRUNCATED两部分。中文文档主要来源于互联网上的电子书。

处理方法:PyMuPDF库提取PDF每页信息,同时用pdf2image工具将PDF对应页转为图像。(感觉这里处理的较为粗糙,有较大提升空间)

最终构建了100w中文和100w英文文档图像对数据集用于训练Vary-tiny部分。

Chart Data构造

作者观察到LVLM不太擅长处理图表理解问题,尤其是中文图表。因此,本篇工作着重将其作为一个重点任务。

构建图表的image-text pair对方案:采用matplotlibpyecharts作为渲染工具。渲染了matplotlib风格的中英文图表250k条,渲染了pyeharts风格中英文图表500k条。另外,构建图表的ground truth为一个python字典形式。其中图表中的文本,例如title, x-axis和y-axis都是从NLP语料库中随机选的。

Negative natural image选取

因为CLIP-VIT对于自然图像较为擅长。为了确保新引入的vocabulary不影响已有效果,因此,作者在训练Vary-Tiny时,引入了自然图像作为negative image-text pairs。

作者从COCO数据集中选取了120k图像,其所对应的文本从以下几条中随机选取:

“It’s an image of nature”;
“Here’s a nature picture”;
“It’s a nature photo”;
“This is a natural image”;
“That’s a shot from nature”.

Vary-base部分

TODO

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1395044.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Harris角点的多视角图像全景拼接算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 Harris角点检测 4.2 图像配准 4.3 图像变换和拼接 4.4 全景图像优化 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 function [ImageB…

鸿蒙开发-ArkUI框架实战【日历应用 】

对于刚刚接触OpenHarmony应用开发的开发者,最快的入门方式就是开发一个简单的应用,下面记录了一个日历应用的开发过程,通过日历应用的开发,来熟悉基本图形的绘制,ArkUI的组件的使用,UI组件生命周期&#xf…

新版AndroidStudio dependencyResolutionManagement出错

在新版AndroidStudio中想像使用4.2版本或者4.3版本的AndroidStudio来构造项目?那下面这些坑我们就需要来避免了,否则会出各种各样的问题。 一.我们先来看看新旧两个版本的不同。 1.jdk版本的不同 新版默认是jdk17 旧版默认是jdk8 所以在新版AndroidSt…

什么是SFP光学模块?

SFP光模块是一个十亿位电信号到光信号接口设备,是行业标准的小型可插拔千兆光收发器模块,集成可插拔交换机,路由器和其他网络设备,媒体转换器SFP端口,用于连接到光或铜线数据传输网络,我们通常可以在以太网…

Numpy的学习 第一课 了解以及使用

1.输入模式 1.编辑模式 绿色2.命令模式 蓝色 2.运行 直接输入jupyter notebook 3.文档注释 查看函数帮助文档命令 help(函数) 单问号与多问号 单问号显示文档 多问号显示文档代码 3.shifttab 显示参数 4.运行外部文件 %run 路径,可绝对可相对 这里运行了就相当于方法了,或者…

Python爬虫 - 网易云音乐下载

爬取网易云音乐实战,仅供学习,不可商用,出现问题,概不负责! 分为爬取网易云歌单和排行榜单两部分。 因为网页中,只能显示出歌单的前20首歌曲,所以仅支持下载前20首歌曲(非VIP音乐&…

Hamcrest断言:自动化测试的利器

Hamcrest断言:自动化测试中的可读性与表达力利器 背景:在软件开发中,自动化测试是确保软件质量和稳定性的重要环节。为了编写可靠且易于维护的自动化测试脚本,我们需要使用可读性强且表达力强的断言工具。Hamcrest是一个优秀的断言…

渗透测试之Hydra如何B破远程主机RDP登录M码

环境: Hydra9.3 KALI2022 问题描述: 渗透测试之hydra如何B破远程主机RDP登录M码 解决方案: Hydra是一款非常强大的网络登录P解工具。它专门用于测试和评估网络安全,通过暴力P解方式尝试多种用户名和密码组合,以获得对受测试系统的非法访问。Hydra支持各种协议的登录破…

21. 合并两个有序链表(Java)

题目描述: 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 输入: l1 [1,2,4], l2 [1,3,4] 输出: [1,1,2,3,4,4] 代码实现: 结点类: public class ListNode {in…

「优选算法刷题」:盛最多水的容器

一、题目 给定一个长度为 n 的整数数组 height 。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水量。 说明:你不能倾斜容器…

基于JavaSocket重写Dubbo网络传输层

前言 我们知道,位于 Serialize 层上面的是负责网络传输的 Transport 层,它负责调用编解码器 Codec2 把要传输的对象编码后传输、再对接收到的字节序列解码。 站在客户端的角度,一次 RPC 调用的流程大概是这样的: Invoker 发起 …

CSS实现的 Loading 效果

方式一、纯CSS实现 代码&#xff1a;根据需要复制 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>CSS Animation Library for Developers and Ninjas</title><style>/* ---------------…

操作系统课程设计-Windows 线程的互斥和同步

目录 前言 1 实验题目 2 实验目的 3 实验内容 3.1 步骤 3.2 关键代码 3.2.1 创建生产者和消费者进程 3.2.2 生产者和消费者进程 4 实验结果与分析 5 代码 前言 本实验为课设内容&#xff0c;博客内容为部分报告内容&#xff0c;仅为大家提供参考&#xff0c;请勿直接抄…

SqlAlchemy使用教程(五) ORM API 编程入门

SqlAlchemy使用教程(一) 原理与环境搭建SqlAlchemy使用教程(二) 入门示例及编程步骤SqlAlchemy使用教程(三) CoreAPI访问与操作数据库详解SqlAlchemy使用教程(四) MetaData 与 SQL Express Language 的使用SqlAlchemy使用教程(五) ORM API 编程入门 前一章用SQL表达式(SQL Expr…

机器学习之卷积神经网络

卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此又称为SIANN。卷积神经网络仿照生物的视知觉机制构建,可以进行监督学习和非监督学习,其隐含层内的…

【Internet Protocol】ip介绍,如何组局域网实现远程桌面和文件共享

文章目录 1.何为“上网”1.1 定义1.2 为什么连了WiFi就能上网了&#xff1f; 2.ip2.1 什么是ip2.2 为什么区分广域网和局域网&#xff0c;ip的唯一性2.3 如何查看设备的ip2.4 什么叫"ping"2.5 区分是否两个ip是否在同一局域网2.5.1 最稳妥的方式&#xff1a;ip&m…

Linux第31步_了解STM32MP157的TF-A

了解STM32MP157的TF-A&#xff0c;为后期移植服务。 一、指令集 ARMV8提供了两种指令集:AAarch64和AArch32&#xff0c;根据字面意思就是64位和32位。 ARMV7提供的指令集是AArch32。 二、TF-A 指令集是AArch64的芯片&#xff0c;TF-A有&#xff1a;bl1、bl2、bl31、bl32 和…

【Linux】进入一个目录需要什么权限-目录的权限

Linux目录权限 在Linux中&#xff0c;目录也是文件&#xff0c;是文件就有属性&#xff0c;就有权限 在Linux中&#xff0c;我们可以通过cd命令进入目录 那么我们要进入一个目录&#xff0c;需要有什么权限呢&#xff1f; 目录和普通文件一样&#xff0c;也是有权限的 测试证…

分布式Erlang/OTP(学习笔记)(一)

Erlang分布式基础 假设你在机器A和机器B上各跑着一个Simple Cache应用的实例。要是在机器A的缓存上插人一个键/值对之后&#xff0c;从机器B上也可以访问&#xff0c;那可就好了。显然&#xff0c;要达到这个目的&#xff0c;机器A必须以某种方式将相关信息告知给机器B。传递该…

Cinder组件作用

1、Cinder下发的流程 &#xff08;1&#xff09;Cinder-api接受上层发送的创建请求&#xff0c;然后把请求下发给Cinder-scheduler调度服务 &#xff08;2&#xff09;Cinder-scheduler调度服务&#xff0c;计算出哪个主机更适合创建&#xff0c;计算出来之后再把请求下发到Ci…