Data Filtering Network论文浅析

news2025/1/6 20:24:58
time2023-09
paperhttps://arxiv.org/abs/2309.17425
codehttps://huggingface.co/apple/DFN5B-CLIP-ViT-H-14-378
org.Apple
个人博客地址http://myhz0606.com/article/dfn

Motivation

训练一个好的CLIP模型依赖大规模高质量的训练数据。通过爬虫,可以很容易从互联网爬取大量(上千亿)的图文数据,满足大规模的要求是容易的。但是,互联网中的图文数据含有大量噪声,为了提升质量,数据治理(data curation)必不可少。如何设计一个鲁棒、低成本的data curation方案也是目前的一个研究热点,也是这篇文章的主题。

Main Idea

Data Filtering Network 的核心流程如下:

STEP1: 用高质量的数据训练DFN(data filter network)

STEP2: 用训练好的DFN对uncurated data进行过滤,得到DFN induced Dataset

filtering的代码逻辑

def apply_dfn (dfn , data_pool): 
    return [x for x in data_pool if dfn(x)]

STEP3: 用DFN induced Dataset训练CLIP

总体是一个二阶段的训练过程,先训练DFN,再训练CLIP。

在这里插入图片描述

实验

部分英文名词进行说明

description
uncurated data/data pool未清洗的大规模爬取数据集
filter dataset用来训练DFN的数据集
induced dataset对data pool用DFN进行过滤的数据集
induced model用induced dataset训练的CLIP模型

Data Filtering Network的形式探究

DFN的本质上是一个判别模型。给定一个sample,DNF判别其是否为正例。作者主要探究了3种DFN的形式:

  1. 仅考虑图片信息,建模为binary classification。具体来说,将CC12M和imageNet的图片作为正例(高质量图片),CommonCrawl的图片作为负例(低质量图片),训练一个分类模型来filter。
  2. 建模为重建任务。以mask区域的重建质量作为判别依据。具体来说,用高质量的图文数据训练M3AE。推理阶段计算data pool 图片mask区域的重建损失,高的作为噪声。
  3. CLIP形式。用CLIP score进行filter。(作者最后用该方法训练DFN)

在这里插入图片描述

DFN和之前常用的CLIP filtering算法形式上一致。主要区别在于DFN中的CLIP是在高质量数据上训练的,过滤效果好一些。另外论文提供的一些实验上的insighting可以参考。

数据质量对DFN性能的影响

作者用induced model在下游任务的性能来间接评估DFN的性能。

作者评估用不同的高质量数据训练的DFN所产生的induced model的性能。实验发现:DFN的训练数据质量低时,induced model的性能明显下降。

在这里插入图片描述

Induced Dataset的构建

作者迁移OpenAI CLIP的权重,在HQITP-350M 高质量图文对数据上对其进行微调,得到DFN,随后用该模型对data pool数据进行打分,过滤得到DFB2BDFN5B数据集,具体流程:

datasetdata poolfiterring rule
DFN2BDataComp-xlarge (12.8B)将score得分在前2B(约15%)的数据作为induced dataset
DFN5BDataComp-xlarge (12.8B) + 30B 额外的爬取数据将score得分在前5B的数据作为induced dataset

DFN二阶段训练范式必要性研究

作者进一步探究所提出的二阶段范式的必要性

stage1: 训练DFN。“high quality filter dataset → DFN”,

stage2: 训练induced model。“data-pool → DFN (trained)→ induced dataset → induced model”

具体结果见表:

在这里插入图片描述

作者对比用DFN filter 和用OpenAI的CLIP fileter(OAI ViT-B/32 Induced Dataset ) 在评估数据集的效果。有点困惑的是:作者的DFN2B用的是前15%的数据。而baseline 似乎用的是clip score > 0.3的数据。似乎不太公平?

Data Pool 对DFN性能的影响

从下表可知,DFN的性能随data pool size的增加而增加。这也很好理解,data pool越大,经过DFN过滤后,排在前2B的数据平均score就越高。

在这里插入图片描述

由于HQITP-350M 数据是闭源的。作者也在开源高质量数据上训练DFN,验证其方法的有效性

在这里插入图片描述

上表也间接验证了数据质量对DFN性能的影响。同样规模induced dataset, HQITP-350M 训练的DFN相较开源高质量数据,induced model的性能在不通data pool下都下降了7-8个点。

小结

文本从data curation的方向研究如何提升CLIP的performance。本文核心是提出了一个二阶段的训练范式:

  • Stage1: 用高质量数据训练DFN。“high quality filter dataset → DFN”;
  • Stage2: 用DFN清洗后的数据训练induced model (即CLIP)。“data-pool → DFN (trained)→ induced dataset → induced model”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2116289.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

S7-1200与G120变频器CU240E-2控制单元通过353报文实现PN通信的基本方法

S7-1200与G120变频器CU240E-2控制单元通过353报文实现PN通信的基本方法 西门子报文353 PKW+PZD-2/2, 6个字中前4个字是PKW用,后2个字是PZD用, 结合以上内容, 可以知道第5个字是STW1控制字,第6个字是转速给定值(PLC输出);第5个字是ZSW1是状态字,第6个字是当前转速值(P…

LeetCode:快乐数(202)

目录 题目 代码思路 双指针 代码实现 题目 202. 快乐数 - 力扣(LeetCode) 编写一个算法来判断一个数 n 是不是快乐数。 [ 快乐数 ] 定义为: 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程…

ThinkPHP5 5.0.23-rce远程代码执行漏洞复现

漏洞描述 ThinkPHP是一款运用极广的PHP开发框架。其版本5中,由于框架对控制器名没有进行足够的检测,会导致在没有开启强制路由的情况下可执行任意方法,从而导致远程命令执行漏洞。 启动容器 docker-compose up -d 查看端口 docker ps 端口为…

【C++进阶】hash表的封装

文章目录 hash表哈希表的关键组成部分哈希表的优缺点优点:缺点: 常见应用场景 开放定址法实现hash表负载因子 (Load Factor)负载因子的意义负载因子的影响再散列 (Rehashing)示例 整体框架insertFinderasehash桶封装框架insertfinderase~HashTable() 总结…

从路径优化学习FastPlanner之B样条曲线平滑(二):FastPlanner中B样条曲线代码理解与解读

参考别人的博客学习 根据之前一章只是大致了解了B样条数学原理,实际读代码还有疑惑。 控制点是什么?和规划出的路径点什么关系? 控制点可以说我们规划出的路径点,即n等于轨迹点个数。也可以不是轨迹点,通过线性方程反解…

Einsum(Einstein summation convention)

Einsum(Einstein summation convention) 笔记来源: Permute和Reshape嫌麻烦?einsum来帮忙! The Einstein summation convention is a notational shorthand used in tensor calculus, particularly in the fields of …

免费也能高质量!2024年免费录屏软件深度对比评测

我公司因为客户覆盖面广的原因经常会开远程会议,有时候说的内容比较广需要引用多份的数据,我记录起来有一定难度,所以一般都用录屏工具来记录会议内容。这次我们来一起探索有什么免费录屏工具可以提高我们的工作效率吧。 1.福晰录屏大师 链…

9.7(QT.Day 1)

一、自由发挥登录窗口的应用场景&#xff0c;实现一个登录窗口界面 要求&#xff1a;每行代码都有注释 【需要用到的图片或者动图&#xff0c;自己去网上找】 1.mywidget.h代码 #ifndef MYWIDGET_H #define MYWIDGET_H#include <QWidget> #include <QIcon> //图…

C++之格式化日期时间为字符串(精确到毫秒)

C11中提供了获取时间的chrono库&#xff0c;但是格式化显示太方便&#xff1b;C11还提供了格式化时间iomanip库&#xff0c;通过其put_time方法可以格式化时间到秒&#xff0c;要显示毫秒&#xff0c;就需要自己处理了。 #include <chrono> #include <string> #in…

css flex与inline-flex的区别

1、flex与inline-flex布局&#xff0c;都是弹性布局&#xff0c;盒状容器布局。 Flex 布局是什么&#xff1f;_w3cschool 2、下面一个实例来说明一下&#xff1a; 有一个要求&#xff0c;要求item增多的时候&#xff0c;不会换行&#xff0c;并且container容器也会随时item的…

【机器学习】我小学二年级妹妹都能理解的线性回归算法

什么是线性回归&#xff1f; 我小学二年级的妹妹想用压岁钱买房子&#xff0c;售楼广告上写着100万可以买100的房子&#xff0c;200万可以买200的房子&#xff0c;但是我的妹妹觉得那些房子都太小了&#xff0c;想买300的房子&#xff0c;那她应该要花多少钱呢&#xff1f; 对…

DBMS-2.2 数据库设计(2)——数据库规范化设计理论

本文章的素材与知识来自李国良老师和冠宇老师。 依赖理论 对于关系数据库中的依赖&#xff0c;分为函数依赖、多值依赖和连接依赖。 一.函数依赖 1.函数依赖 &#xff08;1&#xff09;定义&#xff1a; &#xff08;2&#xff09;理解&#xff1a; 通俗地讲&#xff0c;…

【Linux】借命令行参数的引导,探索环境变量的奥秘

目录 1.命令行参数 1.1.概念&#xff1a; 1.2.利用命令行参数打造计算器&#xff1a; 2.环境变量 2.1.环境变量是什么&#xff1f; 2.2.有什么方法可以不用带路径&#xff0c;直接就可以运行自己的程序呢&#xff1f; 法一&#xff1a; 法二&#xff1a; 2.3.通过代码…

PostgreSQL技术内幕9:PostgreSQL事务原理解析

文章目录 0.简介1.PG事务整体介绍1.1 事务类型介绍 1.2 事务模块介绍2. 代码分析 0.简介 有了上一篇数据库事务并发控制协议的介绍&#xff0c;对于数据库事务和并发控制有了基本的认识&#xff0c;本文将介绍PG事务模块&#xff0c;主要介绍PG支持的事务类型&#xff08;普通…

git为不同的项目设置不同的提交作者

方法1&#xff1a;找到项目的.git文件夹打开 打开config在下面添加自己作者信息 [user]name 作者名email 邮箱方法2&#xff1a;直接在.git文件夹设置作者名&#xff08;不使用–global参数&#xff09; git config user.name "xxxxx"如果想要修改之前提交的…

银行结算业务

1.1 银行本票 银行本票是由银行签发的,承诺自己在见票时无条件支付票款给收款人或持票人的业务。银行本票按票面划分为定额本票和不定额本票,按币种划分为人民币银行本票和外币银行本票。人民币银行本票仅在同一交换区域内使用,资金清算利用当地人民银行组织的资金清算形式…

vllm源码解析(五):LLM模型推理

八 模型推理细节探索 8.1 回顾下step的流程 def step(self) -> List[Union[RequestOutput, EmbeddingRequestOutput]]:# 多GPU并行推理时走AsyncLLMEngine分支。如果进入当前LLMEngine,性能会下降&#xff0c;这里会抛出异常。if self.parallel_config.pipeline_parallel_s…

基于机器学习的电商优惠券核销预测

1. 项目简介 随着移动互联网的快速发展&#xff0c;O2O&#xff08;Online to Offline&#xff09;模式已成为电商领域的一大亮点。优惠券作为一种有效的营销工具&#xff0c;被广泛应用于吸引新客户和激活老用户。然而&#xff0c;传统的随机投放方式往往效率低下&#xff0c;…

JavaWeb【day11】--(SpringBootWeb案例)

SpringBootWeb案例 前面我们已经实现了员工信息的条件分页查询以及删除操作。 关于员工管理的功能&#xff0c;还有两个需要实现&#xff1a; 新增员工 修改员工 首先我们先完成"新增员工"的功能开发&#xff0c;再完成"修改员工"的功能开发。而在&quo…

万能视频下载器-下载所有网站上的任何视频

万能视频下载器-下载所有网站上的任何视频 在Edge浏览器中发现了一款令人惊叹的视频下载扩展插件&#xff0c;简直就是视觉盛宴的利器&#xff01;只需轻点几下&#xff0c;在拓展商店中轻松查找并安装&#xff0c;你便能随时随地随心所欲地把心仪的视频收入囊中。无论是教学资…