[Datawhale AI 夏令营]多模态大模型数据合成赛事-Task2

news2024/12/28 18:32:12

简单按照datawhale给的task2的文档学习了一下,主要还是学习了Data-Juicer相关的知识。

1.Data-juicer 初探

在这里插入图片描述

简单理解一下,Data juicer就是提供给你许多数据处理方法,包括Formatter、Mapper、Filter、Deduplicator和Selector,涉及图像、文本、声音以及多模态数据,通过组合这些方法实现不同的数据处理增强pipline,最终实现高质量的数据的产出。
可以看到这个工具与我们的赛题是非常契合的,因此比赛官方也是推荐使用这个工具来实现数据增强方法。下面提供了一些多模态相关的方法,比如Task1中的dj菜单中就用到了image_captioning_mapper方法。

算子描述
image_captioning_from_gpt4v_mapper基于gpt-4-vision和图像生成文本
image_captioning_mapper生成样本,其标题是根据另一个辅助模型(例如 blip2)和原始样本中的图形生成的。
image_diffusion_mapper用stable diffusion生成图像,对图像进行增强
video_captioning_from_frames_mapper生成样本,其标题是基于一个文字生成图片的模型和原始样本视频中指定帧的图像。不同帧产出的标题会拼接为一条单独的字符串。
image_text_matching_filter保留图像-文本的分类匹配分(基于BLIP模型)在指定范围内的样本
image_text_similarity_filter保留图像-文本的特征余弦相似度(基于CLIP模型)在指定范围内的样本
phrase_grounding_recall_filter保留从文本中提取的名词短语在图像中的定位召回率在一定范围内的样本
video_frames_text_similarity_filter保留视频中指定帧的图像-文本的特征余弦相似度(基于CLIP模型)在指定范围内的样本

除此之外还有一些数据清洗的方法,比如

算子描述
fix_unicode_mapper修复损坏的 Unicode 字符
nlpcda_zh_mapper使用 nlpcda 库对中文文本进行简单增强
image_text_similarity_filterfilter samples according to the similarity between text and images
DJ提供了相当多的算子,大家可以都去尝试一下,看看效果。

2.Data-juicer 配置改进

在官方提供的配置基础上添加了,去重流程的改进后,最终的评测分数得到了小幅度的提升来到了0.8,初步验证了流程和方法的有效性。
旧:
在这里插入图片描述
新:
在这里插入图片描述
更多的可能只能大家自己去探索了

问题:

在使用DJ的算子的时候碰到了一个网络问题,无法自动下载需要的模型,只能手动从HF上下载到本地,使用了如下的代码

from huggingface_hub import snapshot_download
snapshot_download(repo_id="openai/clip-vit-base-patch32",
                  cache_dir="../better_synth_challenge_baseline/models",
                  token='hf_xxxxxx')

注意看是否需要token,去HF的个人界面创建一个token

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2043683.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

73、 dockerfile

一、dockerfile 自定义镜像---------通过docker创建镜像。 1.1、创建镜像的方式: 1、dockerfile最基的方式,最常用的方式。 2、docker pull 拉取的是最基础的镜像,只有基础功能,没有定制化的功能。 3、基于基础镜像&#xff…

每天五分钟计算机视觉:人脸识别如何解决一次学习的问题?

本文重点 人脸识别技术作为当前计算机技术的重要分支,广泛应用于公共安全、智能家居、金融商业等多个领域。然而,尽管该技术取得了显著进展,但在实际应用中仍面临诸多挑战,其中一次学习问题(One-Shot Learning Problem)尤为突出。 一次学习问题的定义 我们人类是具有快…

单元训练01:LED指示灯的基本控制

蓝桥杯 小蜜蜂 单元训练01&#xff1a;LED指示灯的基本控制 #include "stc15f2k60s2.h" #include <intrins.h>#define LED(x) \{ \P2 P2 & 0x1f | 0x80; \P0 x; \P2 & 0x1f; \}…

用Python实现9大回归算法详解——04. 多项式回归算法

多项式回归 是线性回归的一种扩展&#xff0c;它通过将输入特征的多项式项&#xff08;如平方、立方等&#xff09;引入模型中&#xff0c;以捕捉数据中非线性的关系。虽然多项式回归属于线性模型的范畴&#xff0c;但它通过增加特征的多项式形式&#xff0c;使得模型能够拟合非…

python-NLP:4句法分析

文章目录 句法分析概述句法分析分类句法分析任务 句法结构分析基本概念语法形式化基本方法 依存句法分析浅层句法分析 句法分析概述 句法分析(syntacticparsing)是自然语言处理中的关键技术之一&#xff0c;其基本任务是确定句子的句法结构(syntactic structure)或句子中词汇之…

华三超融合服务器硬件监控指标解读

随着信息技术的快速发展&#xff0c;超融合服务器因其高效、灵活的特点&#xff0c;在企业IT架构中扮演着越来越重要的a角色。华三&#xff08;H3C&#xff09;作为业界知名的网络设备供应商&#xff0c;其超融合服务器产品在市场上广受欢迎。 为了确保这些服务器的稳定运行&am…

asp.net core 调用wps实现word转pdf

安装wps https://www.wps.cn/ 创建.net core控制项目 添加com引用&#xff0c;搜索wps 准备word&#xff0c;名字叫001.docx word转pdf 编写代码 namespace WPSStu01 {internal class Program{static void Main(string[] args){Console.WriteLine("转化开始&q…

JAVA maven pom下载失败问题处理

如果直接在IDEA编辑器中中下载pom依赖 下载失败,可以直接去官网下载jar依赖包(也可以用其他方式,比如找同事拷贝等最终目的是本地需要这个包) 官网点击地址跳转 搜索你需要的包点击进入下载界面 选择对应的版本进行下载 () 下载界面中有对应的当前包的pom坐标个当前jar包 坐…

163邮箱注销后不能再注册

网易邮箱注销后不能再注册 一个手机号只能注册15个163邮箱 再注册会报异常 申请注销邮箱要等15天&#xff0c;才是永久注销 永久注销邮箱后&#xff0c;在拿这个手机号注册新邮箱&#xff0c;还是不行

尊享奢睡新境界:康姿百德柔压磁性枕匠心设计引领品质睡眠革命

重塑睡眠艺术&#xff1a;揭秘康姿百德豪华磁性枕&#xff0c;个性化支撑与卓越透气性的完美融合 在现代家居生活中&#xff0c;细节往往决定了整体的品质。而在睡眠方面&#xff0c;一款好的枕头能够改变我们的睡眠体验。康姿百德柔压磁性枕&#xff08;豪华款&#xff09;正…

Anaconda使用

查看conda版本&#xff1a; conda -V查看支持的cuda版本&#xff1a; nvidia -smi 输出为&#xff1a; Mon Aug 12 12:35:26 2024 ----------------------------------------------------------------------------- | NVIDIA-SMI 528.92 Driver Version: 528.…

string详解(2)— 模拟实现

1.经典的string类实现 最主要是实现string类的构造、拷贝构造、赋值运算符重载以及析构函数。 (1) String.h 为了与库里的string进行区分我们使用String&#xff1a; // String.h#pragma once #define _CRT_SECURE_NO_WARNINGS 1 #include<iostream> #include<stri…

在linux上架设Web服务器Apache(Ubuntu)

欢迎诸位来阅读在下的博文~ 在这里&#xff0c;在下会不定期发表一些浅薄的知识和经验&#xff0c;望诸位能与在下多多交流&#xff0c;共同努力! 江山如画&#xff0c;客心如若&#xff0c;欢迎到访&#xff0c;一展风采 文章目录 背景1. 安装 Apache2. 启动和检查 Apache 服务…

计算机的错误计算(六十三)

摘要 计算机的错误计算&#xff08;五十六&#xff09;探讨了大数的正切函数值的错误计算。本节讨论大数的余切函数的计算精度问题。 例1. 已知 计算 不妨用 3种方法计算。 (1) 在 Python 中利用 直接贴图&#xff1a; (2) 在 Java 中利用 若运行下列代码 import ja…

【Python快速入门和实践016】Python常用脚本-对视频抽取指定帧数并保存

一、功能介绍 这段代码的功能是从一个视频文件中抽取指定数量的帧&#xff0c;并将这些帧保存为图像文件。步骤如下&#xff1a; 设置路径和参数&#xff1a; video_path&#xff1a;视频文件的路径。image_folder&#xff1a;保存抽取图像的目录。num_frames_to_extract&#…

FL Studio21.2.4最新中文版免费下载汉化包破解补丁

&#x1f389; FL Studio 21中文版新功能全解析&#xff01;让你的音乐制作更加高效&#xff01; 嘿&#xff0c;各位音乐制作的小伙伴儿们&#xff0c;今天我要安利一款你们绝对会爱上的神器——FL Studio 21中文版&#xff01;这款软件不仅功能强大&#xff0c;而且操作简便…

【ARM】解析MDK生成的C Compiler list文件的具体内容

1、 文档目标 用于解析MDK生成的C Compiler list文件的具体内容。 2、 问题场景 在MDK的options窗口中的Listing栏中有生成对应的源文件的编译列表&#xff08;如图2-1&#xff09;。但是&#xff0c;对于这个生成的列表中包含什么具体的信息就不太清楚了。 图2-1 3、软硬件…

智慧安防/一网统管/视频监控EasyCVR视频汇聚平台的视频轻量化特点及应用

在数字化时代&#xff0c;视频监控已成为保障公共安全、提升管理效率的重要手段。随着技术的不断进步&#xff0c;EasyCVR视频汇聚平台应运而生&#xff0c;平台以其独特的视频轻量化特点在安防监控领域展现出强大的应用潜力。本文将详细探讨EasyCVR视频汇聚平台的视频轻量化特…

空间变换其参数化二

目录 刚性变换的问题描述 最优平移向量求解 最优旋转矩阵求解 反射矩阵消除 基于SVD刚性变换矩阵计算流程总结 刚性变换的问题描述 令P{p_1,p_2,...,p_n}和Q{q_1,q_2,...,q_n}是R^d空间内的两组对应的点。希望找到一个刚性的变换&#xff0c;在最小二乘的意义上最优地对齐…

如何使用pholcus库进行多线程网页标题抓取以提高效率?

在当今信息爆炸的时代&#xff0c;数据抓取已成为获取信息的重要手段。Go语言因其高效的并发处理能力而成为编写爬虫的首选语言之一。pholcus库&#xff0c;作为一个强大的Go语言爬虫框架&#xff0c;提供了多线程抓取的能力&#xff0c;可以显著提高数据抓取的效率。本文将介绍…