#Datawhale AI夏令营第4期#多模态大模型Task3

#Datawhale AI夏令营第4期#多模态大模型Task3

news2026/2/12 23:14:54

写在前面的碎碎念》

为时一个礼拜的学习，即将结束了。回顾这一个礼拜，因此这次的任务较难，大部分的时间都花在跑模型上了，跑一次一天就没了，所以基本没有很好的去尝试优化上分，一个礼拜，差不多就是把流程跑通，能够完整运行，能够解决运行的各种报错，能够获得有效的提交分数。这就足以，算力是一个坎啊，这种大数据量的任务，400K的训练数据（没有跑，跑不起），从10K数据，尝试提高到150K，150K的数据，八卡RTX4090训练加微调需要十多个小时，总花费300大洋了。大模型果然是有钱人玩的。啊啊啊啊。。。

Task3的任务是数据处理进阶和上分。

主要包括以下内容：

1.官方赛事解读：

这个前面的Task已经说的够多了，此处略过。

2.自定义算子介绍：

Data-Juicer 是一个多模态数据处理系统，旨在提升数据质量，使其更适合用于大语言模型（LLMs）。系统提供了一系列用于数据处理的强大工具，包括 80 多个核心操作符、20 多个可重用配置和丰富的工具包。Data-Juicer 支持多种数据格式和多模态数据处理（如文本、图像、音频、视频），并且可以灵活扩展以满足特定需求。

Data-Juicer的核心就是算子，通过算子的组合，我们可以实现数据的清洗。

Data-Juicer中的算子分为以下 5 种类型。

Formatter：发现、加载、规范化原始数据
Mapper：对数据样本进行编辑和转换
Filter：过滤低质量样本
Deduplicator：识别、删除重复样本
Selector：基于排序选择高质量样本

我们还可以自定义算子，来满足我们的数据处理需求。自定义算子需要我们自己编写脚本文件。

可以参考Data-Juicer官方教程中给出的demo。

3.data-juicer sandbox insights讲解

DataJuicer中的Sandbox（数据沙盒实验室）是一个特别设计的功能模块，它允许用户在一个低风险、易于管理的环境中测试和迭代不同的数据处理策略，也就是所谓的“数据菜谱”。

Sandbox（数据沙盒实验室）中的算子效能实验可以帮助我们发现哪些算子可能对结果起作用。

1：相比于数据质量，图片理解模型的模态对齐阶段对多样性更加看重；

2：数据中的动态信息对于图片理解模型的模态对齐阶段来说更难以学习；

3.模态间高度对齐的数据在模态对齐阶段对于图片理解模型的性能是非常有利的；

4. 最优的数据菜谱不一定来源于性能最优的独立算子；

5.相对正交的优秀算子的组合无法保证带来更多性能收益；但从一个性能优秀的算子开始构建数据菜谱是一个不错的选择；

6.与纯文本LLM不同，重复高质量数据对图片理解模型来说可能是有用的；

4.上分思路

根据对赛题任务的分析解读，我们知道，要想获得一个好的分数的关键是获得好的数据。

核心问题是如何让多模态大模型在模态对齐阶段学习到更多的能力？模态对齐究竟是什么？

那么如何提高模态间对齐？

1.内容一致性——直接生成更一致的内容；更强的生成模型

2.相关算子：

image_text_similarity_filter:图文CLIP相似度

image_text_matching_filter：图文BLIP匹配分

phrase_grounding_recall_filter：图文内容主体召回率

3.质量和多样性

本次的Task3任务打卡，到这里就接近尾声了。

喜欢的小伙伴收藏关注点赞吧。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2048302.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

微商城系统 goods.php SQL注入漏洞复现

微商城系统 goods.php SQL注入漏洞复现

0x01 产品简介微商城系统，又称微信商城系统，是基于微信等社交平台构建的一种小型电子商务系统。该系统融合了社交媒体的互动性和网络商城的交易功能，为商家提供了一个集商品展示、在线交易、营销推广、用户管理、数据分析等功能于一体的综合性电商平台。系统充分利用了微信…

阅读更多...

【SecureLock】藏起你的秘密文件！

【SecureLock】藏起你的秘密文件！

我们都知道，在 Windows 中可以右键文件夹，选择”属性“，勾选”隐藏“来实现隐藏某个文件夹。我们还知道，在 Windows 中可以选择勾选 ”显示隐藏的项目和文件夹“，来使上述方法变得形同虚设。本工具就是用于解决以上…

阅读更多...

使用Linux内核自带的V4L2设备驱动采集图像

使用Linux内核自带的V4L2设备驱动采集图像

一、定义 V4L2代表Video for Linux Two，它是Linux内核的一部分，提供了一种统一的方式来访问各种视频输入/输出设备，如摄像头、电视卡等。二、工作流程（重点） 打开设备－> 检查和设置设备属性&#xf…

阅读更多...

Elasticsearch-关键词随机查询(8.x)

目录一、查询语句二、Java代码实现基础介绍： ES自定义评分机制:function_score查询详解-阿里云开发者社区ES自定义评分机制:function_score查询详解https://developer.aliyun.com/article/1054571 开发版本详见：Elasticsearch-经纬度查询(8.x-半径…

阅读更多...

面向对象程序设计(C++)之 vector（初阶）

面向对象程序设计(C++)之 vector（初阶）

1. vector 的构造 vector 需要显式实例化类模版，在创建 vector 类型的容器时可以直接创建，也可以进行初始化，例如 v2 ，也可以使用迭代器的方式创建，具体关于更多vector的知识: vector //模版类只能显式实例化 vector&l…

阅读更多...

Linux ubuntu 24.04 安装运行《帝国时代3》免安装绿色版游戏，解决 “Could not load DATAP.BAR”等问题

Linux ubuntu 24.04 安装运行《帝国时代3》免安装绿色版游戏，解决 “Could not load DATAP.BAR”等问题

Linux ubuntu 24.04 安装运行《帝国时代3》游戏，解决 “Could not load DATAP.BAR" 等问题《帝国时代 3》是一款比较经典的即时战斗游戏，伴随了我半个高中时代，周末有时间就去泡网吧，可惜玩的都是简单人机，高难…

阅读更多...

构建具有音频功能的中英翻译器：一个Python应用程序的旅程

构建具有音频功能的中英翻译器：一个Python应用程序的旅程

在当今的全球化世界中，语言翻译工具变得越来越重要。作为一名软件开发者，我最近完成了一个有趣的项目：一个结合了翻译、文字转语音和数据管理功能的中英翻译器。在这篇博客中，我将分享这个应用程序的主要特性和开发过程中的一些见…

阅读更多...

CSC7261BH PD20瓦快充芯片

CSC7261BH PD20瓦快充芯片

CSC7261BH是一款20瓦内置高压MOS的高性能、多工作模式的PWM控制芯片，内置多种保护机制。当系统为空载和轻载时，CSC7261BH 采用Burst和Green控制模式可有效地减少了空载和轻载时的损耗。当系统为中载和重载时，CSC7261BH采用CCM模式可有效提升电…

阅读更多...

【kubernetes】K8S常见的发布方式

【kubernetes】K8S常见的发布方式

一、K8S常见的发布方式蓝绿发布两套环境交替升级，旧版本保留一定时间便于回滚优点：对用户无感，是最安全的发布方式，业务稳定缺点：需要两套系统，对资源要求比较高，成本特别高灰度发布&…

阅读更多...

STM32标准库学习笔记-3.外部中断

STM32标准库学习笔记-3.外部中断

参考教程：【STM32入门教程-2023版细致讲解中文字幕】中断中断含义：在计算机执行主程序运行过程中，出现了特定的中断触发条件（中断源），使得CPU暂停当前正在运行的程序，转而去处理中断程序&…

阅读更多...

使用docker compose一键部署 Portainer

使用docker compose一键部署 Portainer

使用docker compose一键部署 Portainer Portainer 是一款轻量级的应用，它提供了图形化界面，用于方便地管理Docker环境，包括单机环境和集群环境。 1、创建安装目录 mkdir /data/partainer/ -p && cd /data/partainer2、创建docker…

阅读更多...

【C语言篇】数组和函数的实践：扫雷游戏（附源码）

【C语言篇】数组和函数的实践：扫雷游戏（附源码）

文章目录前言扫雷游戏的分析和设计扫雷游戏的功能说明游戏的分析和设计文件结构设计扫雷游戏的代码实现初始化棋盘打印棋盘布置雷排查雷扫雷游戏的拓展前言源码在最后扫雷游戏的分析和设计经典扫雷游戏扫雷游戏的功能说明使⽤控制台实现经典的扫雷游戏游戏可以通…

阅读更多...

8月14日微语报，星期三，农历七月十一

8月14日微语报，星期三，农历七月十一

8月14日微语报，星期三，农历七月十一，工作愉快，生活喜乐！ 一份微语报，众览天下事！ 1、巴黎奥运会：32项次世界纪录被刷新，125项次奥运纪录被改写。 2、国家邮政局&#…

阅读更多...

鸿蒙应用程序框架基础

鸿蒙应用程序框架基础

鸿蒙应用程序框架基础应用程序包基础知识应用的多Module设计机制Module类型 Stage模型应用程序包结构开发态包结构编译包形态发布台包结构选择合适的包类型应用程序包基础知识应用的多Module设计机制 **支持模块化开发：**一个应用通常会包含多种功能&#xff0…

阅读更多...

【stm32项目】多功能智能家居室内灯光控制系统设计与实现（完整工程资料源码）

【stm32项目】多功能智能家居室内灯光控制系统设计与实现（完整工程资料源码）

多功能智能家居室内灯光控制系统设计与实现目录： 目录： 前言： 一、项目背景与目标二、国内外研究现状： 2.1 国内研究现状： 2.2 国外研究现状： 2.3 发展趋势三、硬件电路设计 3.1 总体概述 3.2 硬件连接总…

阅读更多...

[NSSCTF 2022 Spring Recruit]babyphp

[NSSCTF 2022 Spring Recruit]babyphp

if嵌套，先过第一个if，需要a不含数字而且intval取整数 intval:通过使用指定的进制 base 转换（默认是十进制），返回变量 value 的 int 数值。 intval() 不能用于 object，否则会产生 E_WARNING 错误并返回 1。…

阅读更多...

微服务实战系列之玩转Docker（十）

微服务实战系列之玩转Docker（十）

前言我们知道Docker的“使命”是为了快速完成应用的迁移和部署。为提升它的战斗能力，Docker官方携手发布了Docker Swarm—— 一个快速完成Docker集群构建的利器。那么请先回忆一下本系列第八篇（重点compose）和第九篇（重点networ…

阅读更多...

歌曲爬虫下载

歌曲爬虫下载

本次编写一个程序要爬取歌曲音乐榜https://www.onenzb.com/ 里面歌曲。有帮到铁子的可以收藏和关注起来！！！废话不多说直接上代码。 1 必要的包 import requests from lxml import html,etree from bs4 import BeautifulSoup import re impo…

阅读更多...

Kaggle竞赛——心脏病患者预测与可视化

Kaggle竞赛——心脏病患者预测与可视化

目录准备工作1. 特征解释2. 生成探索性数据分析报告2.1 数据集导入2.2 生成数据分析报告 3. 可视化分析3.1 特征相关性分析3.2 患病人数统计3.3 特征与是否患病之间的关系 4. 数据处理4.1 定类数据处理4.2 独热编码 5. 模型搭建5.1 随机森林模型5.2 可视化决策树5.3 特征重要性…

阅读更多...

SourceTree基础使用教程

SourceTree基础使用教程

SourceTree基础使用在B站上搜了不少关于SourceTree的教学视频，多家比较后下面的视频干活比较多 sourcetree使用教程大概就二十几分钟，跟着学了一个小时，边看边操作，印象更深刻一些主要涉及以下操作： 1、新建分支…

阅读更多...

推荐文章

最新文章