VALSE 2024 Workshop报告分享┆面向实际场景体验的多模态大模型DeepSeek VL

news2025/1/12 22:48:59

2024年视觉与学习青年学者研讨会(VALSE 2024)于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

本文主要对于来自浙江大学的张博研究员所做的报告《面向实际场景体验的多模态大模型DeepSeek VL》进行总结和分享。

1.报告人简介

张博,浙江大学计算机学院CAD&CG国家重点实验室“百人计划”研究员,博士生导师。研究领域包括计算机视觉、深度内容生成、多模态模型、具身智能等。

2.报告概览

报告首先总结了张博研究员及其团队近期的主要工作,随后详细介绍了以用户实际体验为核心,围绕数据构建、模型架构和训练策略进行的系统设计的DeepSeek-VL项目。DeepSeek-VL系列的多模态模型在现实世界应用中展现出卓越的用户体验,在相同规模的各种视觉语言基准测试中展示了具有竞争力的性能,同时在语言中心的基准测试中也保持了优异的表现。

3.内容整理

图1 “DeepSeek-VL”的可视化结果

图 1展示了“DeepSeek-VL”的可视化结果。DeepSeek-VL能够捕获微小的物体并给出有组织的解释。以下内容是根据刘禹良教授的汇报及其关于“DeepSeek-VL”模型的研究论文整理得出。相关论文和DeepSeek-VL demo链接已附在文章末尾。

(1)主要工作

主要工作1:高质量图像生成

1)2021年,张博研究员及其团队基于生成对抗网络技术推出了领先的图像生成技术StyleSwin。

2)张博研究员及其团队业界首次提出基于扩散模型的文生图模型VQ-Diffusion。

3)生成质量上超越了行业标杆英伟达的StyleGAN,并显著超过OpenAI的DALLE v1,速度提升达到15倍。

4)张博研究员及其团队的通用图像翻译工作(题为"Pretraining is all you need for image-to-image translation")发表于ICCV 2023,比最佳论文得主ControlNet早七个月提出,该工作首次提出于2022年5月(ControlNet提出于2023年2月)。

主要工作2:三维生成扩散模型

张博研究员及其团队开发了首个基于扩散模型的虚拟人生成模型,该工作被选为CVPR 2023的Highlight,名为Rodin模型。

主要工作3:多模态基础模型

张博研究员及其团队推出了先进的70亿参数的开源多模态大模型DeepSeek-VL,该模型在各种视觉语言基准测试中展示出竞争力的性能,同时在以语言为中心的基准测试中也保持出色的表现。

(2)DeepSeek-VL详细介绍

1)数据构建

张博研究员及其团队努力确保数据多样化、可扩展并广泛覆盖真实世界场景,包括网页截图、PDF文档、OCR、图表以及基于知识的内容(专家知识、教科书),目标是全面呈现实际情境。此外,张博研究员及其团队根据真实用户场景创建用例分类,并据此构建指令调整数据集。使用这个数据集的微调显著提高了模型在实际应用中的用户体验。

2)模型架构

考虑到效率和大多数现实世界场景的需求,DeepSeek-VL整合了一个混合视觉编码器,该编码器能够在固定的令牌预算内高效处理高分辨率图像(1024 x 1024),同时保持相对较低的计算开销。这种设计选择确保了模型在各种视觉任务中捕获关键语义和详细信息的能力。

3)训练策略

张博研究员及其团队认为,一个熟练的视觉-语言模型首先应具备强大的语言能力。为了确保在预训练期间保留LLM的能力,张博研究员及其团队通过从一开始就整合LLM训练并仔细管理视觉和语言模态之间观察到的竞争动态来探索有效的VL预训练策略。从关注文本开始,逐渐调整比例以促进两种模态的平衡整合。

DeepSeek-VL系列(包括1.3B和7B模型)在现实世界应用中作为视觉-语言聊天机器人展示了卓越的用户体验,在相同模型大小下在广泛的视觉-语言基准测试中实现了最先进或具有竞争力的性能,同时保持了在以语言为中心的基准测试上的稳健性能。张博研究员及其团队已经使1.3B和7B两个模型公开可访问,以促进基于此基础模型的创新。

DeepSeek-VL demo链接:https://huggingface.co/spaces/deepseek-ai/DeepSeek-VL-7B。

DeepSeek-VL论文下载链接:https://arxiv.org/abs/2403.05525。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1654261.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

视频改字祝福/豪车装X系统源码/小程序uniapp前端源码

uniapp视频改字祝福小程序源码,全开源。创意无限!AI视频改字祝福,豪车装X系统源码开源,打造个性化祝福视频不再难! 想要为你的朋友或家人送上一份特别的祝福,让他们感受到你的真诚与关怀吗?现在…

通过Nginx转发admin连接licloud-api-develop接口

1.需求配置 在本地环境部署一套开发环境,方便开发金磊调试功能 所使用到的服务有nginx,mysql,rabbitmq,redis,docker 服务安装网上都有教程这里就不一一列举出来了,服务都配置好之后 开始组建开发环境 2…

Java进阶05 时间API异常

Java进阶05 一、递归算法 方法直接(自己调自己)或间接(方法调其他方法,其他方法又回调自己)调用自身 1、递归思想 把一个复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解。需要注意,设计递…

商务分析方法与工具(五):Python的趣味快捷-文件和文件夹操作自动化

Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊! 喜欢我的博客的话,记得…

考情分析 | 2025年西北工业大学计算机考研考情分析!

西北工业简称西工大(英文缩写NPU),大学坐落于古都西安,是我国唯一一所以同时发展航空、航天、航海工程教育和科学研究为特色,以工理为主,管、文、经、法协调发展的研究型、多科性和开放式的科学技术大学。十…

如果出现一个工具,可以让前端开发彻底不用再手写UI,这个工具意义大吗?干货!

求这样的一个工具,可以让后端开发、嵌入式开发、产品经理、UI设计师都能用,注意,不是在一个简单的静态页生成,也不是类似飞冰那种 generator ,而是真正让设计师和开发者在各自的那侧达成自治,可以做到吗&am…

电-热耦合市场联合出清!考虑均衡约束的综合能源系统电-热分配方法程序代码!

前言 随着现代城市面临环境问题,原来燃煤的水和空间供暖设备已逐渐被电锅炉和热泵等电气设备所取代。此外,集中生产热能并通过管网分配热能的区域供暖系统,由于其更高的效率,在冬季漫长寒冷的国家和地区越来越受欢迎。供暖设备的…

牛客题-链表内区间反转

链表内区间反转 这是代码 typedef struct ListNode listnode; struct ListNode* reverseBetween(struct ListNode* head, int m, int n ) {if (head NULL) {return NULL;}listnode* findhead head;listnode* findtail head;listnode* prev NULL;int count1 m;int count2…

CTF-reverse二维四向迷宫路径求解

二维四向迷宫是一个re中的常考点,说不上难,但也不简单,本篇记录了常规的二维四向迷宫解题套路以及帮助快速解题的脚本 可能你看我的教程会觉得十分繁琐,但实际只要你用了一次熟练之后,基本都是拿到迷宫就一题一分钟解决…

深入学习Linux内核页框回收

目录 算法 1.选择目标页 2.PFRA设计 3.反向映射 3.1.匿名页的反向映射 3.2.try_to_unmap_anon()函数 3.3.try_to_unmap_one()函数 映射页的反向映射 优先搜索树 try_to_unmap_file()函数 PFRA实现 最近最少使用(LRU)链表 在LRU链表之间移动页 mark_page_accessed(…

【优选算法】——双指针——Leetcode——283.移动零

目录 ​编辑 1.题目 2. 解法(快排的思想:数组划分区间-数组分两块): 1.算法思路: 2.算法流程: 3.代码实现 1.C语言 2.C 1.题目 283. 移动零 提示 给定一个数组 nums,编写一个函数将所有…

每日一题 非对称之美

题目描述 I-非对称之美_牛客小白月赛31 (nowcoder.com) 题目解析 贪心算法的应用 考虑以下情况:当字符串中的字符全部相同时,即使删除任意一个字符,也无法使其成为一个回文串。这种情况下,我们无法直接套用上述的逐步比较方法。…

【Android】Room数据库的简单使用方法

Room数据库的使用方法 目录 1、添加Room数据库的依赖2、Entity——定义实体类 2.1 定义主键——PrimaryKey2.2 字段注解——ColumnInfo 3、Dao——定义数据访问对象4、Database——数据库 4.1 通过回调观察数据库是否创建成功 5、使用时注意点6、编写异步 DAO 查询 6.1 写异步…

LabVIEW波浪发电平台浮筒取能效率数据采集系统

LabVIEW波浪发电平台浮筒取能效率数据采集系统 随着化石能源的逐渐减少以及能源价格的上升,寻找可替代的、可再生的、清洁的能源成为了世界各国的共识。波浪能作为一种重要的海洋能源,因其巨大的潜力和清洁性,近年来受到了广泛关注。开发了一…

数据结构学习——二叉树

1. 树概念及结构 1.1 树的概念 树是一种非线性的数据结构,它是由n(n>0)个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。 有一个特殊的结点&…

基于Springboot的校园健康驿站管理系统(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的校园健康驿站管理系统(有报告)。Javaee项目,springboot项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系…

C语言:指针(1)

1. 内存和地址 内存划分为⼀个个的内存单元,每个内存单元的⼤⼩取1个字节。 计算机中常⻅的单位(补充): ⼀个⽐特位可以存储⼀个2进制的位1或者0 C语⾔中给地址起了新的名字叫:指针。 内存单元的编号地址指针。 1.…

重写muduo之Thread、EventLoopThread、EventLoopThreadPool

目录 1、概述 2、Thread 2.1 Thread.h 3、EventLoopThread 3.1 EventLoopThread.h 3.2 EventLoopThread.cc 4、 EventLoopThreadPool 4.1 EventLoopThreadPool.h 4.2 EventLoopThreadPool.cc 1、概述 管理事件循环线程的调度的 打包了一个EventLoop和线程,…

每日OJ题_记忆化搜索①_力扣509. 斐波那契数(四种解法)

目录 记忆化搜索概念和使用场景 力扣509. 斐波那契数 解析代码1_循环 解析代码2_暴搜递归 解析代码3_记忆化搜索 解析代码4_动态规划 记忆化搜索概念和使用场景 记忆化搜索是一种典型的空间换时间的思想,可以看成带备忘录的爆搜递归。 搜索的低效在于没有能够…

Mysql基础(五)外键约束

一 外键 激励: 每天进步一点点即可 ① 思考 1、在MySQL中,我们知道主键 PRIMARY KEY的主要作用是唯一区分表中的各个行 [记录];思考:但是对于外键 foreign key比较陌生? 那么外键作用以及限制条件和目的呢? ② 外键的定义 1、外键是某个表 A中…