每日学术速递5.19

news2024/9/22 9:57:18

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.On the Hidden Mystery of OCR in Large Multimodal Models 

标题:论大型多模态模型中 OCR 的隐藏奥秘

作者:Yuliang Liu, Zhang Li, Hongliang Li, Wenwen Yu, Mingxin Huang, Dezhi Peng, Mingyu Liu, Mingrui Chen, Chunyuan Li, Lianwen Jin, Xiang Bai

文章链接:https://arxiv.org/abs/2305.07895

项目代码:https://github.com/Yuliang-Liu/MultimodalOCR

摘要:

        大型模型最近在自然语言处理和多模态视觉语言学习中发挥了主导作用。关于它们在与文本相关的视觉任务中的功效的探索仍然较少。我们对现有的公开可用的多模态模型进行了全面研究,评估了它们在文本识别、基于文本的视觉问答和关键信息提取方面的性能。我们的发现揭示了这些模型的优点和缺点,这些模型主要依靠语义理解来识别单词,并且对单个字符形状的感知较差。它们还对文本长度表现出漠不关心,并且在检测图像中的细粒度特征方面的能力有限。因此,这些结果表明,即使是当前最强大的大型多模态模型也无法与传统文本任务中的领域特定方法相媲美,并且在更复杂中面临更大的挑战。最重要的是,本研究中展示的基线结果可以为旨在增强零样本多模式技术的创新策略的概念和评估提供基础框架。评估管道将在这个 https URL 上可用。

2.BlendFields: Few-Shot Example-Driven Facial Modeling(CVPR 2023

标题:BlendFields:Few-Shot 示例驱动的面部建模

作者:Kacper Kania, Stephan J. Garbin, Andrea Tagliasacchi, Virginia Estellers, Kwang Moo Yi, Julien Valentin, Tomasz Trzciński, Marek Kowalski

文章链接:https://arxiv.org/abs/2305.07514

项目代码:https://blendfields.github.io/

3.CodeT5+: Open Code Large Language Models for Code Understanding and Generation

标题:CodeT5+:用于代码理解和生成的开放代码大型语言模型

作者:Yue Wang, Hung Le, Akhilesh Deepak Gotmare, Nghi D.Q. Bui, Junnan Li, Steven C.H. Hoi

文章链接:https://arxiv.org/abs/2305.07922

摘要:

        在大量源代码上预训练的大型语言模型 (LLM) 在代码智能方面取得了显着进步。然而,现有的代码 LLM 在架构和预训练任务方面有两个主要限制。首先,它们通常采用特定的架构(仅编码器或仅解码器)或依赖统一的编码器-解码器网络来完成不同的下游任务。前者范式受到应用程序不灵活的限制,而在后者中,模型被视为所有任务的单一系统,导致任务子集的性能不佳。其次,他们通常使用一组有限的预训练目标,这些目标可能与某些下游任务无关,因此导致性能大幅下降。为了解决这些限制,我们提出了“CodeT5+”,这是一个用于代码的编码器-解码器 LLM 系列,其中的组件模块可以灵活组合以适应各种下游代码任务。这种灵活性是由我们提出的预训练目标混合实现的,以减轻预训练-微调差异。这些目标涵盖单峰和双峰多语言代码语料库的跨度去噪、对比学习、文本代码匹配和因果 LM 预训练任务。此外,我们建议使用冻结的现成 LLM 初始化 CodeT5+,无需从头开始训练,以有效地扩展我们的模型,并探索指令调优以与自然语言指令保持一致。我们在不同设置(包括零样本、微调和指令调整)的 20 多个与代码相关的基准测试中广泛评估了 CodeT5+。我们观察了各种与代码相关的任务(例如代码生成和完成、数学编程和文本到代码检索任务)的最先进 (SoTA) 模型性能。特别是,我们的指令调优 CodeT5+ 16B 在 HumanEval 代码生成任务上针对其他开放代码 LLM 取得了新的 SoTA 结果。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/547383.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机图形学-GAMES101-11

显式几何的表示方法 Point Cloud 使用一系列点表示物体的表面。理论上可以表达空间中任何物体。如物体扫描会得到空间中一系列点,但在建模时我们要提取出大量多边形的面。点云对密度要求很高,因此不常使用。 Polygon Mesh 使用三角形表示物体。涉及三…

备份树莓派SD卡 — 保姆级教学

在我们树莓派项目开发的过程中,经常遇到以下问题: 1.自己辛辛苦苦开发出来的项目,害怕内存卡损坏,系统被破坏掉,想做一个备份。 2.自己的树莓派内存卡内存不够了,想将原来卡上的内容放在新的大容量内存卡…

Arm微架构分析系列3——Arm的X计划

1. 引言 前文介绍了Arm公司近几年在移动处理器市场推出的Cortex-A系列处理器。Cortex-A系列处理器每年迭代,性能和能效不断提升,是一款非常成功的产品。但是,Arm并不满足于Cortex-A系列每年的架构小幅度升级,又推出了X计划&#x…

esp32CAM环境安装教程---串口驱动安装

前言 (1)本人安装好arduino 的ESP32环境之后, 发现一直下载不进去程序。一直说Cannot configure port, something went wrong. Original message: PermissionError。 (2)查阅了很多资料,用了各种办法&#…

怎么消除文法的左递归性

除文法的左递归性可以采用以下方法: 直接左递归转换为间接左递归消除间接左递归 举例说明: 直接左递归转换为间接左递归 原文法:A → Aα | β 转换后的文法:A → βA A → αA | ε 例如:S → Sabc | ε 转换后…

4. QT中的事件函数 --- 鼠标事件、键盘事件、定时器事件、绘图事件

1. 说明 在QT的控件或者窗口当中,如果对于当前鼠标或者键盘的功能需要自己定义,可以重写父类当中对应虚函数,主要包括以下几个: //键盘按键按下 virtual void keyPressEvent(QKeyEvent *event); //键盘按键抬起 virtual void ke…

11.1网络编程

多线程 一、基础知识概念相关API二、任务创建一个简单的本地客户端迭代服务器select系统调用并发服务器数据报三、总结四、问题一、基础知识 概念 网络编程中客户端和服务器指的是进程,而不是常提到的机器或者主机。注意三个概念:请求、响应、事务。 网络编程中客户端-服务器…

面向对象的三大特性之继承(C++)

文章目录 继承的概念和定义概念定义定义格式继承关系和访问限定符继承基类成员访问方式的变化 基类和派生类对象赋值转换继承中的作用域派生类的默认成员函数继承与友元继承与静态成员菱形继承与虚拟继承菱形继承虚拟继承 继承的总结与反思继承和组合 继承的概念和定义 概念 继…

微信小程序 nodejs+vue+uniapp付费自习室图书馆教室座位系统-

系统分为用户和管理员角色 管理员的主要功能有: 1.管理员输入账户登陆后台 2.个人中心:管理员修改密码和账户信息 3.用户管理:对注册的用户信息进行添加,删除,修改,查询 4.自习室管理:对系统的自…

由浅入深Netty协议设计与解析

目录 1 为什么需要协议?2 redis 协议举例3 http 协议举例4 自定义协议要素4.1 编解码器4.2 什么时候可以加 Sharable 1 为什么需要协议? TCP/IP 中消息传输基于流的方式,没有边界。 协议的目的就是划定消息的边界,制定通信双方要…

每日学术速递5.18

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts 标题:Make-A-Protagonist:与专家合奏的通用视频编辑 作者:Yuyang Z…

云端一体助力体验升级和业务创新

随着音视频和AI技术的发展,在满足用户基础体验和需求情况下,更极致的用户体验和更丰富的互动玩法,成为各个平台打造核心竞争力的关键。LiveVideoStackCon 2022 北京站邀请到火山引擎视频云华南区业务负责人——张培垒,基于节跳动音…

虚幻引擎4利用粒子系统实现物体轨迹描绘

虚幻引擎4利用粒子系统实现物体轨迹描绘 目录 虚幻引擎4利用粒子系统实现物体轨迹描绘前言粒子系统利用粒子系统实现物体轨迹描绘创建粒子系统将粒子系统的产生位置绑定到运动物体上 小结 前言 由于在物体运动时,想要观察其总的运动轨迹,以便对其控制做…

Java实现天气预报功能

如果要实现类似百度天气、手机App这样的天气预报功能该如何实现?首先想到的是百度... 背景: 最近公司做了一个项目,天气预报的功能也做上去了,不仅有实时天气、未来7天预报的功能、还有气象预警的功能。 天气包括基本天气、白天夜…

【K8s】什么是helm?helm的常用指令

文章目录 一、Helm介绍1、背景2、介绍3、核心概念4、chart的基本结构5、helm官网 二、部署Helm1、安装helm客户端2、安装Tiller 三、常用指令1、仓库相关 helm repo2、chart相关3、release相关 四、入门案例1、构建第一个chart2、将chart包发布到Repository3、在 Kubernetes 中…

Nacos之服务注册中心

1.Nacos之服务提供者注册 官方文档 1.1.前期工作 1.1.1.新建Module - api-commons POM <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSc…

区块链商业模式

1. 引言 web2 vs web3&#xff1a; 基于区块链的商业模式有&#xff1a; 1&#xff09;Token Economy-Utility Token商业模式2&#xff09;Blockchain As A Service&#xff08;Baas&#xff09;商业模式3&#xff09;Blockchain-Based Software Products商业模式4&#xf…

【C++修炼之路】30.可变参数模板包装器

每一个不曾起舞的日子都是对生命的辜负 C11之可变参数模板&&包装器 前言一.可变参数模板的首次登场二.参数包展开2.1 递归函数方式展开参数包2.2 逗号表达式展开参数包 三.容器的emplace方法四.包装器4.1 什么是function4.2 function包装器的作用4.3 function的实际用途…

使用Redis实现短信验证码登录功能

一、概述 目前微信小程序或网站的登录方式大部分采取了微信扫码或短信验证码等方式&#xff0c;为什么短信验证码登录方式会受到互联网公司的青睐&#xff0c;因为其确实有许多好处&#xff1a; 方便快捷&#xff1a;用户无需记忆复杂的用户名和密码&#xff0c;只需通过短信…

Python共享文件 - Python快速搭建HTTP web服务实现文件共享并公网远程访问

文章目录 1. 前言2. 视频教程3. 本地文件服务器搭建3.1 python的安装和设置3.2 cpolar的安装和注册 4. 本地文件服务器的发布4.1 Cpolar云端设置4.2 Cpolar本地设置 5. 公网访问测试6. 结语 转载自内网穿透工具的文章&#xff1a;Python一行代码实现文件共享【内网穿透公网访问…