每日学术速递5.8

news2025/2/25 7:52:44

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Personalize Segment Anything Model with One Shot

标题:一键个性化细分任何模型

作者:Renrui Zhang, Zhengkai Jiang, Ziyu Guo, Shilin Yan, Junting Pan, Hao Dong, Peng Gao, Hongsheng Li

文章链接:https://arxiv.org/abs/2305.03048

项目代码:https://github.com/ZrrSkywalker/Personalize-SAM

摘要:

        在大数据预训练的驱动下,Segment Anything Model (SAM) 已被证明是一个强大且可提示的框架,彻底改变了分割模型。尽管具有普遍性,但在没有人工提示的情况下为特定视觉概念定制 SAM 仍在探索中,例如,在不同的图像中自动分割您的宠物狗。在本文中,我们提出了一种用于 SAM 的免训练个性化方法,称为 PerSAM。只给定一张带有参考掩码的图像,PerSAM 首先通过一个位置先验定位目标概念,然后通过三种技术在其他图像或视频中将其分割:目标引导注意、目标语义提示和级联后细化。通过这种方式,我们无需任何培训即可有效地将 SAM 用于私人用途。为了进一步减轻掩模歧义,我们提出了一种有效的单次微调变体 PerSAM-F。冻结整个 SAM,我们为多尺度掩码引入了两个可学习的权重,仅在 10 秒内训练 2 个参数以提高性能。为了证明我们的功效,我们构建了一个新的分割数据集 PerSeg,用于个性化评估,并测试我们的视频对象分割方法具有竞争力的性能。此外,我们的方法还可以增强 DreamBooth 以个性化用于文本到图像生成的稳定扩散,从而丢弃背景干扰以实现更好的目标外观学习。代码在此 https URL 上发布

2.FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction(ACL 2023)

标题:FormNetV2:用于表单文档信息提取的多模态图对比学习

作者:Chen-Yu Lee, Chun-Liang Li, Hao Zhang, Timothy Dozat, Vincent Perot, Guolong Su, Xiang Zhang

文章链接:https://arxiv.org/abs/2305.02549

项目代码:https://huggingface.co/papers/2305.02549

摘要:

        最近出现的自我监督预训练技术导致在表格文档理解中使用多模态学习的激增。然而,将掩码语言建模扩展到其他模态的现有方法需要仔细的多任务调整、复杂的重建目标设计或额外的预训练数据。在 FormNetV2 中,我们引入了一种集中式多模态图对比学习策略,以在一次损失中统一所有模态的自我监督预训练。图对比目标最大化多模态表示的一致性,为所有模态提供自然的相互作用,无需特殊定制。此外,我们提取边界框内的图像特征,边界框连接一对由图形边缘连接的标记,捕获更有针对性的视觉线索,而无需加载复杂且单独预训练的图像嵌入器。FormNetV2 以更紧凑的模型尺寸在 FUNSD、CORD、SROIE 和支付基准上建立了新的最先进性能。

Subjects: cs.CL

3.Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision

标题:在最少的人工监督下从头开始进行语言模型的原则驱动自对齐

作者:Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan

文章链接:https://arxiv.org/abs/2305.03047

项目代码:https://mitibmdemos.draco.res.ibm.com/dromedary

摘要:

        最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题,这种依赖性会极大地限制 AI 助手的真正潜力。为了应对这些挑战,我们提出了一种称为 SELF-ALIGN 的新方法,它结合了原则驱动的推理和 LLM 的生成能力,以在最少的人工监督下实现 AI 代理的自对齐。我们的方法包括四个阶段:首先,我们使用 LLM 生成合成提示,并使用主题引导方法来增加提示的多样性;其次,我们使用一小组人工编写的人工智能模型原则来遵循,并通过从(原则应用的)演示中进行上下文学习来指导法学硕士,以对用户的查询产生有用的、合乎道德的和可靠的响应;第三,我们使用高质量的自对齐响应对原始 LLM 进行微调,以便生成的模型可以直接为每个查询生成理想的响应,而无需原则集和演示;最后,我们提供了一个改进步骤来解决过于简短或间接响应的问题。将 SELF-ALIGN 应用于 LLaMA-65b 基础语言模型,我们开发了一个名为 Dromedary 的 AI 助手。少于 300 行人工注释(包括 < 200 个种子提示、16 个通用原则和 5 个用于上下文学习的示例)。在具有各种设置的基准数据集上,Dromedary 的性能显着超过了几个最先进的 AI 系统,包括 Text-Davinci-003 和 Alpaca。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/521114.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ArcMap创建格网统计图

目录 前言 一、人口数据获取 来源一&#xff1a;中科院地理所公开数据集 来源二&#xff1a;WorldPop数据集 二、人口格网统计步骤 1.创建渔网 2.人口数据处理 2.1 栅格转点 2.2 空间插值——处理人口缺失数据 2.3 空间连接——渔网人口统计 总结 前言 在科研中&am…

南华大学编译原理----词法分析器的设计与实现、语法分析器的设计与实现

下载链接&#xff1a;&#xff08;各位同学不需要充钱哈&#xff0c;这种我也没有收益&#xff0c;去淘宝上面找个代下&#xff0c;大概0.5元就能下载实验报告&#xff0c;用来给同学们参考&#xff0c;下载积分不是我设置的&#xff0c;是网站自己默认的&#xff09; --------…

English Learning - L3 作业打卡 Lesson1 Day1 2023.5.5 周五

English Learning - L3 作业打卡 Lesson1 Day1 2023.5.5 周五 引言&#x1f349;句1: Every people has its own way of saying things , its own special expressions.成分划分弱读连读语调自身问题&#xff1a; &#x1f349;句2: Many everyday American expressions are ba…

股票量价关系基础知识6----图解各阶段量价关系:价涨量平

图解各阶段量价关系&#xff1a;价涨量平 价涨量平是指股价上涨而成交量却变化不大&#xff0c;这可能是场外资金仍在观望&#xff0c;进场做多力量不大。 一、上涨初期的价涨量平 &#xff08;一&#xff09;形态分析 股价触底反弹后小幅上涨&#xff0c;成交量却持平&#x…

【认知提升思维篇】之向上越阶的跳圈思维(学霸的秘籍)

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 秩沅 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a;普本…

软软件设计师算法上午题概念笔记

N皇后问题 **走迷宫 ** 以上q2不行 因为不能在同一行 这条路所有的都走不通所以需要回溯回溯至上一条路&#xff0c;把上一个皇后位置改变下 重新放皇后三 皇后四不能放所以回溯&#xff0c;发现皇后三也不能放 再往上回溯&#xff0c;发现2也不行那就回溯皇后1 总结&…

网络安全工程师必须面对的三个坎必备十大基础知识!

前言 我一个朋友老赵&#xff0c;老赵在一家大型互联网公司做高级网络安全工程师&#xff0c;从实习生到工程师整整待了六年。去年他们公司为了缩减成本&#xff0c;做了裁员&#xff0c;他也在其中&#xff0c;取而代之的是一个只有三年工作经验的 “新人” … 老赵想着&…

小牟Andorid下面MD5具体实现的思路总结

Android的开发往往需要一定数目demo 从今起MD5一些加密算法提取物 看看是如何实现的 首先&#xff0c;我们必须明确为什么加密&#xff1f; 1 数据安全处理 2 防止数据窃取 3 有效的避免恶意攻击 4 保证文件完整性 5 优化搜索 作为文件&#xff08;数据&#xff09;索引…

【Java零基础入门篇】第 ⑦ 期 - 常用类库

博主&#xff1a;命运之光 专栏&#xff1a;Java零基础入门 学习目标 掌握Java各种常用类库的使用方法。 目录 Java类库 字符串String String 概述 创建字符串对象的2种方式 String类的特点 创建字符串对象的2种方式 总结&#xff1a;创建字符串对象的2种方式区别 字符…

【C++】类和对象(下篇)

C类和对象下篇 构造函数的一点补充构造函数体赋值初始化列表explicit关键字 Static成员概念特性 友元友元函数友元类 内部类概念特性 匿名对象拷贝对象时的一些编译器优化几道例题 构造函数的一点补充 构造函数体赋值 在创建对象时&#xff0c;编译器通过调用构造函数&#x…

股票量价关系基础知识2

内盘与外盘 外盘&#xff0c;是指在一个交易日获某段交易时间内&#xff0c;买方主动提价以委卖价成交的股数之和&#xff0c;也称为主动性买盘 内盘&#xff0c;是指在一个交易日获某段交易时间内&#xff0c;卖方主动降价以委买价成交的股数之和&#xff0c;也称主动性卖盘。…

flstudio20没有language选项,fl 21怎么也没有language选项

最新小伙伴们安装flstudio20没有language选项&#xff0c;是什么原因导致flstudio20没有language选项&#xff0c;兔八哥爱分享测试了&#xff0c;应该是flstudio20版本太低了&#xff0c;建议安装flstudio20.8以上版本&#xff0c;才可以flstudio20.8语言切换中文版。 flstud…

05- redis集群模式搭建(上) (包含云服务器[有坑])

目录 1. 准备环境: 2. 简介: -> 2.1 前言: -> 2.2 Redis集群架构实现了对redis的水平扩容 -> 2.3 redis cluster集群原理 3. 搭建后特别需要注意的问题 ->3.1 [重点]: 如果一个服务出现故障: 是否可以继续提供服务??? ---> 3.1.1 如果集群中故障re…

C++系列八:选择、循环与转向

选择、循环与转向 1. 选择语句2. 循环语句3. 转向语句4. 总结 1. 选择语句 选择语句使用条件来确定程序将执行哪些代码。在C编程中&#xff0c;选择语句有多种类型&#xff0c;包括if语句、switch语句和三元运算符。 &#xff08;1&#xff09;if语句 if语句是C编程中最常见…

Oracle EBS Interface/API(49)- AP付款取消API

快速参考 参考点内容功能导航N: AP->付款->录入->付款并发请求None基表AP.AP_CHECKS_ALLAPI参考下面介绍错误信息表None接口FormNone接口ReportNoneDebug ProfileNone详细例子参考如下实例官方文档None数据验证包None用户界面 Path:AP->付款->录入->付款-&g…

UNIX网络编程卷一 学习笔记 第十三章 守护进程和inetd超级服务器

守护进程是在后台运行且不与任何控制终端关联的进程。Unix系统通常有很多守护进程在后台运行&#xff08;约20到50个的量级&#xff09;&#xff0c;执行不同的管理任务。 守护进程由系统初始化脚本&#xff08;在开机时运行&#xff09;启动&#xff0c;而没有控制终端是系统…

华为交换机特殊场景使用mux vlan

场景主要用于&#xff1a; 设置两个vlan&#xff0c;每个vlan内的所有用户自动获取地址和能上外网&#xff0c;但是自个valn间用户都不能互相访问&#xff0c;每个用户又都可以 和其它vlan的用户通信。 官方版&#xff1a; 操作步骤 1.配置MUX VLAN 创建VLAN2、VLAN3和VLAN…

Python综合案例—利用tkinter实现计算器的程序

目录 一、导入 tkinter 库 定义全局变量 二、定义回调函数 三、创建窗口对象 四、创建标签控件 五、创建数字按钮 六、创建加、减、乘、除和等于按钮 七、创建清空按钮 八、总结 用Python实现计算器可以让我们更好地理解面向对象编程、GUI 编程和事件驱动编程等概念&a…

知识变现海哥:掌握这四个步骤,轻松实现知识变现

你是否有过这种感受&#xff0c;看了很多书&#xff0c;网上报课花了很多钱&#xff0c;课程屯了很多&#xff0c;可是依然很难变现&#xff0c;问题出在哪里呢&#xff1f; 海哥写这本《知识变现道法术器》将为你揭开答案。 海哥&#xff0c;国内知名知识变现创业教练&#x…

Java开发 - 不知道算不算详细的MySQL多维度性能优化剖析

前言 MySQL性能优化是一个很大的话题&#xff0c;小到一句SQL&#xff0c;大到一个系统&#xff0c;都是我们优化的目标&#xff0c;博主之前曾写过一篇关于SQL优化的博客&#xff0c;感兴趣的小伙伴直接点击即可。本篇&#xff0c;我们将从多个维度来讲解MYSQL性能优化相关的…