每日学术速递5.28

news2025/1/9 14:40:46

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CL

1.Improving Factuality and Reasoning in Language Models through Multiagent Debate

标题:通过多主体辩论改进语言模型中的事实性和推理 

作者:Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum, Igor Mordatch

文章链接:https://arxiv.org/abs/2305.14325

项目代码:https://composable-models.github.io/llm_debate/

摘要:

        近年来,大型语言模型 (LLM) 在语言生成、理解和小样本学习方面展示了卓越的能力。大量的工作探索了如何通过提示工具进一步提高他们的表现,包括验证、自洽或中间暂存器。在本文中,我们提出了一种改进语言响应的补充方法,其中多个语言模型实例在多轮中提出并辩论其各自的响应和推理过程,以得出共同的最终答案。我们的研究结果表明,这种方法显着增强了许多任务的数学和战略推理。我们还证明,我们的方法提高了生成内容的事实有效性,减少了当代模型容易出现的错误答案和幻觉。我们的方法可以直接应用于现有的黑盒模型,并对我们调查的所有任务使用相同的程序和提示。总的来说,我们的研究结果表明,这种“思想社会”方法有可能显着提高 LLM 的能力,并为语言生成和理解的进一步突破铺平道路。

2."According to ..." Prompting Language Models Improves Quoting from Pre-Training Data

标题:“根据……”提示语言模型改进了预训练数据的引用

作者:Orion Weller, Marc Marone, Nathaniel Weir, Dawn Lawrie, Daniel Khashabi, Benjamin Van Durme

文章链接:https://arxiv.org/abs/2305.13252

摘要:

        尽管对事实数据进行了预训练,但大型语言模型 (LLM) 可能会产生幻觉并生成虚假信息。受“根据消息来源”这一新闻手段的启发,我们建议根据提示:指导 LLM 对先前观察到的文本做出地面反应。为了量化这种基础,我们提出了一种新颖的评估指标(QUIP-Score),用于衡量模型生成的答案在基础文本语料库中直接找到的程度。我们通过维基百科上的实验来说明,这些提示可以改善我们指标下的基础,并具有经常提高最终任务绩效的额外好处。此外,要求模型减少接地(或接地到其他语料库)的提示会减少接地,表明语言模型能够根据要求增加或减少接地世代。

3.Aligning Large Language Models through Synthetic Feedback 

标题:通过综合反馈对齐大型语言模型

作者:Sungdong Kim, Sanghwan Bae, Jamin Shin, Soyoung Kang, Donghyun Kwak, Kang Min Yoo, Minjoon Seo

文章链接:https://arxiv.org/abs/2305.13735

摘要:

        使大型语言模型 (LLM) 与人类价值观保持一致变得越来越重要,因为它可以对 LLM 进行复杂的控制,例如,使它们遵循给定的指令,同时降低它们的毒性。但是,它需要大量的人工演示和反馈。最近,开源模型试图通过从 InstructGPT 或 ChatGPT 等已经对齐的 LLM 中提取数据来复制对齐学习过程。虽然这个过程减少了人力,但构建这些数据集对教师模型有很大的依赖性。在这项工作中,我们提出了一个新的对齐学习框架,几乎不需要人工,也不依赖于预先对齐的 LLM。首先,我们通过对比来自具有各种规模和提示的原始 LLM 的响应,使用合成反馈执行奖励建模 (RM)。然后,我们使用 RM 模拟高质量演示来训练监督策略,并通过强化学习进一步优化模型。我们生成的模型,Aligned Language Model with Synthetic Training dataset (ALMoST),优于开源模型,包括 Alpaca、Dolly 和 OpenAssistant,这些模型是根据 InstructGPT 或人工注释指令的输出进行训练的。我们的 7B 尺寸模型在使用 GPT-4 作为判断的 A/B 测试中优于 12-13B 模型,平均胜率约为 75%。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/578957.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

创建型设计模式02-工厂方法模式

✨作者:猫十二懿 ❤️‍🔥账号:CSDN 、掘金 、个人博客 、Github 🎉公众号:猫十二懿 工厂方法模式 1、工厂方法模式介绍 工厂方法模式(Factory Method Pattern)是一种常用的对象创建型设计模式…

MAC中文版 FCPX V10.6.6 专属视频剪辑后期工具安装教程

Final Cut Pro X简介 Final Cut Pro X又名FCPX,是MAC上非常不错的视频非线性剪辑软件,它剪辑速度超凡,具有先进的调色功能、HDR 视频支持,以及 ProRes RAW,让剪辑、音轨、图形特效、整片输出,支持主流的摄像机格式,是专业视频剪辑领域的王者…

Java经典笔试题—day14

Java经典笔试题—day14 🔎选择题🔎编程题🍭计算日期到天数转换🍭幸运的袋子 🔎结尾 🔎选择题 (1)定义学生、教师和课程的关系模式 S (S#,Sn,Sd,Dc,SA )(其属性分别为学号、姓名、所…

【数据湖仓架构】数据湖和仓库:范式简介

是时候将数据分析迁移到云端了——您选择数据仓库还是数据湖解决方案?了解这两种方法的优缺点。 数据分析平台正在转向云环境,例如亚马逊网络服务、微软 Azure 和谷歌云。云环境提供了多种好处,例如可扩展性、可用性和可靠性。此外&#xff0…

SpringMVC bean加载控制 -- SpringMVC入门保姆级教程(二)

文章目录 前言二、SpringMVC bean 加载控制1.bean加载控制2.添加Spring开发环境3.SpringMVC bean加载控制4.SpringMVC bean控制相关知识点 总结 前言 为了巩固所学的知识,作者尝试着开始发布一些学习笔记类的博客,方便日后回顾。当然,如果能…

丝印设计~丝印内容、大小、距离、排列,位置

丝印设计 丝印的内容包括: a) PCB的名称/PCB的版本号 b) 元器件外形框 c) 元器件的序号 d) 元器件的极性和方向标志 e) 条码框 f) 插入PCB的名称(母板) g) 插针的位置序号 h) 安装孔位置代号 i) 元器件第1脚的位置代号 j) 过板方向 k) 光纤盘…

分治入门+例题

目录 🥇2.3.2 合并排序 🥇2.3.3 快速排序 🌼P1010 [NOIP1998 普及组] 幂次方 🌳总结 形象点,分治正如“凡治众如治寡,分数是也”,管理少数几个人,即可统领全军 本质&#xff…

js数据类型和六种运算结果为false的情况

数据类型 number:数字(整数、小数、NaN(Not a Number)) string:字符串、单双引皆可 boolean:布尔。true、false null:对象为空 undefined:当声明的变量初始化时,该变量的默认值…

vuex五大核心、辅助函数

一、vuex五大核心 分别为:state、getters、mutations、actions、modules state:用来存放我们的状态,也可以理解数据,类似与data中定义的数据;mutations:可以获取state里面的状态,进行修改,他只…

Hadoop---10、生产调优手册

1、HDFS—核心参数 1.1 NameNode 内存生产配置 1、NameNode内存计算 每个文件块大概占用150byte,一台服务器128G内存为例,能储存多少文件块呢? 12810241024*1024/150Byte ≈ 9.1 亿 G M KB Byte 2、Hadoop2.x系列,配置 NameNode…

leetcode506.相对名次

题目描述跳转leetcode详情 给你一个长度为 n 的整数数组 score ,其中 score[i] 是第 i 位运动员在比赛中的得分。所有得分都 互不相同 。 运动员将根据得分 决定名次 ,其中名次第 1 的运动员得分最高,名次第 2 的运动员得分第 2 高&#xff0…

day1 -- 资料库管理系统DBMS

学习目标: 了解什么是Mysql 如何安装Mysql 学习内容: 资料库概念资料库管理系统概念资料库管理系统分类SQL是什么安装Mysql启动Mysql并建立一张测试表格 正文部分 资料库 比如你喜欢摘抄优美的词句,那些优美的词句就是一种文字资料&#xf…

香橙派4和树莓派4B构建K8S集群实践之六:App服务部署

目录 1. 说明 1.1 关于PHPNginx体系的WebApp,这里将实践两种部署模式: 1.2 配置清单 2. PHPNginx体系的WebApp部署 2.1 单节点多容器模式A 2.1.1 准备工作 2.2.2 部署 2.2.3 访问效果 ​编辑 2.2 多节点单容器模式B 2.2.1 准备工作 2.2 配置…

笔记 | FastAPI创建新项目

当使用FastAPI创建项目时,首先需要安装FastAPI和其依赖项。可以使用pip来安装它们。请确保已经安装了Python和pip。 创建项目文件夹并进入该文件夹: mkdir myproject cd myproject创建并激活一个新的Python虚拟环境(可选,但强烈…

虚拟机扩容

文章目录 虚拟机扩容扩容背景软件版本操作步骤1、VM上修改磁盘信息2、在系统中挂载磁盘(1) 使用命令查看磁盘状态(2) 通过命令查看到新磁盘的分区(3) 然后对新加的磁盘进行分区操作(4)重启虚拟机(5) 再次用以下命令查看到磁盘当前情况(6) 查看卷组名(7) 初始化刚刚的分区(8) 将…

MongoDB入门

mongodb与sql术语对应关系 SQL术语/概念MongoDB术语/概念解释/说明databasedatabase数据库tablecollection数据库表/集合rowdocument数据记录行/文档columnfield数据字段/域indexindex索引 对应关系图例

Microsoft Edge有哪些你不知道却超级好用的插件?(Microsoft Edge功能测评)

🎈个人主页:🎈 :✨✨✨初阶牛✨✨✨ 🐻推荐专栏: 🍔🍟🌯C语言进阶 🔑个人信条: 🌵知行合一 🍉本篇简介:>:对Edge浏览器的简单测评,分享一些自己在使用好用的插件. 目录…

阿里系文生图(PAI+通义)

PAI-Diffusion模型来了!阿里云机器学习团队带您徜徉中文艺术海洋 - 知乎作者:汪诚愚、段忠杰、朱祥茹、黄俊导读近年来,随着海量多模态数据在互联网的爆炸性增长和训练深度学习大模型的算力大幅提升,AI生成内容(AI Gen…

Ae 效果详解:3D 摄像机跟踪器

Ae菜单:效果/透视/3D 摄像机跟踪器 Effects/Perspective/3D Camera Tracker 使用 3D 摄像机跟踪器 3D Camera Tracker效果可自动分析视频,以便提取摄像机运动和 3D 场景数据。然后,可以在 2D 素材的基础上正确合成 3D 元素。 提示&#xff1a…

基于DataX的海量时序数据迁移实战:从MySQL到TDengine3.x

背景 MySQL 数据库中,设备历史数据单表过亿,如何快速、低成本地迁移到 TDengine3.x 中? 从标题可以看出,我们使用的数据迁移/同步工具是 DataX ,数据源( Source )为传统的关系型数据库 MySQL …