每日学术速递5.15

news2024/12/25 8:51:55

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CL

1.Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting

标题:并非所有语言在 LLM 中都是平等的:通过跨语言思维提示提高多语言能力

作者:Haoyang Huang, Tianyi Tang, Dongdong Zhang, Wayne Xin Zhao, Ting Song, Yan Xia, Furu Wei

文章链接:https://arxiv.org/abs/2305.07004

摘要:

        大型语言模型 (LLM) 展示了令人印象深刻的多语言能力,但它们的性能在不同语言之间差异很大。在这项工作中,我们介绍了一种简单而有效的方法,称为跨语言思维提示 (XLT),以系统地提高 LLM 的多语言能力。具体来说,XLT 是一种通用模板提示,可激发跨语言和逻辑推理技能,以提高跨语言的任务绩效。我们对与推理、理解和生成任务相关的 7 个典型基准进行综合评估,涵盖高资源和低资源语言。实验结果表明,XLT 不仅显着提升了各种多语言任务的性能,而且显着缩小了不同语言中每个任务的平均性能和最佳性能之间的差距。值得注意的是,XLT 在算术推理和开放域问答任务中带来了 10 多个点的平均改进。

2.Active Retrieval Augmented Generation

标题:主动检索增强生成

作者:Zhengbao Jiang, Frank F. Xu, Luyu Gao, Zhiqing Sun, Qian Liu, Jane Dwivedi-Yu, Yiming Yang, Jamie Callan, Graham Neubig

文章链接:https://arxiv.org/abs/2305.06983

项目代码:https://github.com/jzbjyb/FLARE

摘要:

        尽管大型语言模型 (LM) 具有非凡的理解和生成语言的能力,但它们往往会产生幻觉并产生与事实不符的输出。通过从外部知识资源中检索信息来增强 LM 是一种很有前途的解决方案。大多数现有的检索增强 LM 都采用检索和生成设置,该设置仅根据输入检索一次信息。然而,在涉及生成长文本的更一般情况下,这是有限制的,在这种情况下,在整个生成过程中不断收集信息是必不可少的。过去曾有一些尝试在生成输出时多次检索信息,这主要是使用先前的上下文作为查询以固定间隔检索文档。在这项工作中,我们提供了主动检索增强生成的通用视图,这些方法主动决定在整个生成过程中何时检索和检索什么内容。我们提出了前瞻性主动检索增强生成(FLARE),这是一种通用的检索增强生成方法,它迭代地使用对即将到来的句子的预测来预测未来的内容,然后将其用作查询来检索相关文档以重新生成句子如果它包含低置信度标记。我们在 4 个长期知识密集型生成任务/数据集上全面测试 FLARE 和基线。FLARE 在所有任务上都取得了优异或有竞争力的表现,证明了我们方法的有效性。

3.FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance

标题:FrugalGPT:如何在降低成本和提高性能的同时使用大型语言模型

作者:Lingjiao Chen, Matei Zaharia, James Zou

文章链接:https://arxiv.org/abs/2305.05176

摘要:

        用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。受此启发,我们概述并讨论了三种类型的策略,用户可以利用这些策略来降低与使用 LLM 相关的推理成本:1) 提示适应,2) LLM 近似,以及 3) LLM 级联。例如,我们提出了 FrugalGPT,这是一种简单而灵活的 LLM 级联实例,它学习将哪些 LLM 组合用于不同的查询,以降低成本并提高准确性。我们的实验表明,FrugalGPT 可以与最好的单个 LLM(例如 GPT-4)的性能相媲美,成本降低高达 98%,或者在成本相同的情况下比 GPT-4 的准确度提高 4%。这里提出的想法和发现为可持续和高效地使用 LLM 奠定了基础。

 

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/531369.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

直流电机 PID 控制系统仿真研究(Simulink实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

openGauss数据库3.0.0升级5.0.0操作实践

文章目录 1.1 前言1.2 升级须知升级流程升级方式升级约束 1.3 升级前准备1.4 升级操作1.5 升级验证1.6 提交升级 1.1 前言 openGauss是一款开源关系型数据库管理系统,采用木兰宽松许可证v2发行。之前基于3.0.0版本进行了一些实践,本篇就详细介绍如何将o…

Win7/Win10/Win11系统怎么显示文件后缀

在不同版本的Windows系统中,如Win7/Win10/Win11,显示文件的后缀名可能会有所不同。为了方便用户在进行文件管理时更加方便和高效,本文整理了Win7/Win10/Win11系统中显示文件后缀的具体方法,希望能帮助大家更加轻松地管理自己的文件…

展会进行时!5月16-18日箱讯与您相约中国航交会

宁波国际会展中心7、8号馆 第五届中国(宁波)国际航运物流交易会 暨2023全球物流企业合作博览会 火爆进行中 箱讯与您相约 8号馆 C033K-C036展位 期待您的光临! 2023年5月16-18日,第五届中国(宁波)国际…

Grafana系列-统一展示-11-Logs Traces无缝跳转

系列文章 Grafana 系列文章 概述 如前文 Grafana 系列 - 统一展示 -1- 开篇所述, Grafana 可以了解所有相关的数据--以及它们之间的关系--对于尽快根治事件和确定意外系统行为的真正来源非常重要。Grafana 允许团队在一个地方对所有的数据进行无缝的可视化和跳转。 最典型的…

MySQL8.0 优化器介绍(四)

GreatSQL社区原创内容未经授权不得随意使用,转载请联系小编并注明来源。GreatSQL是MySQL的国产分支版本,使用上与MySQL一致。作者: 奥特曼爱小怪兽文章来源:GreatSQL社区原创 往期回顾 MySQL8.0 优化器介绍(一&#x…

Midjourney|文心一格prompt教程[基础篇]:注册使用教程、风格设置、参数介绍、隐私模式等

Midjourney|文心一格prompt教程[基础篇]:注册使用教程、风格设置、参数介绍、隐私模式等 开头讲一下为什么选择Midjourney和文心一格,首先Midjourney功能效果好不多阐述;其次文心一格再多次迭代优化后效果也不错,重点也免费&…

【Kubernetes】| K8s基础组件分析

目录 一. 🦁 前言二. 🦁 K8s vs Docker三. 🦁 K8s基础组件3.1 Master组件3.1.1 api server3.1.2 controller manager3.1.3 scheduler3.1.4 etcd 3.2 Node组件3.2.1 kublet3.2.2 kube-proxy 四. 🦁 最后 一. 🦁 前言 Ku…

antd-vue-admin——通过链接跳过登录页直接进入系统内部——基础积累

最近在写后台管理系统,遇到一个需求,就是从系统A带参数可以直接进入到系统B内部。不通过系统B的登录页面进行登录。 一般系统的登录,都需要用户名和密码等参数,然后获取到token信息,最后进入到系统内部。 下面介绍具…

5-16SQL每日一题

如下两张表,G0516A和G0516B 要求G0516B按顺序与G0516A的第一个WEEK1依次有序的组合,直到依次组合完毕,预计结果如下: 测试数据: CREATE TABLE G0516A ( WEEKS VARCHAR(10) ) INSERT INTO G0516A VALUES (‘WEEK1…

Socket请求和Http请求区别和场景

我们在开发过程中遇到http请求和socket请求。大部分前后交互都是通过http请求的方式,那socket请求怎么使用,什么情况下使用呢? 基本概念 http请求:基于http协议的soap协议,常见的http数据请求方式有get和post&#xf…

OpenCV实现图像的缩放几何变换,图像金字塔,高斯不同

1.前言 实现图像的放大(zoom in)和缩小(zoom out)主要通过两种途径: 几何变换。图像金字塔。 2.几何变换 通过几何变换实现图像放大和缩小功能主要是通过OpenCV的resize函数: 1 2 3 4 5 6 7 8void resi…

二.深度学习yolov5 比特家异构计算 训练与转模型01

(备份笔记 仅记录) 走国产化路上 要离开老黄的NVIDIA了,现在摸索下比特家的异构计算 yolo还停在v3的阶段 因为之前v3就已经够产品化去用了。这次也走下yolov5吧! 1.yolov5环境搭建 2.yolov5模型训练 3.yolov5模型测试 4.模型做truck 5.模型转换为…

【六袆 - Design Pattern】Strategy Pattern;策略模式;

JDK8源码使用的策略模式列举 java.util.comparator接口用于对对象进行排序。Comparator接口的compare()方法将两个对象作为参数,并返回一个整数值,表示这两个对象的相对顺序。比较器接口有许多不同的实现,每个实现都有不同的排序算法。例如&a…

OpenPCDet系列 | 5.4 PointPillars算法——AnchorHeadSingle模型预测头模块

文章目录 AnchorHeadTemplate模块1. AnchorGenerator2. ResidualCoder3. AxisAlignedTargetAssigner AnchorHeadSingle模块1. AnchorHeadSingle初始化2. AnchorHeadSingle训练前向传播3. AnchorHeadSingle测试前向传播 OpenPCDet的整个结构图: PointPillars算法属…

人人可用的开源数据可视化分析工具

大家好,我是互联网架构师! 在互联网数据大爆炸的这几年,各类数据处理、数据可视化的需求使得 GitHub 上诞生了一大批高质量的 BI 工具。 借助这些 BI 工具,我们能够大幅提升数据分析效率、生成更高质量的项目报告,让用…

UE4/5中DataTable数据表的使用

我们在UE中经常要对配置数据进行编辑,用好UE自己的DataTable自然对日常使用有所帮助。 1.蓝图使用流程 1.1 DataTable创建 使用数据表首先得创建自定义结构体,这样才好定义每一行的格式,例如这里创建如下: 然后右键选择创建Da…

LiveGBS流媒体平台GB/T28181功能-NVR硬件下级平台级联上来的通道如何过滤过滤通道类型

LiveGBS流媒体平台GB/T28181功能-NVR硬件下级平台级联上来的通道如何过滤过滤通道类型 1、上来的通道多了怎么办?2、过滤通道类型2.1、设备单独过滤2.2、全局过滤通道类型 3、过滤指定通道国标编号4、搭建GB28181视频直播平台 1、上来的通道多了怎么办? 下级平台或是NVR设备…

个人黄金投资好做吗?黄金投资交易优势体现在哪些方面

黄金的高保值性深受市场喜爱,它兼具商品和货币的双重属性。不仅实物黄金备受青睐,就连黄金投资交易也受到市场喜爱。黄金投资交易优势主要有哪些要点呢? 黄金投资交易优势一、稀有性 黄金的价值是固有的、内在的,具有千年不朽的稳…

跟庄买股票得新技巧(2023.05.16)(第二弹)

北向资金(也叫聪明的钱),它如何潜伏的(上周) 设么,你投诉大叔不写代码?好吧给你北向资金的代码 { 选股条件: 北向资金流入是昨天的两倍以上 } 百分比:REF(GPJYVALUE(6,1,1),1)>…