【大模型LLMs】LLMs-based Summarization研究进展梳理

news2024/9/19 8:55:59

【大模型LLMs】LLMs-based Summarization方法梳理

  • Survey
  • 1 Knowledge Distillation from LLMs
    • Referee
    • InheritSumm
  • 2 Prompt Engineering
    • 2.1 Template Engineering
      • OdSum
    • 2.2 CoT
      • SumCoT
      • CoD
      • SuRe
      • SliSum
      • Refiner

梳理基于大模型的摘要总结方案,持续汇总中(更关注query-focused summarization)

Survey

论文: A Comprehensive Survey on Process-Oriented Automatic Text Summarization with Exploration of LLM-Based Methods
来源: arxiv 2024(投稿TKDE)
作者单位: 西南财经大学
核心结论: 大模型的ATS(Automatic Text Summarization)主要分3类(知识蒸馏、大模型微调、提示工程)

在这里插入图片描述

1 Knowledge Distillation from LLMs

Referee

论文: REFEREE: Reference-Free Sentence Summarization with Sharper Controllability through Symbolic Knowledge Distillation
来源: EMNLP 2022
作者单位: University of Washington、Carnegie Mellon University、Allen Institute for Artificial Intelligence
核心结论: 提出一种在无参考(reference-free)的情况下进行训练的句子摘要框架,同时允许直接控制压缩比

在这里插入图片描述

具体流程:

  • 知识蒸馏: 遵循teacher-student架构,但student模型在连续迭代中轮流成为teacher
    [图片]
  • 过滤器:
    • 保真度过滤器(摘要应该包含在输入句子中)
    • 长度过滤器(通过限制压缩比)
    • 上下文过滤器(基于NSP任务)

InheritSumm

论文: InheritSumm: A General, Versatile and Compact Summarizer by Distilling from GPT
来源: EMNLP 2023
作者单位: 微软
核心结论: 基于GPT3.5生成摘要,和高质量的人工标注文档一起作为训练语料,用于训练small LM

在这里插入图片描述

2 Prompt Engineering

2.1 Template Engineering

OdSum

论文: ODSum: New Benchmarks for Open Domain Multi-Document Summarization
来源: arxiv 2023
作者单位: 浙江大学、耶鲁大学、Allen Institute for AI
核心结论: 提供一个open-domail multi-document summarization数据集,采用retrieve-then-summarize的pipeline,对多篇文档进行summarization

在这里插入图片描述

2.2 CoT

SumCoT

论文: Element-aware Summarization with Large Language Models: Expert-aligned Evaluation and Chain-of-Thought Method
来源: ACL 2023
作者单位: 上海交通大学
核心结论: 将“Lasswell Communication Model”引入摘要模型,首先让大模型回答一系列问题(最重要的实体entity、最重要的时间date、什么事件event、事件结果result),进而完成summarization(element-aware),总结时需要注意流畅性(拼写、语法等问题)、连贯性(前后连贯,上下文)、一致性(无幻觉)、相关性(找到文本的核心关注点)

在这里插入图片描述

CoD

论文: From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting
来源: ACL WorkShop 2023
作者单位: 哥伦比亚大学、麻省理工大学
核心结论: Chain of Density,基于提示的迭代方法。prompt中提示“总结越来越简洁、实体密集”,通过多次生成摘要,每次都“反思”上一次摘要中遗漏的实体,然后编写新的、越来越密集的摘要,涵盖识别到的每个实体

在这里插入图片描述

SuRe

论文: SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs
来源: ICLR 2024
作者单位: Carnegie Mellon University、KAIST AI、University of Michigan、Naver AI Lab、Naver Cloud
核心结论: 针对候选答案,由LLMs为参考答案汇总支撑条件,再进行验证(critique的效果)

在这里插入图片描述

SliSum

论文:Improving Faithfulness of Large Language Models in Summarization via Sliding Generation and Self-Consistency
来源: IREC-COLING 2024
作者单位: 浙江大学
核心结论: LLMs提取摘要可能更倾向于提取开头结尾的内容,尤其在长摘要里;针对该问题,SliSum通过滑动窗口和self-consistency的思想,对每个窗口的内容生成局部摘要,然后使用聚类和投票法聚合所有的局部摘要

在这里插入图片描述

Refiner

论文:Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities
来源: arxiv
作者单位: 香港科技、清华、香港理工
核心结论: 对检索的内容进行重写,提取查询相关内容以及必要的上下文,并进行分段处理

在这里插入图片描述

  • 知识蒸馏: 多个大模型提取输入内容中与query相关内容的完整上下文,构建训练集

在这里插入图片描述

  • 微调: 对Llama-2-7B进行SFT得到refiner(随着prompt长度的增加,参数量更大的模型微调的计算成本更高,所以选择参数量小的模型)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2044791.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据埋点系列 9|数据伦理与隐私-在合规与创新间寻找平衡

在数据驱动决策的时代,数据伦理和隐私保护已成为至关重要的议题。组织必须在利用数据创新和保护用户隐私之间找到平衡。本文将探讨数据伦理的核心原则、隐私保护的技术实现,以及如何在合规和创新之间取得平衡。 目录 1. 数据伦理的核心原则1.1 透明度1…

【机器学习】卷积神经网络简介

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 卷积神经网络简介1. 引言2. CNN的基本概念2.1 什么是卷积神经网络2.2 CNN与传统…

uniprot数据库转换ID功能

1.登入uniprot数据库 uniprot 2. 选择ID mapping,输入P31946和P62258等uniprot数据库中的蛋白质ID 然后在To database选项中选择:sequence databases---RefSeq Protein---map 显示已完成,点击ID MAPPING 下方的网址,则可以看到uni…

「12月·长沙」第三届传感、测量、通信和物联网技术国际会议(SMC-IoT 2024)

第三届传感、测量、通信和物联网技术国际会议(SMC-IoT 2024)将于2024年11月29日-2024年12月1日召开,由湖南涉外经济学院主办。会议中发表的文章将会被收录, 并于见刊后提交EI核心索引。 会议旨在围绕传感、测量、通信和物联网技术等相关研究…

mysql数据库 行级锁,间隙锁和临键锁详解

目录 准备 查看锁命令 演示 普通的select语句 共享锁与排他锁 无索引行锁升级为表锁 间隙锁&临键锁 索引上的等值查询(索引为唯一索引) 索引上的等值查询(索引为普通索引) 索引上的范围查询(唯一索引) 准备 我的mysql版本是8。 CREATE TABLE user (id int unsi…

.NET 8 跨平台高性能边缘采集网关

目录 前言 项目介绍 通道 插件 设备 变量 项目特点 可视化操作 脚本支持 自定义插件支持 性能 断线缓存 完整可商用的边缘网关 项目插件 采集插件 业务插件 项目展示 1、ThingsGateway 演示地址 2、登录页面 3、系统首页 4、网关管理 5、网关状态 6、网关…

【区块链+金融服务】基于区块链的一站式绿色金融开放平台 | FISCO BCOS应用案例

科技的进步为绿色金融发展提供了新的机遇,但银行、企业、第三方金融机构等在进行绿色金融业务操作过程中, 存在着相关系统和服务平台建设成本高、迭代难度大、数据交互弱、适配难等痛点。 基于此,中碳绿信采用国产开源联盟链底层平台 FISCO …

Element-01.快速入门

1.什么是Element 2.快速入门 第二步引入ElementUI组件库,在当前的工程目录下的main.js文件中引入。 import Vue from vue; import ElementUI from element-ui; import element-ui/lib/theme-chalk/index.css; import App from ./App.vue;Vue.use(ElementUI); 第一…

Heckman 模型及 Stata 具体操作步骤

目录 一、文献综述 二、理论原理 三、实证模型 四、稳健性检验 五、程序代码及解释 六、代码运行结果 一、文献综述 Heckman 模型自提出以来,在众多领域得到了广泛且深入的应用。例如,在劳动经济学领域,Heckman(1979&#xf…

CSS小玩意儿:霓虹灯卡片

一&#xff0c;效果 二&#xff0c;代码 1&#xff0c;搭个框架 主题是一个圆角矩形&#xff0c;其中有垂直、水平居中的文字。 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>霓虹灯卡片 - 步骤1…

区块链技术在Facebook中的潜力:未来趋势与挑战

数据安全的新高度 区块链技术以其去中心化和不可篡改的特性&#xff0c;正在成为提升数据安全和隐私保护的重要工具。Facebook作为全球最大的社交媒体平台之一&#xff0c;正积极探索如何将区块链技术应用于其平台&#xff0c;以增强用户数据的安全性和隐私保护。Facebook在应…

数字化营销在公域场景中的无限可能

在如今的商业领域&#xff0c;公域场景为企业提供了广阔的发展空间&#xff0c;而数字化营销则成为了企业在这些场景中脱颖而出的关键利器。 ​ 一、电商平台营销 当企业在淘宝、京东等大型电商平台开设店铺&#xff0c;数字化营销便开始大显身手。 企业不仅能踊跃参与像双十…

新华三H3CNE网络工程师认证—OSPF基础

OSPF是N1&#xff08;初级&#xff09;阶段比较重要的知识点&#xff0c;路由协议当中非常重要的一个知识点。 文章目录 一、常用的三大路由协议二、静态路由的问题1、无法适应规模较大的网络2、 无法动态响应网络变化 三、动态路由协议分类1、按工作区域分类2、按工作机制及算…

manim官方文档 _ 快速入门板块 _ 汉化 | 辅助快速理解manim功能

注 &#xff1a; 在此之前&#xff0c;请按照安装中的步骤安装 Manim 并确保其正常运行。有关在 Jupyterlab 或 Jupyter notebook 中使用 Manim 的信息&#xff0c;请参阅 IPython magic command的文档。 文章目录 概述实例一 &#xff1a;绘制一个圆形1、启动新项目 let s go2…

美股动荡,散户逆势抄底!科技股成香饽饽

最近&#xff0c;美股市场可不太平&#xff0c;各大指数纷纷下跌。面对这样的行情&#xff0c;不少投资者都有些慌了。但你知道吗&#xff1f;有一群人却在此时看到了机会&#xff0c;他们就是散户投资者&#xff01; 逆势操作&#xff0c;散户“抄底” 8月份&#xff0c;美股…

SpringBoot整合定时任务@Scheduled

SpringBoot自带的定时任务非常简单操作&#xff0c;其实就是一个Scheduled注解。 第一步&#xff1a;创建类&#xff0c;定义执行定时任务的方法 package com.oracle.springboottimer.timer;import org.springframework.scheduling.annotation.Scheduled; import org.springfr…

STM32—WDG看门狗

1.WDG简介 看门狗可以监控程序的运行状态&#xff0c;当程序因为设计漏洞、硬件故障、电磁干扰等原因&#xff0c;出现卡死或跑飞现象时&#xff0c;看门狗能及时复位程序&#xff0c;避免程序陷入长时间的罢工状态&#xff0c;保证系统的可靠性和安全性 看门狗本质是一个定时…

使用 Python和 SQLite 打造一个简单的数据库浏览器

在日常开发中&#xff0c;我们常常需要快速查看和操作SQLite数据库中的数据。虽然有许多现成的工具可以完成这一任务&#xff0c;但有时你可能想要一个更为简单、可定制的解决方案。在这篇博客中&#xff0c;我将带你一步步构建一个简单的SQLite数据库浏览器&#xff0c;它可以…

怎么将文档翻译英文?多语言翻译的4个方法

当你准备将文档翻译成英文并发送给海外客户时&#xff0c;你可能会同时感到兴奋和焦虑。 兴奋的原因是&#xff0c;你的业务即将扩展到全球市场&#xff1b;焦虑的原因是&#xff0c;如果翻译出现错误&#xff0c;可能会造成尴尬的局面。 不过&#xff0c;不必过于担心。今天…

高速信号的眼图、加重、均衡

目录 高速信号的眼图、加重、均衡眼图加重均衡线性均衡器CTLE判决反馈均衡器DFE 高速信号的眼图、加重、均衡 眼图 通常用示波器观察接收信号波形的眼图来分析码间串扰和噪声对系统性能的影响&#xff0c;从而估计系统优劣程度&#xff0c;因而眼图分析是高速互连系统信号完整…