大模型信息提取、文本生成、视觉语音应用

news2025/1/11 2:43:31

448页新书《基础模型自然语言处理》,详述大模型在信息提取文本生成视觉语音应用。

Dr. Gerhard Paaß 等人合著的《Foundation Models for Natural Language Processing》 一书系统介绍基础模型研究和应用的全面概述,而且是目前对此方面研究最新的综述。

图书介绍



这本开放获取的书籍为读者提供了基础模型研究和应用的全面概述,适合对基本自然语言处理(NLP)概念有所了解的读者。

近年来,人们为训练NLP模型开发了一种革命性的新范式。这些模型首先在大量文本文档上进行预训练,以获取通用的句法知识和语义信息。然后,它们会被细化调整以适应特定任务,往往能以超人的准确率解决这些任务。当模型足够大时,它们可以通过提示来解决新任务,而无需任何的细化调整。此外,它们可以应用于各种不同的媒体和问题领域,从图像和视频处理到机器人控制学习都可以涵盖。因为它们提供了解决人工智能中许多任务的蓝图,所以被称为基础模型。

在简单介绍了基本NLP模型后,本书描述了主要的预训练语言模型BERT,GPT和序列到序列变换器,以及自我关注和上下文敏感嵌入的概念。然后,讨论了改进这些模型的不同方法,如扩大预训练标准,增加输入文本的长度,或包含额外知识。随后,介绍了大约二十个应用领域中表现最佳的模型,例如,问题回答,翻译,故事生成,对话系统,从文本生成图像等。对于每个应用领域,都讨论了当前模型的优点和缺点,并给出了进一步发展的前景。此外,还提供了指向免费可用程序代码的链接。最后一章总结了AI的经济机会,风险缓解和潜在发展。

  • Chapter 1: 导论 Introduction

  • Chapter 2: 预训练语言模型 Pre-trained Language Models

  • Chapter 3: 优化预训练语言模型 Improving Pre-trained Language Models

  • Chapter 4: 基于基础模型的知识获取 Knowledge Acquired by Foundation Models 

  • Chapter 5: 基础模型信息提取Foundation Models for Information Extraction 

  • Chapter 6: 基础模型文本生成 Foundation Models for Text Generation 

  • Chapter 7: 语音、图像、视频和控制的基础模型 Foundation Models for Speech, Images, Videos, and Control

  • Chapter 8: 摘要 Summary and Outlook

主要内容



随着大约十年前高效深度学习模型的发展,许多深度神经网络已被用于解决诸如自然语言处理(NLP)和图像处理等模式识别任务。通常,这些模型需要捕获文本或图像的含义,并做出适当的决策。或者,他们可以根据手头的任务生成新的文本或图像。这些模型的优点在于,它们创建了分布在各层的中间特征,不需要人工构建特征。深度神经网络,如卷积神经网络(CNNs)[32]和循环神经网络(RNNs)[65],使用低维密集向量作为一种分布式表示来表达语言的句法和语义特征。

所有这些模型都可以被视为人工智能(AI)系统。AI是一个旨在创建具有自然智能的、行为类似于人和动物的智能机器的广泛研究领域。它涵盖了构建模拟并超越人类全面认知能力的机器这一领域的长期目标。机器学习(ML)是人工智能的一个子领域,它采用统计技术让机器能够从数据中“学习”,而无需给出明确的指示。这个过程也被称为“训练”,其中“学习算法”逐渐提高模型在给定任务上的性能。深度学习是ML的一个领域,其中输入被逐步转换为层,以便可以识别数据中的复杂模式。“深度”这个形容词指的是现代ML模型中的大量层,这些层有助于学习数据的表现形式以实现更好的性能。与计算机视觉相比,用于NLP应用的带注释训练数据的规模相对较小,只包含几千个句子(除了机器翻译)。这主要是由于手动注释的高昂成本。为避免过度拟合,即过度适应模型以适应随机波动,只能训练相对较小的模型,这并没有产生高性能。在过去的5年里,基于Vaswani等人[67]引入的Transformer的新的NLP方法已经被开发出来。他们通过一个叫做嵌入的实数向量来表示每个词的含义。在这些嵌入之间可以计算出各种类型的“关注度”,可以被视为不同词之间的某种“关联度”。在网络的高层,关注度计算被用来生成新的嵌入,这可以捕捉到词义的细微差别。特别的是,他们可以理解由于上下文产生的同一词的不同含义。这些模型的一个关键优势是,它们可以用未标注的文本进行训练,这几乎是无限可用的,而且过度拟合不是问题。目前,这个研究领域正在快速发展新方法,使许多早期的方法变得过时。

这些模型通常经过两步训练:在第一步预训练中,它们在一个包含数十亿词的大型文本语料库上进行训练,而不需要任何注释。一个典型的预训练任务是预测在输入中被掩蔽的文本中的单个词。通过这种方式,模型学习自然语言语法和语义的微妙差别。因为数据足够,模型可以扩展到多个层,具有数百万或数十亿的参数。在第二步细调中,模型在一个小的带注释的训练集上进行训练。通过这种方式,模型可以适应新的特定任务。由于相对于预训练数据,细调数据非常小,且模型具有很高的容量,含有数百万的参数,因此它可以适应细调任务,而不会丢失存储在模型中关于语言结构的信息。有实验证明,这种思想可以应用于大多数NLP任务,从而在语义理解方面取得了前所未有的性能提升。这种迁移学习允许从预训练阶段的知识转移到经过细调的模型。这些模型被称为预训练语言模型(PLM)。

在过去的几年里,这些PLM的参数数量随着更多训练数据的增加而系统性地增大。事实证明,与传统观念相反,这些模型的性能越来越好,而没有受到过拟合的影响。具有数十亿参数的模型能够在给出一些起始文本的提示后,生成语法正确、语义连贯的流畅文本。他们能够回答问题,并对不同类型的提示作出有意义的反应。此外,同一PLM架构可以同时预训练不同类型的序列,例如文本中的标记、图片中的图像块、语音片段、视频帧中的图像块序列、DNA片段等。他们能够同时处理这些媒体类型,并在不同模态之间建立联系。他们可以通过自然语言提示来适应各种任务的执行,即使他们没有明确地在这些任务上进行训练。由于这种灵活性,这些模型是开发全面应用的有希望的候选者。因此,具有数十亿参数的大型PLM通常被称为基础模型[9]。本书旨在为当前的预训练语言模型和基础模型提供最新的概述,重点关注NLP的应用

• 我们描述了必要的背景知识,模型架构,预训练和细调任务,以及评价指标。 

• 我们讨论了每个NLP应用组最相关的模型,这些模型当前具有最佳的精度或性能,即接近最先进的状态(SOTA)。我们的目标并不是描述近年来开发的所有模型的范围,而是解释一些代表性的模型,以便理解它们的内部工作机制。

• 最近,PLM已经被应用于许多语音、图像和视频处理任务,由此产生了基础模型的术语。我们对最相关的模型进行了概述,这些模型通常允许不同媒体的联合处理,例如文本和图像 

• 我们提供了可用模型代码和预训练模型参数的链接。

• 我们讨论了模型的优点和局限性,并对可能的未来发展提出了展望。

作者介绍



主编

Gerhard Paaß博士是Fraunhofer智能分析和信息系统研究所(IAIS)的首席科学家。他拥有数学背景,并且是人工智能领域,尤其是自然语言处理领域的公认专家。Paaß博士曾在加利福尼亚的加州大学伯克利分校和布里斯班的科技大学工作过。他曾在包括NeurIPS,CIKM,ECML/PKDD,ICDM和KDD等多个国际会议上担任评审和会议主席,而且他常常是程序委员会的成员。Paaß博士获得了关于概率逻辑的“最佳论文”奖,并且是约70篇为国际会议和期刊撰写的论文的作者。最近,他撰写了书籍“人工智能:未来技术背后的原理是什么?”(德文版)。他目前正在参与创建一个基础模型的计算机中心。除了对基础模型的实验研究外,他还在波恩大学和工业界为深度学习和自然语言理解进行讲座。

Sven Giesselbach是Fraunhofer智能分析和信息系统研究所(IAIS)自然语言理解(NLU)团队的负责人,他在人工智能和自然语言处理方面有专业的研究。他和他的团队在医疗,法律和一般文档理解等领域开发解决方案,这些解决方案在其核心上建立在基础模型之上。Sven Giesselbach也是莱茵-鲁尔机器学习竞争力中心(ML2R)的一部分,他在那里担任研究科学家,并研究知识通知型机器学习,这是一种将知识注入机器学习模型的范式,与语言建模相结合。他发表了10多篇关于自然语言处理和理解的论文,这些论文关注创建应用程序可用的NLU系统和在解决方案设计的各个阶段整合专家知识。他领导了自然语言理解展示室的开发,这是一个展示最新自然语言理解模型的平台。他经常在暑期学校,会议和AI聚会上讲解NLU。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/621812.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Java】Java核心要点总结:59

文章目录 1. 线程的run()和start()有什么区别,为什么不直接调用run()2. synchronized是什么,以及原理3. Java中如何实现多线程的通讯和协作4. Volatile有什么特点,为什么能够保证变量的可见性5. 为什么说synchronized是一个悲观锁&#xff0c…

chatgpt赋能python:Python开发环境的下载方法

Python开发环境的下载方法 Python是一种高级的编程语言,受到广泛的社区和商业支持。它用于数据分析、人工智能和Web开发等领域,成为业界最流行的编程语言之一。搭建Python开发环境需要安装解释器、编辑器、包管理器和库,下面介绍Python开发环…

chatgpt赋能python:用Python开发在线电影播放网站如何进行SEO

用Python开发在线电影播放网站如何进行SEO 随着人们对于电影、电视剧等视频娱乐的需求日益增长,越来越多的在线电影播放网站涌现出来。作为开发者,如何通过搜索引擎优化(SEO)来使你的在线电影播放网站具有更好的可见度&#xff0…

chatgpt赋能python:如何更新Python库?

如何更新Python库? Python语言已经成为现代编程语言中最受欢迎的一种,它的成功归功于它的灵活性、简洁性和可读性。Python库是它成功的关键,这些库是程序员的基本工具箱,可以更快地编写、测试和部署程序。 然而,Pyth…

多分类问题

目录 多分类问题介绍1 多分类1.1 数据集1.2 数据可视化1.3 逻辑回归的向量化1.3.1 代价函数的向量化1.3.2 梯度的向量化1.3.3 正则化逻辑回归的向量化 1.4 多分类-分类器 1.5 使用分类器进行预测 多分类问题 介绍 在本练习中,我们将使用逻辑回归来识别手写数字&…

python安装使用Flask框架(Vscode)

编译器:VsCode,python3.** 首先安装,在终端输入 pip install flask安装成功后新建文件,app.python,创建一个简单的Web应用。 from flask import Flaskapp Flask(__name__)app.route(/) def hello():return Hello, …

chatgpt赋能python:Python平均值命令在数据处理中的应用

Python平均值命令在数据处理中的应用 Python是一门广泛应用于数据分析和数据处理的编程语言。在数据处理中,我们常常需要计算数据的平均值。Python中提供了多种方法来计算平均值,比如使用内置函数mean()或使用numpy库中的mean()函数等。本文将着重介绍P…

Vue封装API,详细解释。

1、为什么我们要封装API ps: 如果已经有了明确要封装API的需求,直接看第二步。 在没有封装API之前,我们是类似这样使用 axios 的 this.$axios.post(blogArticle/frontList,parms).then((resp) > { this.blogList resp.data, this.blogTota…

【玩转Linux操作】Linux常用文件管理命令

🎊专栏【玩转Linux操作】 🍔喜欢的诗句:更喜岷山千里雪 三军过后尽开颜。 🎆音乐分享【Counting Stars 】 欢迎并且感谢大家指出小吉的问题🥰 目录 ​编辑 🎁ctrlc 🎁ctrlu 🎁t…

chatgpt赋能python:Python平均分函数:简介和使用方法

Python平均分函数:简介和使用方法 如果您正在寻找如何计算Python中多个数字值的平均分数的方法,请继续阅读。本文将为您介绍Python中平均分函数的用途和使用方法。 什么是平均分函数? Python的平均分函数是一个计算多个数字值的平均值的函…

分享可以在线录音实时转写的方法

小伙伴们使用过录音记录吗?那知道录音实时转写吗?有没有听说过这个功能呢?它是可以通过语音识别技术,将录音中的信息快速转换为文本,并实现实时显示输出的功能。听起来是不是很有趣?而且它无需任何专业设备…

线程,你是个什么?

线程的基本定义 线程(Thread)是操作系统能够进行运算调度的最小单位,它被包含在进程(Process)中,是进程中的实际运作单位。一个线程可以与同一进程中的其他线程共享进程的全部资源,包括内存、文…

深入浅出讲解闭包及其原理

闭包 什么是闭包? 闭包的概念并不复杂,但是它的定义比较绕(就像平时经常用到它,却又说不出来是什么)。可以在一个作用域中调用函数的内部函数并访问到该函数中的作用域的成员,这就是闭包。给一个建议&…

springboot整合swagger3

目录 一、导入swagger3的依赖二、SwaggerConfig代码的解读三、整体代码四、访问swagger3 一、导入swagger3的依赖 <dependency><groupId>io.springfox</groupId><artifactId>springfox-boot-starter</artifactId><version>3.0.0</versi…

【算法与数据结构】209.长度最小的子数组

文章目录 题目一、暴力穷解法二、滑动窗口法完整代码 所有的LeetCode题解索引&#xff0c;可以看这篇文章——【算法和数据结构】LeetCode题解。 题目 一、暴力穷解法 思路分析&#xff1a;这道题涉及到数组求和&#xff0c;那么我们很容易想到利用两个for循环来写&#xff0c;…

【科技素养题】少儿编程 蓝桥杯青少组科技素养题真题及解析第20套

少儿编程 蓝桥杯青少组科技素养题真题及解析第20套 1、“唐纳德特朗普 (Donald Trump) 曾经是美国总统”是一个 (),“特朗普关于新冠肺炎疫情的不实言论”是一个 ()。 A、事实;事实 B、观点;事实 C、观点;观点 D、事实;观点 答案:D 考点分析:主要考查小朋友们对时事的…

ChatGPT的未来发展

文章目录 1.什么是ChatGPT2.ChatGPT的基础技术3.ChatGPT工作原理4.ChatGPT应用场景5.ChatGPT局限性6.ChatGPT的未来发展 ✍创作者&#xff1a;全栈弄潮儿 &#x1f3e1; 个人主页&#xff1a; 全栈弄潮儿的个人主页 &#x1f3d9;️ 个人社区&#xff0c;欢迎你的加入&#xff…

【严重】vm2 <3.9.18 沙箱逃逸漏洞(存在POC)

漏洞描述 vm2 是一个基于 Node.js 的沙箱环境&#xff0c;可以使用列入白名单的 Node 内置模块运行不受信任的代码&#xff0c;代理对象用于拦截并重定义宿主对象的各种操作。 vm2 3.9.18之前版本中&#xff0c;由于 prepareStackTrace 函数直接由 V8 引擎调用&#xff0c;其…

Linux命令(30)之ps

Linux命令之ps 1.ps介绍 linux命令ps是用来查看系统进程的命令。类似与Windows任务管理器中查看到的进程的功能。 2.ps用法 ps [参数] ps常用参数 参数说明-A显示所有的进程数据-a显示跟当前终端关联的所有进程-u基于用户的格式显示-x显示所有进程&#xff0c;不以终端机来…

chatgpt赋能python:用Python建立600*600画布,打造更好的数据可视化!

用Python建立600*600画布&#xff0c;打造更好的数据可视化&#xff01; 简介 数据可视化是数据分析的重要工具之一&#xff0c;通过可视化工具可以更加直观地展现数据&#xff0c;帮助人们更好地理解数据。而Python语言中的matplotlib库正是其中一款功能强大的数据可视化工具…