448页新书《基础模型自然语言处理》，详述大模型在信息提取文本生成视觉语音应用。

Dr. Gerhard Paaß 等人合著的《Foundation Models for Natural Language Processing》一书系统介绍基础模型研究和应用的全面概述，而且是目前对此方面研究最新的综述。

▌图书介绍

这本开放获取的书籍为读者提供了基础模型研究和应用的全面概述，适合对基本自然语言处理（NLP）概念有所了解的读者。

近年来，人们为训练NLP模型开发了一种革命性的新范式。这些模型首先在大量文本文档上进行预训练，以获取通用的句法知识和语义信息。然后，它们会被细化调整以适应特定任务，往往能以超人的准确率解决这些任务。当模型足够大时，它们可以通过提示来解决新任务，而无需任何的细化调整。此外，它们可以应用于各种不同的媒体和问题领域，从图像和视频处理到机器人控制学习都可以涵盖。因为它们提供了解决人工智能中许多任务的蓝图，所以被称为基础模型。

在简单介绍了基本NLP模型后，本书描述了主要的预训练语言模型BERT，GPT和序列到序列变换器，以及自我关注和上下文敏感嵌入的概念。然后，讨论了改进这些模型的不同方法，如扩大预训练标准，增加输入文本的长度，或包含额外知识。随后，介绍了大约二十个应用领域中表现最佳的模型，例如，问题回答，翻译，故事生成，对话系统，从文本生成图像等。对于每个应用领域，都讨论了当前模型的优点和缺点，并给出了进一步发展的前景。此外，还提供了指向免费可用程序代码的链接。最后一章总结了AI的经济机会，风险缓解和潜在发展。

Chapter 1: 导论 Introduction
Chapter 2: 预训练语言模型 Pre-trained Language Models
Chapter 3: 优化预训练语言模型 Improving Pre-trained Language Models
Chapter 4: 基于基础模型的知识获取 Knowledge Acquired by Foundation Models
Chapter 5: 基础模型信息提取Foundation Models for Information Extraction
Chapter 6: 基础模型文本生成 Foundation Models for Text Generation
Chapter 7: 语音、图像、视频和控制的基础模型 Foundation Models for Speech, Images, Videos, and Control
Chapter 8: 摘要 Summary and Outlook

▌主要内容

随着大约十年前高效深度学习模型的发展，许多深度神经网络已被用于解决诸如自然语言处理（NLP）和图像处理等模式识别任务。通常，这些模型需要捕获文本或图像的含义，并做出适当的决策。或者，他们可以根据手头的任务生成新的文本或图像。这些模型的优点在于，它们创建了分布在各层的中间特征，不需要人工构建特征。深度神经网络，如卷积神经网络（CNNs）[32]和循环神经网络（RNNs）[65]，使用低维密集向量作为一种分布式表示来表达语言的句法和语义特征。

所有这些模型都可以被视为人工智能（AI）系统。AI是一个旨在创建具有自然智能的、行为类似于人和动物的智能机器的广泛研究领域。它涵盖了构建模拟并超越人类全面认知能力的机器这一领域的长期目标。机器学习（ML）是人工智能的一个子领域，它采用统计技术让机器能够从数据中“学习”，而无需给出明确的指示。这个过程也被称为“训练”，其中“学习算法”逐渐提高模型在给定任务上的性能。深度学习是ML的一个领域，其中输入被逐步转换为层，以便可以识别数据中的复杂模式。“深度”这个形容词指的是现代ML模型中的大量层，这些层有助于学习数据的表现形式以实现更好的性能。与计算机视觉相比，用于NLP应用的带注释训练数据的规模相对较小，只包含几千个句子（除了机器翻译）。这主要是由于手动注释的高昂成本。为避免过度拟合，即过度适应模型以适应随机波动，只能训练相对较小的模型，这并没有产生高性能。在过去的5年里，基于Vaswani等人[67]引入的Transformer的新的NLP方法已经被开发出来。他们通过一个叫做嵌入的实数向量来表示每个词的含义。在这些嵌入之间可以计算出各种类型的“关注度”，可以被视为不同词之间的某种“关联度”。在网络的高层，关注度计算被用来生成新的嵌入，这可以捕捉到词义的细微差别。特别的是，他们可以理解由于上下文产生的同一词的不同含义。这些模型的一个关键优势是，它们可以用未标注的文本进行训练，这几乎是无限可用的，而且过度拟合不是问题。目前，这个研究领域正在快速发展新方法，使许多早期的方法变得过时。

这些模型通常经过两步训练：在第一步预训练中，它们在一个包含数十亿词的大型文本语料库上进行训练，而不需要任何注释。一个典型的预训练任务是预测在输入中被掩蔽的文本中的单个词。通过这种方式，模型学习自然语言语法和语义的微妙差别。因为数据足够，模型可以扩展到多个层，具有数百万或数十亿的参数。在第二步细调中，模型在一个小的带注释的训练集上进行训练。通过这种方式，模型可以适应新的特定任务。由于相对于预训练数据，细调数据非常小，且模型具有很高的容量，含有数百万的参数，因此它可以适应细调任务，而不会丢失存储在模型中关于语言结构的信息。有实验证明，这种思想可以应用于大多数NLP任务，从而在语义理解方面取得了前所未有的性能提升。这种迁移学习允许从预训练阶段的知识转移到经过细调的模型。这些模型被称为预训练语言模型（PLM）。

在过去的几年里，这些PLM的参数数量随着更多训练数据的增加而系统性地增大。事实证明，与传统观念相反，这些模型的性能越来越好，而没有受到过拟合的影响。具有数十亿参数的模型能够在给出一些起始文本的提示后，生成语法正确、语义连贯的流畅文本。他们能够回答问题，并对不同类型的提示作出有意义的反应。此外，同一PLM架构可以同时预训练不同类型的序列，例如文本中的标记、图片中的图像块、语音片段、视频帧中的图像块序列、DNA片段等。他们能够同时处理这些媒体类型，并在不同模态之间建立联系。他们可以通过自然语言提示来适应各种任务的执行，即使他们没有明确地在这些任务上进行训练。由于这种灵活性，这些模型是开发全面应用的有希望的候选者。因此，具有数十亿参数的大型PLM通常被称为基础模型[9]。本书旨在为当前的预训练语言模型和基础模型提供最新的概述，重点关注NLP的应用：

• 我们描述了必要的背景知识，模型架构，预训练和细调任务，以及评价指标。

• 我们讨论了每个NLP应用组最相关的模型，这些模型当前具有最佳的精度或性能，即接近最先进的状态(SOTA)。我们的目标并不是描述近年来开发的所有模型的范围，而是解释一些代表性的模型，以便理解它们的内部工作机制。

• 最近，PLM已经被应用于许多语音、图像和视频处理任务，由此产生了基础模型的术语。我们对最相关的模型进行了概述，这些模型通常允许不同媒体的联合处理，例如文本和图像

• 我们提供了可用模型代码和预训练模型参数的链接。

• 我们讨论了模型的优点和局限性，并对可能的未来发展提出了展望。

▌作者介绍

主编

Gerhard Paaß博士是Fraunhofer智能分析和信息系统研究所(IAIS)的首席科学家。他拥有数学背景，并且是人工智能领域，尤其是自然语言处理领域的公认专家。Paaß博士曾在加利福尼亚的加州大学伯克利分校和布里斯班的科技大学工作过。他曾在包括NeurIPS，CIKM，ECML/PKDD，ICDM和KDD等多个国际会议上担任评审和会议主席，而且他常常是程序委员会的成员。Paaß博士获得了关于概率逻辑的“最佳论文”奖，并且是约70篇为国际会议和期刊撰写的论文的作者。最近，他撰写了书籍“人工智能：未来技术背后的原理是什么？”（德文版）。他目前正在参与创建一个基础模型的计算机中心。除了对基础模型的实验研究外，他还在波恩大学和工业界为深度学习和自然语言理解进行讲座。

Sven Giesselbach是Fraunhofer智能分析和信息系统研究所(IAIS)自然语言理解(NLU)团队的负责人，他在人工智能和自然语言处理方面有专业的研究。他和他的团队在医疗，法律和一般文档理解等领域开发解决方案，这些解决方案在其核心上建立在基础模型之上。Sven Giesselbach也是莱茵-鲁尔机器学习竞争力中心(ML2R)的一部分，他在那里担任研究科学家，并研究知识通知型机器学习，这是一种将知识注入机器学习模型的范式，与语言建模相结合。他发表了10多篇关于自然语言处理和理解的论文，这些论文关注创建应用程序可用的NLU系统和在解决方案设计的各个阶段整合专家知识。他领导了自然语言理解展示室的开发，这是一个展示最新自然语言理解模型的平台。他经常在暑期学校，会议和AI聚会上讲解NLU。