第三章(1):自然语言处理概述:应用、历史和未来

news2025/1/10 23:53:46

第三章(1):自然语言处理概述:应用、历史和未来

在这里插入图片描述

目录

  • 第三章(1):自然语言处理概述:应用、历史和未来
  • 1. 自然语言处理概述:应用、历史和未来
    • 1.1 主要应用
    • 1.2 历史
    • 1.3 NLP的新纪元
      • 1.3.1 ChatGPT
      • 1.3.2 文心一言
    • 1.4 主要方法概述
    • 1.5 总结


1. 自然语言处理概述:应用、历史和未来

自然语言处理(英语:Natural Language Processing,缩写作 NLP)是人工智慧和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。

自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。

在这里插入图片描述

1.1 主要应用

自然语言处理(Natural Language Processing)在当今世界中已经被广为应用。它涉及的领域非常广泛,包括机器翻译、智能问答、自动摘要、情感分析等。

第一,机器翻译。当前,随着全球化和信息化的加速发展,人们需要用多种语言进行有效沟通。因此,机器翻译成为了一个既重要又具有挑战性的领域。自然语言处理技术可以帮助机器翻译实现自动翻译,这对跨境交流和文化互通有着重大的推动作用。

第二,智能问答。智能问答系统依靠自然语言处理技术,通过向用户提供合理的答案来满足用户需求。例如,智能客服机器人能够根据用户的提问快速找到对应的答案,从而为用户提供更好的服务体验。智能问答的应用范围十分广泛,不仅可以应用于电商、金融、医疗等行业,还可以应用于智能语音助手以及智能家居等领域。

第三,自动摘要。在信息爆炸的时代,人们需要在短时间内快速了解一篇长文本的内容。自动摘要技术是基于自然语言处理实现的,旨在从大量文本中提取重要信息,生成简洁的概括性文本。这项技术可以广泛应用于新闻、科技、金融等行业,使得人们可以在短时间内把握重点信息。

第四,情感分析。情感分析是一种在自然语言处理领域中广泛应用的技术,它主要依靠机器学习的方法来识别出一段文本中所表达的情绪。在社交媒体、电商、舆情监测等领域,情感分析是非常有用的工具,它可以帮助企业或个人更好地理解用户或观众对某种产品或事件的情感态度,以便根据这些信息做出更好的决策。

1.2 历史

自然语言处理大体是从1950年代开始,虽然更早期也有作为。1950年,图灵发表论文“计算机器与智能”,提出现在所谓的“图灵测试”作为判断智能的条件。

1954年的乔治城-IBM实验涉及全部自动翻译超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题。不过实际进展远低于预期,1966年的ALPAC报告发现十年研究未达预期目标,机器翻译的研究经费遭到大幅削减。一直到1980年代末期,统计机器翻译系统发展出来,机器翻译的研究才得以更上一层楼。

1960年代发展特别成功的NLP系统包括SHRDLU——一个词汇设限、运作于受限如“积木世界”的一种自然语言系统,以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA——几乎未运用人类思想和感情的讯息,有时候却能呈现令人讶异地类似人之间的互动。“病人”提出的问题超出ELIZA 极小的知识范围之时,可能会得到空泛的回答。例如问题是“我的头痛”,回答是“为什么说你头痛?”

1970年代,程式设计师开始设计“概念本体论”(conceptual ontologies)的程式,将现实世界的资讯,架构成电脑能够理解的资料。实例有MARGIE、SAM、PAM、TaleSpin、QUALM、Politics以及Plot Unit。许多聊天机器人在这一时期写成,包括PARRY 、Racter 以及Jabberwacky 。

一直到1980年代,多数自然语言处理系统是以一套复杂、人工订定的规则为基础。不过从1980年代末期开始,语言处理引进了机器学习的演算法,NLP产生革新。成因有两个:运算能力稳定增加(参见摩尔定律);以及乔姆斯基 语言学理论渐渐丧失主导(例如转换-生成文法)。该理论的架构不倾向于语料库——机器学习处理语言所用方法的基础。有些最早期使用的机器学习演算法,例如决策树,是硬性的、“如果-则”规则组成的系统,类似当时既有的人工订定的规则。不过词性标记将隐马尔可夫模型引入NLP,并且研究日益聚焦于软性的、以机率做决定的统计模型,基础是将输入资料里每一个特性赋予代表其份量的数值。许多语音识别现今依赖的快取语言模型即是一种统计模型的例子。这种模型通常足以处理非预期的输入数据,尤其是输入有错误(真实世界的数据总免不了),并且在整合到包含多个子任务的较大系统时,结果比较可靠。

许多早期的成功属于机器翻译领域,尤其归功IBM的研究,渐次发展出更复杂的统计模型。这些系统得以利用加拿大和欧盟现有的语料库,因为其法律规定政府的会议必须翻译成所有的官方语言。不过,其他大部分系统必须特别打造自己的语料库,一直到现在这都是限制其成功的一个主要因素,于是大量的研究致力于从有限的数据更有效地学习。

近来的研究更加聚焦于非监督式学习和半监督学习的演算法。这种演算法,能够从没有人工注解理想答案的资料里学习。大体而言,这种学习比监督学习困难,并且在同量的数据下,通常产生的结果较不准确。不过没有注解的数据量极巨(包含了全球资讯网),弥补了较不准确的缺点。

自然语言处理应用在过去十年呈爆炸式增长,预计自然语言处理未来仍有望以几何级数增长。据相关调查显示,在全球市场中,与自然语言处理相关的产品和服务将在2025年增长到430亿美元,而2017年时,这一数字为30亿美元。

1.3 NLP的新纪元

随着深度学习等技术的快速发展,尤其是GPT-3等超大模型的出现,NLP进入了一个新纪元。超大模型相对于大模型来说更加复杂,参数数量更高,需要更大的计算资源和训练时间,但同时也可以在处理极其复杂的输入数据和高维度的特征时提高模型的准确性和性能。在这个新纪元中,超大模型如GPT-3已经开始在各个领域产生了广泛的应用,比如文本摘要、对话系统、问答机器人、机器翻译等。NLP的新纪元已经带来了革命性的变化,将进一步推动人工智能技术的进步和应用。

1.3.1 ChatGPT

ChatGPT全称聊天生成预训练转换器(英语:Chat Generative Pre-trained Transformer[2]),是OpenAI开发的人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5、GPT-4架构的大型语言模型并以强化学习训练。ChatGPT目前仍以文字方式交互,而除了可以用人类自然对话方式来交互,还可以用于甚为复杂的语言工作,包括自动生成文本、自动问答、自动摘要等多种任务。如:在自动文本生成方面,ChatGPT可以根据输入的文本自动生成类似的文本(剧本、歌曲、企划等),在自动问答方面,ChatGPT可以根据输入的问题自动生成答案。还有编写和调试计算机程序的能力。《纽约时报》称其为“有史以来向公众发布的最佳人工智能聊天机器人”

在这里插入图片描述

1.3.2 文心一言

文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型,基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特色。自2023年2月份百度官宣“文心一言”以来,已有超过650家企业宣布接入文心一言生态。

在这里插入图片描述

其余的大模型还有:LaMDA,MOSS,ChatGLM和通义千问等。

1.4 主要方法概述

NLP采用的主要方法包括:

  1. 分词:将一段文本分割成词语并进行词性标注,是NLP任务的一个起始,其好坏会影响整体模型的准确性和效率。

  2. 词嵌入:将文本中的每个词转换为具有数值意义的向量形式,以便于计算机进行处理和理解,基于这种方式的模型有Word2Vec、GloVe以及BERT等。

  3. 序列标注:通过标记语料库中的实体,并为其分配特定的类别,使得机器学习模型能够将给定文本中的实体对应到正确的类别。

  4. 语义分析:对文本进行深入分析,以提取文本中潜在的意义和信息,包括自然语言推理、情感分析和主题模型等。

  5. 生成模型:生成自然语言的模型,包括序列到序列模型,自回归模型等。

这些方法通常会结合深度学习技术,如循环神经网络(RNN)、长短期记忆网络(LSTM)和Transformer架构,来提高NLP任务的准确性和效率。

1.5 总结

自然语言处理(NLP)是计算机科学和人工智能领域中的一支重要分支,致力于让计算机能够理解、分析和生成自然语言。NLP的主要应用包括机器翻译、语音识别、情感分析、自然语言理解、对话系统等,并在各个领域得到了广泛应用。

在历史上,早期的NLP技术主要是基于规则的方法,需要手动编写规则进行文本分析和信息提取。但这种方法很难适应各种复杂的语言规则和文本变化,因此,随着深度学习技术的发展,基于数据驱动的方法逐渐成为主流,如神经网络和深度学习模型的引入已经极大地提高了自然语言处理的准确性和效率。

由于超大模型的出现,NLP进入了一个新纪元,这为聊天机器人和文本生成等NLP任务带来了革命性的变化。ChatGPT是OpenAI开发的一款基于GPT模型的聊天机器人,可以产生高质量、流畅的自然语言回复。而文心一言是一款中文版的GPT-3模型,可以完成复杂的文本生成任务。

NLP采用的主要方法包括分词、词嵌入、序列标注、语义分析和生成模型等。这些方法通常会结合深度学习技术,如RNN、LSTM和Transformer,以提高NLP任务的准确性和效率。

总之,随着技术的不断进步和发展,NLP已经成为人工智能领域中重要的一部分,它将使计算机更加智能化和人类化,改变我们与计算机交互的方式,并为各个领域的应用打下了坚实的基础。


参考

自然语言处理 - 维基百科,自由的百科全书 (wikipedia.org)
ChatGPT爆火背后,NLP呈爆发式增长!-icspec
ChatGPT - 维基百科,自由的百科全书 (wikipedia.org)
文心一言_百度百科 (baidu.com)
什么是模型?大模型?超大模型? - 知乎 (zhihu.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/431775.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【科普】PCB为什么常用50Ω阻抗?6大原因

在PCB设计中,阻抗通常是指传输线的特性阻抗,这是电磁波在导线中传输时的特性阻抗,与导线的几何形状、介质材料和导线周围环境等因素有关。 对于一般的高速数字信号传输和RF电路,50Ω是一个常用的阻抗值。 为什么是50Ω&#xff1f…

《程序员面试金典(第6版)》面试题 10.09. 排序矩阵查找(观察法,二分法,分治算法入门题目,C++)

题目描述 给定MN矩阵,每一行、每一列都按升序排列,请编写代码找出某元素。 示例: 现有矩阵 matrix 如下:[[1, 4, 7, 11, 15],[2, 5, 8, 12, 19],[3, 6, 9, 16, 22],[10, 13, 14, 17, 24],[18, 21, 23, 26, 30] ]给定 target 5&…

wma格式怎么转换mp3,4种方法超快学

其实我们在任何电子设备上所获取的音频文件都具有自己的格式,每种格式又对应着自己的属性特点。比如wma就是一种音质优于MP3的音频格式,虽然很多小伙伴比较青睐于wma所具有的音质效果,但也不得不去考虑因wma自身兼容性而引起很多播放器不能支…

【高危】Apache Solr 代码执行漏洞(MPS-wic0-9hjb)

漏洞描述 Apache Solr 是一款开源的搜索引擎。 在Apache Solr 受影响版本中,由于Solr默认配置下存在服务端请求伪造漏洞,且SolrResourceLoader中实现了java SPI机制。当Solr以SolrCloud模式启动时,攻击者可以通过构造恶意的solrconfig.xml文…

几个最基本软件的环境变量配置

在Windows中配置环境变量位置: 控制面板->系统和安全->系统。可以点击:“此电脑”->“属性”直接进入。 点击“高级系统设置”->【环境变量】。在这里可以看见用户变量和系统变量,如果你这台机器不是你一个人使用设置为用户变量…

接口文档设计避坑指南

我们做后端开发的,经常需要定义接口文档。 最近在做接口文档评审的时候,发现一个小伙伴定义的出参是个枚举值,但是接口文档没有给出对应具体的枚举值。其实,如何写好接口文档,真的很重要。今天田螺哥,给你带来接口文档…

Vue学习笔记(4. 生命周期)

1. 生命周期写法(vue2与vue3比对) 创建前:vue3 setup, vue2 beforeCreate //组件创建前执行的函数 创建后:vue3 setup, vue2 created //组件创建后执行的函数 挂载前:vue3 onBeforeMount, vue2 beforeMount //挂…

FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization

FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization 论文地址:https://arxiv.org/pdf/2303.14189.pdf 概述 本文提出了一种通用的 CNN 和 Transformer 混合的视觉基础模型 移动设备和 ImageNet 数据集上的精度相同的前提下&#xf…

SpringBoot自动配置原理分析

前言: 虽然工作中一直使用的是自研的一款基于spring的框架,但是随着springboot在各公司的广泛使用,公司的一些新项目也开始逐渐使用springBoot了,那么springBoot的一些特性就要仔细学习一下了。 什么是自动配置? 还记…

【牛客刷题专栏】0x21:JZ20 表示数值的字符串(C语言编程题)

前言 个人推荐在牛客网刷题(点击可以跳转),它登陆后会保存刷题记录进度,重新登录时写过的题目代码不会丢失。个人刷题练习系列专栏:个人CSDN牛客刷题专栏。 题目来自:牛客/题库 / 在线编程 / 剑指offer: 目录 前言问…

Voice Control for ChatGPT 轻松实现使用语音与ChatGPT进行对话。

缘由 日常生活中,我们与亲人朋友沟通交流一般都是喜欢语音的形式来完成的,毕竟相对于文字来说语音就不会显的那么的苍白无力,同时最大的好处就是能解放我们的双手吧,能更快实现两者间的对话,沟通便更高效了。Voice Co…

【瑞吉外卖】002 -- 后台登录功能开发

本文章为对 黑马程序员Java项目实战《瑞吉外卖》的学习记录 目录 一、需求分析 1、页面原型展示 2、登录页面展示 3、查看登录请求信息 4、数据模型 二、代码开发 1、创建实体类Employee,和employee表进行映射 2、创建包结构:(Controller、Se…

基于TCP协议的Socket通信

上节中我们给大家接触了Socket的一些基本概念以及使用方法,相信大家对Socket已经有了初步的掌握。本节我们学习使用Socket来实现大文件的断点续传!在这里我们以他人的案例进行讲解,这是别人写好的一个Socket上传大文件的例子,不要…

TensorFlow Lite,ML Kit 和 Flutter 移动深度学习:6~11

原文:Mobile Deep Learning with TensorFlow Lite, ML Kit and Flutter 协议:CC BY-NC-SA 4.0 译者:飞龙 本文来自【ApacheCN 深度学习 译文集】,采用译后编辑(MTPE)流程来尽可能提升效率。 不要担心自己的…

MySQL(表的增删改查)

文章目录 0. 前言1. Create1.1 单行数据 全列插入1.2 多行数据 指定列插入1.3 插入否则更新1.4 替换 2. Retrieve2.1 SELECT 列2.1.1 全列查询2.1.2 指定列查询2.1.3 查询字段为表达式2.1.4 为查询结果指定别名2.1.5 结果去重 2.2 WHERE 条件2.2.1 英语不及格的同学及英语成绩…

【消息队列】聊一下Kafka多线程消费实例

Kafka Java Consumer设计原理 目前市面上大多数计算机都采用多核CPU来提升系统的处理性能,但是如果在程序开发层面使用单线程的话,那么必定不能完全发挥出系统的真实性能,而kafka Consumer就是单线程的。而这个只是针对于消费消息这个层面来…

【AI热点技术】ChatGPT开源替代品——LLaMA系列之「羊驼家族」

ChatGPT开源替代品——LLaMA系列之「羊驼家族」 1. Alpaca2. Vicuna3. Koala4. ChatLLaMA5. FreedomGPT6. ColossalChat完整的 ChatGPT 克隆解决方案中英双语训练数据集完整的RLHF管线 相关链接 现在如果问什么最火,很多人第一反应肯定就是ChatGPT。的确&#xff0c…

Redis集群模式下使用config set 命令所有节点都会生效吗?

Redis集群模式下使用config set 命令所有节点都会生效吗? 问题: Redis集群模式下使用config set 命令所有节点都会生效吗? 实践检验真理: 前置准备 Redis版本:5.0.5版本 Redis集群模式:三主三从 操作步骤: 分别连接7001节点与7002节点,准备在7001节点使用”config get”…

交友项目【查询好友动态,查询推荐动态】实现

目录 1:圈子 1.1:查询好友动态 1.1.1:接口分析 1.1.2:流程分析 1.1.2:代码实现 1.2:查询推荐动态 1.2.1:接口分析 1.2.2:流程分析 1.2.3:代码实现 1&#xff1a…

Python教程:如何用PIL将图片转换为ASCII艺术

Python教程:如何用PIL将图片转换为ASCII艺术 ASCII 艺术是一种将图像转换为由字符组成的艺术形式。Python 是一种灵活而强大的编程语言,可以使用它来将图片转换为 ASCII 艺术。本文将介绍如何使用 Python 和 PIL 库来实现这一功能。 文末有完整代码 效…