深度神经网络——什么是NLP(自然语言处理)?

news2024/11/24 17:01:55

自然语言处理(NLP) 是对使计算机能够处理、分析、解释和推理人类语言的技术和工具的研究和应用。 NLP 是一个跨学科领域,它结合了语言学和计算机科学等领域已建立的技术。 这些技术与人工智能结合使用来创建聊天机器人和数字助理,例如 Google Assistant 和亚马逊的 Alexa。

让我们花一些时间来探讨自然语言处理背后的基本原理、NLP 中使用的一些技术以及 NLP 的一些常见用例。

为什么自然语言处理 (NLP) 很重要

为了让计算机解释人类语言,必须将它们转换成计算机可以操作的形式。 然而,这并不像将文本数据转换为数字那么简单。 为了从人类语言中获取含义,必须从构成文本文档的数百或数千个单词中提取模式。 这不是一件容易的事。 几乎没有什么硬性规则可以应用于人类语言的解释。 例如,根据上下文的不同,完全相同的一组单词可能意味着不同的事物。 人类语言是一种复杂且常常含糊不清的东西,一个陈述可以是真诚的,也可以是讽刺的。

尽管如此,在解释单词和字符时可以使用一些通用准则,例如字符“s”用于表示某个项目是复数。这些一般准则必须相互配合使用,才能从文本中提取含义,创建机器学习算法可以解释的特征。

自然语言处理涉及能够获取非结构化数据并将其转换为结构化数据的各种算法的应用。如果这些算法以错误的方式应用,计算机通常无法从文本中得出正确的含义。这通常可以在不同语言之间的文本翻译中看到,其中句子的精确含义经常会丢失。尽管机器翻译在过去几年里有了很大的进步,但机器翻译错误仍然频繁发生。

自然语言处理 (NLP) 技术

照片: Tamur 来自 WikiMedia Commons,公共领域 (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

许多 技术 自然语言处理中使用的术语可以分为两类之一:语法或语义。 语法技术是处理单词顺序的技术,而语义技术是涉及单词含义的技术。

语法 NLP 技术

语法示例包括:

  • 合法化
  • 形态分割
  • 词性标注
  • 解析
  • 断句
  • 词干
  • 分词

词形还原是指将单词的不同变形提炼为单一形式。 词形还原将时态和复数等事物简化,例如,“feet”可能变成“foot”,“stripes”可能变成“stripe”。 这种简化的单词形式使算法更容易解释文档中的单词。

形态分割是将单词划分为词素或单词的基本单位的过程。 这些单位都是免费的 语素 (可以单独作为单词)和前缀或后缀。

词性标注 只是识别输入文档中每个单词属于哪个词性的过程。

解析 是指分析句子中的所有单词,并将它们与其正式语法标签相关联或对所有单词进行语法分析。

断句,或 句子边界分割, 指决定句子的开始和结束位置。

词干 是将单词简化为单词的根形式的过程。 例如,connected、connection、connections 都会被词干为“connect”。

分词 是将大块文本分成小单元的过程,这些小单元可以是单词或词干/词形还原单元。

语义 NLP 技术

语义 NLP 技术包括以下技术:

  • 命名实体识别
  • 自然语言生成
  • 词义消歧

命名实体识别 涉及标记某些可以放入多个不同预设组之一的文本部分。 预定义的类别包括日期、城市、地点、公司和个人等。

自然语言生成 是使用数据库将结构化数据转换为自然语言的过程。 例如,有关天气的统计数据,如温度和风速,可以用自然语言进行概括。

词义消歧是根据单词出现的上下文为文本中的单词赋予含义的过程。

NLP 深度学习模型

常规多层感知器无法处理顺序数据的解释,其中信息的顺序很重要。 为了处理顺序数据中顺序的重要性,使用了一种神经网络来保留训练中先前时间步的信息。

递归神经网络 神经网络的类型 循环之前时间步的数据,在计算当前时间步长的权重时将它们考虑在内。本质上,RNN 具有在前向训练过程中使用的三个参数:基于先前隐藏状态的矩阵、基于当前输入的矩阵以及隐藏状态和输出之间的矩阵。由于 RNN 可以考虑之前时间步的信息,因此在解释单词的含义时,它们可以通过考虑句子中较早的单词来从文本数据中提取相关模式。

另一种用于处理文本数据的深度学习架构是 长短期记忆 (LSTM) 网络。 LSTM 网络在结构上与 RNN 相似,但由于其架构上的一些差异,它们往往比 RNN 表现得更好。 它们避免了使用 RNN 时经常出现的一个特定问题,称为 梯度爆炸问题。

这些深度神经网络可以是单向的,也可以是双向的。 双向网络不仅能够考虑当前单词之前的单词,还能够考虑当前单词之后的单词。 虽然这会带来更高的精度,但计算成本更高。

自然语言处理 (NLP) 用例

由于自然语言处理涉及人类语言的分析和操作,因此它具有极其广泛的应用范围。 NLP 的可能应用包括聊天机器人、数字助理、情绪分析、文档组织、人才招聘和医疗保健。

聊天机器人和数字助理(例如亚马逊的 Alexa 和 Google Assistant)是语音识别和合成平台的示例,它们使用 NLP 来解释和响应声音命令。 这些数字助理可以帮助人们完成各种任务,让他们将一些认知任务转移到另一台设备上,并释放一些脑力来处理其他更重要的事情。 我们可以让我们的数字助理来做这件事,而不是在忙碌的早晨查找去银行的最佳路线。

情绪分析 是使用 NLP 技术来研究人们对某种现象的反应和感受,并通过他们使用语言来传达。 捕捉声明的情绪,例如解释产品评论是好是坏,可以为公司提供有关其产品如何被接受的大量信息。

自动组织文本文档是 NLP 的另一个应用。 谷歌和雅虎等公司使用 NLP 算法对电子邮件文档进行分类,将它们放入适当的分类中,例如“社交”或“促销”。 他们还使用这些技术 识别垃圾邮件 并阻止它到达您的收件箱。

一些团体还开发了 NLP 技术,用于识别潜在的职位招聘,并根据相关技能找到他们。 招聘经理还使用 NLP 技术来帮助他们对申请人列表进行排序。

NLP 技术也被用于增强医疗保健。 NLP 可用于改善疾病的检测。 可以通过 NLP 算法分析健康记录并提取症状,然后用于建议可能的诊断。 亚马逊的 Comprehend Medical 平台就是一个例子,该平台可以分析健康记录并提取疾病和治疗方法。 NLP 的医疗保健应用还扩展到心理健康。 有应用程序 比如沃博t,它向用户介绍了基于认知行为疗法的各种焦虑管理技术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1834384.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

企业数字化转型好帮手蚓链,超多创新亮点等你来!

家人们,今天必须给大家分享一下蚓链这个超棒的数字化转型好帮手呀! 在理念创新上,它做到了以用户为中心,给大家带来精准化、个性化的营销体验呢。 组织创新也超厉害,搭建了开放式创新平台,吸引外部合作伙伴…

SyntaxError: EOL while scanning string literal

背景: 在对字符串使用in关系运算符时,报错SyntaxError: EOL while scanning string literal 原因: 这是因为${var}中有换行符\n导致的,通过Log ${var}可以看出换行符确实导致的字符串hello的引号位于两行,从而导致…

计算机SCI期刊,IF=13.3+,期刊质量非常高,声誉佳

一、期刊名称 INTERNATIONAL JOURNAL OF COMPUTER VISION 二、期刊简介概况 期刊类型:SCI 学科领域:计算机科学 影响因子:13.369 中科院分区:2区 三、期刊征稿范围 《国际计算机视觉杂志》详细介绍了这一快速发展的领域的科…

在AMD GPUs上构建解码器Transformer模型

Building a decoder transformer model on AMD GPU(s) — ROCm Blogs 在这篇博客中,我们展示了如何使用PyTorch 2.0和ROCm在单个节点上的单个和多个AMD GPU上运行Andrej Karpathy精美的PyTorch重新实现的GPT。我们使用莎士比亚的作品来训练我们的模型,然…

数据和埋点的通俗解释

举一个生活的例子,让大家理解一下数据和埋点 从前,小镇里新开了一家游乐园,游乐园里有各种各样的游乐设施,过山车、激流勇进、大摆锤、主题餐厅。大家非常喜欢,刚开业不久就收获了很多游客的青睐。 运营了一段时间之…

GD32调试篇:STLINK驱动下载安装

本文章基于兆易创新GD32 MCU所提供的2.2.4版本库函数开发 向上代码兼容GD32F450ZGT6中使用 后续项目主要在下面该专栏中发布: https://blog.csdn.net/qq_62316532/category_12608431.html?spm1001.2014.3001.5482 感兴趣的点个关注收藏一下吧! 电机驱动开发可以跳转…

stablediffusion的controlnet线稿只能用1.5的底模吗,有XL能用的线稿模型吗?

推荐一个超级好用的 SDXL-ControlNet 模型:Anytest,不止是线稿转绘,还能帮你补全线稿以及二创哦! 而且操作很简单,不需要预处理器,直接使用即可。 基础的功能包括根据线稿生成图像,对图片进行…

揭秘Kafka:大数据和流计算领域的高可用利器

我是小米,一个喜欢分享技术的29岁程序员。如果你喜欢我的文章,欢迎关注我的微信公众号“软件求生”,获取更多技术干货! 哈喽,大家好,我是小米,一个积极活泼、热爱技术分享的大哥哥!今天我们来聊聊在大数据和流计算领域备受推崇的消息系统——Kafka。Kafka以其高效、可伸…

APaaS:智能制造助手

资金不足、IT基础架构薄弱...... 车间业务需求不断地在增加...... 都在说数字化,都在说转型...... 随着企业竞争的日益激烈和市场环境的快速变化,企业需要一个灵活、高效、快速响应市场变化的新平台。在这样的背景下,APaaS应运而生&#x…

从0开始C++(一)

目录 c的基本介绍 C语言和C 的区别 面向过程和面向对象的区别 引用 引用使用的注意事项 赋值 终端输入 cin getline string字符串类 遍历方式 字符串和数字转换 函数 内联函数 函数重载overload 小练习: 参考代码 c的基本介绍 C是一种通用的高级编…

银行卡归属地查询-银行卡归属地接口-银行卡归属地API

接口简介:通过银行卡号查询国内外银行名称、银行卡卡种、卡品牌以及银行卡发卡省份和城市,支持借记卡和部分贷记卡的发卡省市查询。 若银行卡是农村信用社,归属地无法区分到城市,只能到省份 接口地址:https://www.wapi…

高考分数线一分一段统计汇总(熟练SQL窗口函数)

高考分数线一分一段统计汇总(使用SQL窗口函数) select 总分数, 一分一段人数, sum(一分一段人数) over( order by 总分数 desc) as 累计排名 from( select 总分数, count(考生号) as 一分一段人数 from ( select 考生号&…

【保姆级教程】Linux 基于 Docker 部署 MySQL 和 Nacos 并配置两者连接

一、Linux 部署 Docker 1.1 卸载旧版本(如有) sudo yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logrotate \docker-logrotate \docker-engine1.2 安装 yum-utils 包 sudo yum install -y…

深入理解并打败C语言难关之一————指针(3)

前言: 昨天把指针最为基础的内容讲完了,并且详细说明了传值调用和传址调用的区别(这次我也是做到了每日一更,感觉有好多想写的但是没有写完),下面不多废话,下面进入本文想要说的内容 目录&#…

JavaScript之内置对象

内置对象 JavaScript中的对象分为3种:自定义对象、内置对象、浏览器对象前面两种对象是javascript基础内容,属于ECMAScript;第三个浏览器对象属于我们javascript独有的,我们javascript API讲解 内置对象就是指javascript语言自带…

18.菜单logo制作

菜单logo制作 1. 在项目assets里面加入logo 2. layout下新建MenuLogo.vue组件 MenuLofo.vue <template><div class"logo"><img :src"MenuLogo" alt""><span class"logo-title">{{ title }}</span>…

docker怎么拉取全部镜像,打包所有镜像

因为docker&#xff0c;所以我把电脑上之前的镜像全部打包出来了 你们也可以打包&#xff0c;我提供一个脚本&#xff0c;你运行即可 export_docker.sh #!/bin/bash# 导出目录 EXPORT_DIR"docker_images_backup" mkdir -p "$EXPORT_DIR"# 获取所有镜像 …

Spring Boot集成websocket实现webrtc功能

1.什么是webrtc&#xff1f; WebRTC 是 Web 实时通信&#xff08;Real-Time Communication&#xff09;的缩写&#xff0c;它既是 API 也是协议。WebRTC 协议是两个 WebRTC Agent 协商双向安全实时通信的一组规则。开发人员可以通过 WebRTC API 使用 WebRTC 协议。目前 WebRTC…

MD8002D 3W单声道AB类音频功放芯片IC

芯片功能说明 MD8002D是一颗带关断模式的音频功放IC。在5V输入电压下工作时&#xff0c;负载(4Q)上的平均功率 为3W&#xff0c;且失真度不超过10%。而对于手提设备而言&#xff0c;当VDD作用于关断端时&#xff0c;MD8002D将会进入关断模式&#xff0c;此时的功耗极低…

智慧校园的构建要素是什么

在当今数字时代&#xff0c;智慧校园的构建已成为教育界的热门话题。随着技术的不断进步&#xff0c;学校不再只是传统的教学场所&#xff0c;而是一个充满智能化和创新的环境。那么&#xff0c;智慧校园的构建要素究竟是什么呢&#xff1f; 基础设施建设 高速、稳定的网络覆…