【Python自然语言处理】概率上下文无关文法(PCFG)及神经网络句法分析讲解(图文解释 超详细)

news2024/11/14 15:13:11

觉得有帮助或有疑问麻烦点赞关注收藏后评论区私信留言~~~

一、句法分析

句法分析(syntactic parsing或者parsing)是识别句子包含的句法成分要素以及成分之间的内在关系,一般以句法树来表示句法分析的结果。实现该过程的应用称作句法分析器(Parser)。根据侧重目标分为完全句法分析和局部句法分析,完全句法分析以获取整个句子的句法结构为最终目的,而局部句法分析仅关注局部部分,依存句法分析属于局部分析法

自然语言处理句法分析目前面临的关键技术问题:

(1)语义消歧: 语言中存在很多一词多义的用法,歧义与消歧是自然语言理解中最核心的问题,在词语、句子、段落篇章等各个层次都会出现语言根据语境产生歧义的现象,消歧是指根据上下文识别语义的过程。

(2)路径优化: 句法分析的搜索空间和句子长度存在指数对应关系,因此,在句子长度超过特定阈值时,搜索空间会变得十分庞大,从而降低了处理效率。优化搜索路径,以确保能够在合理时间范围内查找到模型定义最优解,是句法分析的目标。

二、句法树

在计算机中,可以用树状结构图来表示文本结构,使用字符S代表句子,NP VP PP分别代表名词短语 动词短语 介词短语 N  V P M则分别是名词 动词 介词 数量词和时量词

三、常用句法分析相关数据集

英国Lancaster- Leeds 树库

美国Penn 树库(涵盖中英文)

清华大学句法树库为基础的系列句法分析数据集

台湾 Sinica 中文树库等

四、句法分析方法

句法分析的基本任务是确定句子的语法结构或词汇间的依存关系,句法分析是自然语言处理实现目标的关键环节,句法分析通常分为结构分析和依存关系分析两种。

语言学家 Robinson 4 个约束性公理。

(1)有且仅有一个词语(ROOT,虚拟根节点)不依存于其他词语。

(2)除根节点之外其他单词存在依存关系。

(3)各单词不能依存于多个单词。

(4)如果单词 X 依存于 Y,那么位置处于 X 和 Y 之间的单词 Z 只能依存于 X、Y 或 XY 之间的单词。

句法分析中 有三个常见的评价标准

P为标记的准确率 R为召回率

 

五、概率分布上下文无关文法 

由于语法的解析存在歧义性,因此结果可能导致多种语法树可供备选,从中找出可能性最高的句法树,即概率最大的句法树,是概率分布上下文无关语法 (Probabilistic Context-Free Grammar:PCFG)的基本处理逻辑。概率分布上下文无关语法源自上下文无关文法

基于上述信息,得出相应句法树的生成概率为: P1=P(S)×P(NP)×P(VP)×P(V)×P(NP)×P(NP)×P(PP)×P(P)×P(NP) =1.0×0.2×0.8×1.0×0.5×0.2×1.0×1.0×0.2=0.0032 

 

 基于歧义的观点,如果存在另外一种理解导致各规则以及各结点的概率值呈现为下图结果,根据概率上下文无关语法得出该句法树的概率则表示未下

根据概率分布上下文无关语法得出该句法树的概率为:   P2=P(S)×P(NP)×P(VP)×P(VP)×P(V)×P(NP)×P(PP)×P(P)×P(NP) =1.0×0.2×0.7×1.0×1.0×0.2×1.0×1.0×0.2=0.0056 

比较上述两个概率值,第二个句法树的生成概率高,因此选择第二颗句法树作为最终结果,如果存在多种歧义,可以使用类似的方法求出概率最大的句法树

六、神经网络句法分析

神经网络能够对特征信息进行自动建模,具有自足学习能力,可以对特征进行自动优化,避免了大量的手动特征标注工程,并且,基于神经网络的句法分析模型的处理性能一般也优于传统的句法分析模型,因此,开发性能优异的神经网络算法成为近年研究的聚焦点。

下面使用斯坦福句法分析器进行中文句法分析实战

假定对象文本分析为“当今世界正经历一场百年大变革” 利用斯坦福句法程序分析得到的句法结构如下

 

 

 创作不易 觉得有帮助请点赞关注收藏~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/61720.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

三维模型的简化算法研究(任务书+lunwen+外文翻译+源码+查重报告)

目 录 第1章 绪论 1 1.1 研究背景 1 1.2 内存网格简化算法 1 1.2.1 顶点聚类 1 1.2.2 区域合并 2 1.2.3 迭代式消除 4 1.2.4 随机重采样 5 1.3 三维模型简化算法 6 1.3.1 分片简化 6 1.3.2 使用外部数据结构 7 1.3.3 网格批处理 9 1.3.4 流式简化 10 1.3.5 小结 11 1.4 自适应等…

【前沿技术RPA】 一文了解UiPath Orchestrator的触发器和监听器

🐋作者简介:博主是一位.Net开发者,同时也是RPA和低代码平台的践行者。 🐬个人主页:会敲键盘的肘子 🐰系列专栏:UiPath 🦀专栏简介:UiPath在传统的RPA(Robotic…

公众号接口免费调用

公众号接口免费调用 本平台优点: 多题库查题、独立后台、响应速度快、全网平台可查、功能最全! 1.想要给自己的公众号获得查题接口,只需要两步! 2.题库: 题库:题库后台(点击跳转)…

Express:CORS 跨域资源共享

CORS 跨域资源共享 Staticfile CDN 1. 接口的跨域问题 刚才编写的 GET 和 POST接口,存在一个很严重的问题:不支持跨域请求。 解决接口跨域问题的方案主要有两种: 1.CORS(主流的解决方案,推荐使用) 2.J…

Excel - 选择性粘贴和单元格引用规则

最基本的功能,才是最重要的功能,一定好好好理解。 最常用的复制、粘贴功能,在Excel里赋予了更多的选项,也变得更加强大。Excel里一般可复制的内容都是只单元格区域,其组成包括数据(文本或数值)、格式、公式、有效性验证…

FileZilla Server.xml 如何配置

要从xp.cn说起,因为它自带了一个ftp服务器。我点击配置后,就会直接用记事本打开FileZilla Server.xml让配置。我就很懵。不知道如何下手。 弹出的配置界面如下: 如何配置FileZilla Server.xml 我一开始想到去xp.cn找文档,可惜…

初探基因组组装——生信原理第四次实验报告

初探基因组组装——生信原理第四次实验报告 文章目录初探基因组组装——生信原理第四次实验报告实验目的实验内容实验题目第一题题目用SOAPdenovo 进行基因组组装评估组装质量第二题题目Canu组装Hifiasm组装基于nucmer的基因组比对过滤比对结果转换为可读性强的tab键分隔的文件…

期末论文LaTeX模板

简介 这学期的其中一门课程结束了,考核形式是写一篇中文的课程论文。于是,我使用了Elegant LaTeX 系列的模板。 小编已经把最新版本的三份模板放到公众号,后台回复[课程论文模板]即可获取。也欢迎大家去 GitHub 给贡献者点 star!…

【从零开始玩量化13】quantstats:分析你的量化策略

背景 之前总结了一些获取量化数据的途径,数据是一个量化策略的“原材料”,接下来要考虑的问题就是如何使用这些数据。 本文,介绍一个量化指标分析工具quantstats,利用它可以很方便的分析你的策略。 Github地址:https…

[附源码]计算机毕业设计校园帮平台管理系统Springboot程序

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

【5G MAC】随机接入流程中的 Msg3 —— Scheduled UL (PUSCH) Transmission

博主未授权任何人或组织机构转载博主任何原创文章,感谢各位对原创的支持! 博主链接 本人就职于国际知名终端厂商,负责modem芯片研发。 在5G早期负责终端数据业务层、核心网相关的开发工作,目前牵头6G算力网络技术标准研究。 博客…

机器学习數據降維之主成分分析(PCA)

文章目录前言数据降维是什么?维度灾难与降维作用主成分分析PCA原理PCA算法小例實戰總結前言 例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容…

cubeIDE开发,结合汉字取模工具,在LCD输出各种字体

一、汉字取模工具 嵌入式LCD屏显示无非就是不间断刷新LCD宽度*LCD高度的像素矩阵,并为每个像素指定特定颜色。对于LCD屏幕显示汉字,无非就是将字体形状转换为字体宽度*字体高度的像素矩阵,及指定每个字体像素的颜色,然后在LCD屏幕…

点击试剂Methyltetrazine-PEG4-NHS ester,甲基四嗪-PEG4-琥珀酰亚胺酯,CAS:1802907-9

An English name:Methyltetrazine-PEG4-NHS ester Chinese name:甲基四嗪-四聚乙二醇-琥珀酰亚胺酯 Item no:X-CL-1328 CAS:1802907-92-1 Formula:C24H31N5O9 MW:533.54 Purity:95% Avai…

基于MCMC的交通量逆建模(Matlab代码实现)

🍒🍒🍒欢迎关注🌈🌈🌈 📝个人主页:我爱Matlab 👍点赞➕评论➕收藏 养成习惯(一键三连)🌻🌻🌻 🍌希…

《人类简史》笔记四—— 想象构建的秩序

目录 一、盖起金字塔 1、未来的来临 2、 由想象构建的秩序 3、如何维持构建的秩序 二、 记忆过载 三、亚当和夏娃的一天 一、盖起金字塔 1、未来的来临 原始社会: 人口少; 狩猎和采集; 整体活动范围大(有几十甚至上百平方…

【怎么理解回流与重绘?以及触发场景】

一、是什么 在HTML中,每个元素都可以理解成一个盒子,在浏览器解析过程中,会涉及到回流与重绘: 回流:布局引擎会根据各种样式计算每个盒子在页面上的大小与位置 重绘:当计算好盒模型的位置、大小及其他属性…

初学Nodejs(5):npm包管理器与包的发布

初学Nodejs 包 1、概念 什么是包 Nodejs中的第三方模块又叫做包。包的来源 不同于Nodejs中的内置模块与自定义模块,包是由第三方个人或团队开发出来的,免费供人使用。(nodejs中的包都是免费且开源的,不需要付费即可免费下载使用…

2022年33个最佳WordPress健康与医疗主题

欢迎来到我们针对健康和保健相关网站和博客的最佳WordPress医疗主题的列表。这些涵盖了一切。您可以将它们用于医生、牙医、医院、健康诊所、内科医生、物理治疗师、外科医生以及健康领域的其他任何事物。大家有什么共同点?优质、100% 可定制的布局和 0 编码策略。 …

【论文精读8】MVSNet系列论文详解-UCS-Net

UCS-Net,论文名为:Deep Stereo using Adaptive Thin Volume Representation with Uncertainty Awareness,CVPR2020(CCF A) 本文是MVSNet系列的第8篇,建议看过【论文精读1】MVSNet系列论文详解-MVSNet之后再…