论文阅读之Syntax Encoding with Application in Authorship Attribution(2018)

news2024/11/23 3:34:32

文章目录

  • 摘要
  • 引言
  • Syntax Encoding
  • 实验结果
  • 参考

摘要

在这里插入图片描述

我们提出了一种新的策略,将句子的语法分析树编码为可学习的分布式表示。所提出的语法编码方案是可证明的信息无损的。具体而言,为句子中的每个单词构建嵌入向量,对语法树中与该单词对应的路径进行编码。这些“语法嵌入”向量与句子中的单词(因此它们的嵌入向量)之间的一一对应使得将这种表示与所有单词级NLP模型相结合变得容易。我们通过经验展示了作者归属域上语法嵌入的好处,其中我们的方法改进了现有技术,并在五个基准数据集上实现了新的性能记录。


这篇文章提出一种语法树的编码方式,能够几乎无损地编码语法树。

引言

(节选)

迄今为止,利用句法信息的现有方法可分为两类。第一类可以被视为“句法特征工程”。在这种方法中,从句子的语法分析树中提取某些属性或统计信息作为语法特征。例如,提取的特征可能包括树的深度、树中某些结构模式的频率等(Massung等人,2013;Wang等人,2015)。这种方法的优点是,如果特征被认为与分类任务相关,则提取的特征可以用于任何类型的分类器。然而,这种方法的局限性在于语法树中包含的丰富结构信息在特征提取过程中丢失。此外,使用这种策略,模型设计者通常需要设计特定于其任务的语法特征提取器。

第二类可被视为“语法辅助句子编码”。这类方法基于神经网络模型。此类方法的示例包括TreeSTM(Tai等人,2015;Zhu等人,2015b)和递归神经网络(Socher等人,2011),其中网络根据输入句子的语法树进行结构化。经过训练后,网络能够以自下而上的方式将单词嵌入序列编码为表示整个句子的向量。值得注意的是,在这些方法中,编码的特征向量虽然包含语法信息,但主要用作输入句子的语义表示,其中利用的语法信息主要用于辅助语义表示。此外,这种方法不够灵活,无法与另一类流行的NLP模型CNN集成。


文章先分析了之前对利用句法树地方式,第一种类似特征工程,计算出句法树地一些统计特征如句法树地深度等进行分析,第二种就是结构性建模如使用Tree-LSTM将句法树自下而上编码,最终将句法信息融入到句子中,虽然使用了结构,但是其实可能结构信息并不完整,并且也不够灵活,不能与CNN等集成。

Syntax Encoding

几十年来,包括句法分析信息在内的有益于NLP模型的研究一直很活跃。句法特征工程是指从给定文本的句法分析树中静态提取特定领域特征的努力(Massung等人,2013;Wang等人,2015)。最近的尝试还包括利用句法分析树结构自下而上递归生成句子表示(Socher等人,2011;Zhu等人,2015b;Tai等人,2015;Zhu等,2015a)。

上述两类方法都有严重的局限性。前者的解析表示通常无法对解析树结构进行编码,而后者受到解析器所青睐的树结构的约束。此外,最近的分布式单词嵌入技术,如Glove(Pennington等人,2014)和W2V(Mikolov等人,2013),已被证明对给定语料库的有限语法知识进行编码(Andreas和Klein,2014)。这一缺点也促进了最近关于创建语法感知单词嵌入的研究,该研究利用单词在其周围上下文中的位置信息增强了分布式嵌入向量(Cheng和Kartsaklis,2015),这再次编码了有限的语法信息。

我们的语法嵌入方法克服了上面提到的限制。


嗯看不太懂,接下来我们就看看他到底怎么进行句法树编码的。


在这里插入图片描述

在这里插入图片描述
给定句子的句法结构可以由一棵树唯一地表示,我们称之为句法树。图1给出了这样一个语法树的示例。如示例所示,语法树具有标记节点。具体来说,每个节点的标签是一个“语法标记”,如S、NP、VP等,表示节点下树枝覆盖的单词序列的语法属性。例如,树的根总是用S(“句子”)标记,树下的树枝覆盖了整个句子。另一方面,树的末端或叶子的标签,如EX、VBP、JJ等,对应于该句子中每个单词的“词性”标签。我们将用T表示所有语法标记的集合。


在这里插入图片描述表示所有语法标记(S、NP、VP和EX、VBP等)的集合。


在这里插入图片描述
给定句子s的这种句法树结构,句子s中的每个单词w在树中都有一条唯一的路径,离开词根到达终点。

然后,单词w的这种“语法路径”可以由路径上的一系列节点标签表示。表1给出了语法路径的一些示例。下面的引理很容易验证。
在这里插入图片描述


s表示一个句子,w表示一个单词。
每句话中,每个单词的句法树路径是唯一的。


在这里插入图片描述
引理1:
让一个句子s写成一系列单词(w1,w2,…,wn)。为每个单词位置i=1,2,…,n,设r(wi)表示单词wi的语法路径。设R:={(i,R(wi)):i=1,2,…,n}是一个(无序)集合,精确地包含s中单词的所有语法路径。
在这里插入图片描述
在引理中,我们注意到R是一个无序集合。也就是说,无论R中路径的顺序如何,都可以从R中恢复语法树。
在这里插入图片描述
令 r(w) 为单词 w 在感兴趣的句子 s 中的句法路径。具体来说,r(w)可以写成序列(t1,t2,…,tL),其中L是路径r中的节点数,每个ti是一个句法记号。


这里无序就是说其实每个元组已经包含了单词位置以及路径信息,每个元组之间的顺序是不影响结果的。
r(wi)表示的是单词i的句法路径。
例如以上面那颗句法树为例
(3,(VP,NP,DT))就是在这里插入图片描述中的一个元素。L=3,t1为VP


在这里插入图片描述
让欧几里得空间RK是我们将用于编码语法的嵌入空间。现在,我们描述一种将路径r(w)编码为向量r(w)的方法。
在这里插入图片描述


在这里插入图片描述表示的是位置编码的1、2、3等的embedding向量。

在这里插入图片描述表示的就是句法标记VP,NP,DT等的embedding向量

在这里插入图片描述那么句法路径的表示就是位置和句法标记的元素积求和。


在这里插入图片描述


只要K足够大,上述编码句法树的方法将会是无损的。


在这里插入图片描述
然而,我们注意到,在实践中,当学习到标记嵌入和位置(整数)嵌入时,不再保证可以从其嵌入中恢复语法路径。对于受监督的任务尤其如此。在此类任务的训练过程中,与训练目标无关的信息必然被“挤出”,那些不提供区分特征的语法路径的表示被“拉近”。这将导致这些路径与其嵌入不可区分(因此不可恢复)。这也是在实践中不需要非常大的嵌入维度 K 的原因。

尽管如此,由于不同的监督任务可能具有不同的训练目标,因此适用于一项任务的“有损”语法编码可能对其他任务无效。因此,正如我们在本文中提出的那样,采用一种普遍适用的信息无损编码框架仍然是必不可少的。


在实战中,K其实不需要很大,但无损确实有必要,因为不同的任务需要保留的句法结构不同。


实验结果

在这里插入图片描述
主要是看这篇文章的句法树编码了,CNN应该好懂。

只是可惜这文章代码没开源…

参考

Syntax Encoding with Application in Authorship Attribution

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/46251.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SAP Success Factor Single Sign On(单点集成) 的文档清单

可以通过 SAP note 2088827 查看 SAP Success Factor SSO(单点集成)的技术概述。 2088827 - [SSO] What methods of SSO (Single Sign On) does SuccessFactors Support? 目前 Success Factor 只支持 SAML 2.0 SSO, 但是 SAP 计划将来将其迁移到 IAS 解决方案上去, 详情参考…

UE5中置人利用iphone驱动虚拟人面部

首先把虚拟人物导入到项目里。这个前面讲过很多,我就不再赘述了。 打开UE5,点击右侧【设置】,再点击【插件】 在搜索区域输入arkit,搜索结果中勾选下图中的两项。有可能默认已经选中了。 在搜索区输入live link,搜索结…

[附源码]计算机毕业设计SpringBoot高血压分析平台

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

基于python的pulp库使用,从基础模型到复杂模型,从一维变量到二位变量

写在前面 学习笔记,仅作参考。 个人觉得配合步骤和建模,直接看代码就能入门pulp,所以没有啥解释,见谅。 参考 https://blog.csdn.net/youcans/article/details/116371416 步骤 1、安装PuLp (pip install pulp) 2…

基于python的scip库使用,从基础模型到复杂模型,从一维变量到二位变量

基础知识 创建模型:modelModel(name)#name是模型名字 创建变量:model.addVar(vtype,name,lb0,ub1)#vtype是变量类型,有I(Integer)表示离散变量,B(Binary )表示0/1变量 创建目标函数&…

pytorch安装

打开命令提示符 创建虚拟环境 conda create -n pytorch pip python3.6Collecting package metadata (current_repodata.json): done Solving environment: failed with repodata from current_repodata.json, will retry with next repodata source. Collecting package meta…

华为机试真题 Java 实现【最长连续方波信号】

目录 题目 思路 考点 Code 题目 输入一串方波信号,求取最长的完全连续交替方波信号,并将其输出,如果有相同长度的交替方波信号,输出任一即可, 方波信号高位用1标识,低位用0标识,如图: 说明: 1) 一个完整的信号一定以0开始然后以0结尾,即010是一个完整信号,但…

Protobuf应用层协议设计

目录 1 协议概述 2 判断消息的完整性 3 协议设计 3.1 协议设计范例 3.1.1 范例1-IM即时通讯 3.1.2 范例2-云平台节点服务器 3.1.3 范例3-nginx 3.1.4 范例4-HTTP协议 3.2 序列化⽅法 3.2.1 常⻅序列化⽅法 3.2.2序列化结果数据对⽐ 3.2.3 序列化、反序列化速度对…

STC 51单片机44——实现0.5秒间隔的单向流水灯

// 12MHz晶振 #include "reg52.h" #include "intrins.h" #define time (65536-50000) // 单次定时50ms unsigned char cn; unsigned char temp; void main(void) { cn10; //10*50ms0.5s temp0x7f; TMOD 0x10; //set tim…

[附源码]SSM计算机毕业设计星期八酒店管理系统JAVA

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

[附源码]计算机毕业设计springboot基于Java的失物招领平台

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

游戏开发30课 cocoscreator骨骼贴图布局设置

骨骼贴图布局设置 要确保 骨骼动画 也能够完全正确地参与 动态 Instancing,需要用户手动指定每张骨骼贴图的数据分配方式。 比如一个场景中要绘制大量相同的人物角色,每个角色可能在走/跳/攻击。如果希望一个 Drawcall 就能够正确完成所有角色的绘制&a…

【金万维】使用天联高级版登录用友U8+,进行凭证打印操作。

【操作步骤】 通过“天联高级版客户端”登录 U8,打印凭证步骤: 第一步:首先查看一下天联高级版客户端的打印参数是否如下图所示。 (一般软件初次安装后,默认即可。) 第二步:进入U8后&#xff0…

闭坑1:Django “TemplateDoesNotExist at /index/“解决/Django加载HTML出错

网上很多方法说是settings.py 的配置TEMPLATES中 DIRS: [], 未填写,事实上好多教程会改为路径 DIRS: [ os.path.join(BASE_DIR,"templates/") ], 看下BASE_DIR的定义: import os BASE_DIR os.path.dirname(os.path.dir…

见证云力量|飞马网技术沙龙“云计算专场”圆满结束

2022年11月26日下午,光环国际联合元宇宙教育实验室以在线直播的形式举办了“第322期FMI飞马网技术沙龙活动”。 光环国际成立于2001年,是新三板“科创人才培养第一股”。FMI飞马网技术沙龙作为光环国际旗下重要的沙龙品牌活动,如今已经成为了…

【站内题解】十六道csdn每日一练Python题解

文章目录题目一: 游乐园的门票1. 问题描述2. 输入描述3. 输出描述4. 示例4.1 输入4.2 输出5. 答案5.1 解法一5.2 解法二题目二:小桥流水人家1. 问题描述2. 输入描述3. 输出描述4. 示例4.1 输入4.2 输出5. 答案题目三:小艺读书1. 问题描述2. 输…

前端开发,自定义本地域名解析,更改host,模拟线上环境

最近的一个需求搞得我心力交瘁,需求如下 希望网站 xxx.com 和网站 xxx.cn 统一登录状态,也就是说一个 com 站点登录,需要同步更新 cn 站点的用户,退出登录同理 实现原理是使用 iframe postMessage localstorage,具体…

【数据结构与算法】LinkedList与链表

✨个人主页:bit me ✨当前专栏:数据结构 ✨每日一语:假如困境有解,何须心烦意乱;倘若困境无解,又何须郁郁寡欢。每个人都有两次生命,当你意识到你只有一次生命的时候,你的第二次生命…

艾美捷MTT细胞增殖检测试剂盒测定方案

细胞增殖的测量和监测是任何实验室中必不可少的技术专注于基于细胞的研究。该技能还允许优化细胞培养条件作为细胞因子,生长因子或激素活性的测定。更重要的是,细胞抑制毒理学测试中抗癌化合物的性质,治疗化学品在药物中的功效筛选和细胞介导…