LiteratureReading:[2016] Enriching Word Vectors with Subword Information

文章目录

一、文献简明（zero）
二、快速预览（first）
- 1、标题分析
- 2、作者介绍
- 3、引用数
- 4、摘要分析
- - （1）翻译
  - （2）分析
- 5、总结分析
- - （1）翻译
  - （2）分析
- 6、部分图表
- 7、引言分析
- - （1）翻译
  - （2）分析
- 8、标题结构
- 9、参考文献
三、重点阅读（second）
四、深入理解（third）
五、技术复现（forth）

一、文献简明（zero）

领域：NLP
标题：[2016] Enriching Word Vectors with Subword Information（用子词信息丰富词向量）
作者：Bojanowski et al.

贡献：提出了fastText模型，利用子词信息解决未登录词问题，提升了词向量的泛化能力。
链接：原文

二、快速预览（first）

1、标题分析

标题“Enriching Word Vectors with Subword Information”直接表明了文章的核心内容和研究目标，即通过引入子词（subword）信息来丰富词向量。这种方法与传统的词向量模型不同，它不仅为每个独立的单词分配一个向量，而且还利用单词的字符n-gram来表示单词。这样的表示方法可以捕捉到单词的形态学信息，对于处理罕见词、合成词以及跨语言的词向量学习尤其有用。此外，这种方法允许模型快速地在大型语料库上训练，并能够为训练数据中未出现的单词生成词向量，这在自然语言处理任务中非常有价值。

2、作者介绍

Piotr Bojanowski：名字后有星号(*)，可能表示他是论文的主要作者或通讯作者。
Edouard Grave：名字后有星号(*)，同样可能表示他是论文的主要作者或通讯作者。
Armand Joulin 和 Tomas Mikolov：这两位作者没有特别的标记，表明他们也是论文的共同作者。

他们所属的机构是 Facebook AI Research，即 Facebook 的人工智能研究部门，这是一个专注于人工智能和机器学习研究的团队。

联系邮箱是 {bojanowski, egrave, ajoulin, tmikolov}@fb.com，这意味着每位作者的邮箱地址由他们的名字组成，域名是 fb.com，这是 Facebook 公司使用的域名。

3、引用数

……

4、摘要分析

在这里插入图片描述

（1）翻译

连续词表示，通过在大型未标记语料库上训练，对许多自然语言处理任务非常有用。那些学习此类表示的流行模型忽略了词的形态学，通过为每个词分配一个不同的向量。这是一个限制，特别是对于词汇量大且有许多罕见词的语言。在本文中，我们提出了一种基于skipgram模型的新方法，其中每个词被表示为字符n-gram的集合。与每个字符n-gram相关联的向量表示；词被表示为这些表示的总和。我们的方法快速，允许在大型语料库上快速训练模型，并允许我们计算在训练数据中未出现的词的词表示。我们在九种不同的语言上评估了我们的词表示，包括词相似性和类比任务。通过与最近提出的形态学词表示进行比较，我们展示了我们的向量在这些任务上实现了最先进的性能。

（2）分析

问题陈述：
- 摘要开头指出了现有词表示方法的一个主要限制：它们忽略了词的形态学信息，这在处理词汇量大和含有许多罕见词的语言时是一个问题。
方法介绍：
- 作者提出了一种基于skipgram模型的新方法，该方法通过字符n-gram来表示词。这种方法允许模型捕捉到词的内部结构，从而更好地处理形态丰富的语言。
- 每个字符n-gram都有一个向量表示，而词的表示则是这些向量的总和。这种方法不仅能够处理已知的词，还能生成未见过的词的表示。
优势：
- 该方法快速，能够在大型语料库上快速训练模型。
- 它能够为训练数据中未出现的词生成词表示，这在处理新词或罕见词时非常有用。
评估：
- 作者在九种不同的语言上评估了他们的词表示方法，包括词相似性和类比任务。
- 通过与最近提出的形态学词表示方法进行比较，作者展示了他们的方法在这些任务上实现了最先进的性能。
结论：
- 摘要最后总结了作者的方法在处理词相似性和类比任务上的优势，强调了其在自然语言处理任务中的潜力。

总的来说，这篇摘要清晰地介绍了作者的研究动机、提出的方法、方法的优势以及评估结果，为读者提供了一个全面的概述。

5、总结分析

在这里插入图片描述

（1）翻译

在本文中，我们研究了一种简单的方法来学习词表示，该方法考虑了子词信息。我们的方法将字符n-gram纳入skipgram模型中，这一想法与Schütze（1993）提出的观点相关。由于其简单性，我们的模型训练速度快，并且不需要任何预处理或监督。我们展示了我们的模型优于那些不考虑子词信息的基线方法，以及依赖形态学分析的方法。为了促进未来在子词表示学习方面的工作，我们将开源我们的模型实现。

（2）分析

研究目的和方法：
- 作者在本文中探讨了一种新的词表示学习方法，该方法通过考虑子词（subword）信息来改进传统的词表示。
- 具体来说，作者将字符n-gram整合到skipgram模型中，这是一种词嵌入技术，用于生成词的向量表示。
方法的创新点：
- 这种方法的创新之处在于它考虑了词的内部结构（即子词信息），这有助于更好地理解和表示词的意义。
- 作者提到这种方法与Schütze在1993年提出的观点相关，表明他们的工作是建立在先前研究的基础上的。
模型的优势：
- 由于模型的简单性，它训练速度快，不需要复杂的预处理或监督学习。
- 作者通过实验展示了他们的模型在性能上优于不考虑子词信息的基线方法，以及那些依赖形态学分析的方法。
开放源代码：
- 作者承诺将开源他们的模型实现，这有助于其他研究人员复现结果、进行比较研究，并在此基础上进一步发展。
结论的总结：
- 作者总结了他们的研究成果，强调了模型在处理词表示时考虑子词信息的重要性，并展示了其在性能上的优势。
- 开源模型实现的决定进一步强调了作者对促进学术界在这一领域发展的承诺。

总的来说，这篇结论部分清晰地总结了研究的主要贡献和发现，并提出了未来研究的方向。通过开源模型，作者为学术界提供了一个宝贵的资源，以促进进一步的研究和开发。

6、部分图表

在这里插入图片描述
这幅图展示了训练数据规模对模型性能的影响，具体通过Spearman秩相关系数来衡量。图中有两个子图，分别对应两种不同的数据集：

(a) DE-Gur350：这个子图显示了在DE-Gur350数据集上的性能表现。图中有三条曲线，分别代表三种不同的模型或方法：
- 蓝色曲线（cbow）：表示使用连续词袋模型（Continuous Bag of Words）的性能。
- 黄色曲线（sigsq）：表示使用一种特定的模型或方法的性能。
- 红色曲线（sigsq）：表示使用另一种变体的sigsq模型的性能。
(b) En-RW：这个子图显示了在En-RW数据集上的性能表现。同样有三条曲线，颜色和含义与(a)相同。

在两个子图中，横轴表示使用的数据百分比（从0%到100%），纵轴表示Spearman秩相关系数（从15到75）。Spearman秩相关系数是一种统计度量，用于评估两个变量之间的单调关系，值越高表示模型性能越好。

从图中可以看出：

在两个数据集上，随着训练数据的增加，所有模型的性能都有所提高。
在DE-Gur350数据集上，红色曲线（sigsq）的性能最好，其次是黄色曲线，最后是蓝色曲线。
在En-RW数据集上，红色曲线（sigsq）的性能同样最好，但黄色和蓝色曲线的性能差距较小。

图例位于每个子图的右侧，帮助区分不同的曲线。图下方的说明文字解释了实验设置：使用不同规模的数据集来训练模型，并在维基百科的完整数据集的一个分数上进行训练。

7、引言分析

（1）翻译

学习词的连续表示在自然语言处理中有着悠久的历史（Rumelhart et al., 1988）。这些表示通常通过使用共现统计从大型未标记语料库中得出（Deerwester et al., 1990; Schütze, 1992; Lund and Burgess, 1996）。大量工作，被称为分布式语义学，已经研究了这些方法的性质（Turney et al., 2010; Baroni and Lenci, 2010）。在神经网络社区，Collobert 和 Weston（2008）提出使用前馈神经网络学习词嵌入，通过基于左右两侧的两个词预测一个词。最近，Mikolov 等人（2013b）提出了简单的对数双线性模型，以高效地在非常大的语料库上学习词的连续表示。

这些技术中的大多数通过一个不同的向量表示词汇表中的每个词，而没有参数共享。特别是，它们忽略了词的内部结构，这对于形态丰富的语言（如土耳其语或芬兰语）来说是一个重要的限制。例如，在法语或西班牙语中，大多数动词有四十多种不同的屈折形式，而芬兰语有十五种名词格。这些语言包含许多在训练语料库中很少出现（或根本不出现）的词形，使得学习好的词表示变得困难。因为许多词形遵循规则，所以可以通过使用字符级信息来改善形态丰富的语言的向量表示。

在本文中，我们提出学习字符n-gram的表示，并将其作为n-gram向量的和来表示词。我们的主要贡献是引入了连续skipgram模型（Mikolov et al., 2013b）的扩展，该模型考虑了子词信息。我们在展示不同形态的九种语言上评估了这个模型，展示了我们方法的好处。

（2）分析

背景介绍：
- 引言部分首先介绍了词的连续表示在自然语言处理中的重要性和历史背景。
- 提到了分布式语义学和早期的词嵌入方法，如Collobert和Weston（2008）以及Mikolov等人（2013b）的工作。
现有方法的局限性：
- 现有方法通常通过为每个词分配一个独立的向量来表示词，忽略了词的内部结构。
- 这种表示方法在处理形态丰富的语言时存在局限性，因为这些语言中存在大量的词形变化，而这些变化在训练数据中可能很少出现。
提出的解决方案：
- 作者提出了一种新的方法，通过学习字符n-gram的表示，并将其作为n-gram向量的和来表示词。
- 这种方法考虑了子词信息，可以更好地处理形态丰富的语言。
研究贡献：
- 作者的主要贡献是引入了连续skipgram模型的扩展，该模型考虑了子词信息。
- 作者在九种不同的语言上评估了这个模型，展示了其在处理形态丰富的语言时的优势。
研究意义：
- 通过引入子词信息，作者的方法可以更好地处理形态丰富的语言，这对于自然语言处理中的许多任务（如词相似性、类比任务等）具有重要意义。
- 开源模型实现也有助于促进未来在子词表示学习方面的研究。

8、标题结构

Enriching Word Vectors with Subword Information - 用子词信息丰富词向量
Abstract - 摘要
1 Introduction - 1 引言
2 Related work - 2 相关工作
3 Model - 3 模型
- 3.1 General model - 3.1 通用模型
- 3.2 Subword model - 3.2 子词模型
4 Experimental setup - 4 实验设置
- 4.1 Baseline - 4.1 基线
- 4.2 Optimization - 4.2 优化
- 4.3 Implementation details - 4.3 实现细节
- 4.4 Datasets - 4.4 数据集
5 Results - 5 结果
- 5.1 Human similarity judgement - 5.1 人类相似性判断
- 5.2 Word analogy tasks - 5.2 词类比任务
- 5.3 Comparison with morphological representations - 5.3 与形态学表示的比较
- 5.4 Effect of the size of the training data - 5.4 训练数据规模的影响
- 5.5 Effect of the size of n-grams - 5.5 n-gram大小的影响
- 5.6 Language modeling - 5.6 语言建模
6 Qualitative analysis - 6 定性分析
- 6.1 Nearest neighbors - 6.1 最近邻
- 6.2 Character n-grams and morphemes - 6.2 字符n-gram和词素
- 6.3 Word similarity for OOV words - 6.3 未见词的词相似性
7 Conclusion - 7 结论
Acknowledgements - 致谢
References - 参考文献

9、参考文献

Andrei Alexandrescu and Katrin Kirchhoff. 2006. Factored neural language models. In Proc. NAACL.
安德烈·亚历山德雷斯库和卡特琳·基尔霍夫。2006年。分解神经语言模型。载于北美计算语言学协会会议论文集。
Miguel Ballesteros, Chris Dyer, and Noah A. Smith. 2015. Improved transition-based parsing by modeling characters instead of words with LSTMs. In Proc. EMNLP.
米格尔·巴列斯特罗斯，克里斯·戴尔和诺亚·A·史密斯。2015年。通过用LSTM对字符而非单词进行建模来改进基于转换的解析。载于自然语言处理经验方法会议论文集。
Marco Baroni and Alessandro Lenci. 2010. Distributional memory: A general framework for corpus-based semantics. Computational Linguistics, 36(4):673– 721.
马可·巴罗尼和亚历山德罗·伦奇。2010年。分布式记忆：基于语料库的语义的一般框架。计算语言学，36(4):673–721。
Giacomo Berardi, Andrea Esuli, and Diego Marcheggiani. 2015. Word embeddings go to Italy: a comparison of models and training datasets. Italian Information Retrieval Workshop.
贾科莫·贝拉迪，安德烈·埃苏利和迭戈·马尔凯贾尼。2015年。词嵌入进入意大利：模型和训练数据集的比较。意大利信息检索研讨会。
Piotr Bojanowski, Armand Joulin, and Tomáš Mikolov. 2015. Alternative structures for character-level RNNs. In Proc. ICLR.
彼得·博扬诺夫斯基，阿曼德·朱林和托马什·米科洛夫。2015年。字符级RNN的替代结构。载于国际学习表示会议论文集。
Jan A. Botha and Phil Blunsom. 2014. Compositional morphology for word representations and language modelling. In Proc. ICML.
扬·A·博塔和菲尔·布伦索姆。2014年。用于词表示和语言建模的组合形态学。载于国际机器学习会议论文集。
Xinxiong Chen, Lei Xu, Zhiyuan Liu, Maosong Sun, and Huanbo Luan. 2015. Joint learning of character and word embeddings. In Proc. IJCAI.
陈新雄，徐磊，刘志远，孙茂松和栾欢波。2015年。字符和词嵌入的联合学习。载于国际人工智能联合会议论文集。
Grzegorz Chrupała. 2014. Normalizing tweets with edit scripts and recurrent neural embeddings. In Proc. ACL.
格热戈日·赫鲁帕拉。2014年。使用编辑脚本和循环神经嵌入对推文进行规范化。载于计算语言学协会会议论文集。
Ronan Collobert and Jason Weston. 2008. A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proc. ICML.
罗南·科洛贝尔和杰森·韦斯顿。2008年。自然语言处理的统一架构：具有多任务学习的深度神经网络。载于国际机器学习会议论文集。
Ryan Cotterell and Hinrich Schütze. 2015. Morphological word-embeddings. In Proc. NAACL.
瑞安·科特雷尔和欣里希·舒尔策。2015年。形态学词嵌入。载于北美计算语言学协会会议论文集。
Qing Cui, Bin Gao, Jiang Bian, Siyu Qiu, Hanjun Dai, and Tie-Yan Liu. 2015. KNET: A general framework for learning word embedding using morphological knowledge. ACM Transactions on Information Systems, 34(1):4:1–4:25.
崔青，高斌，边江，邱思宇，戴汉军和刘铁岩。2015年。KNET：使用形态学知识学习词嵌入的通用框架。信息系统学报，34(1):4:1–4:25。
Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, and Richard Harshman. 1990. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41(6):391– 407.
斯科特·迪尔沃斯特，苏珊·杜迈斯，乔治·弗纳斯，托马斯·兰道尔和理查德·哈什曼。1990年。通过潜在语义分析进行索引。美国信息科学学会学报，41(6):391–407。
Cicero Nogueira dos Santos and Maira Gatti. 2014. Deep convolutional neural networks for sentiment analysis of short texts. In Proc. COLING.
西塞罗·努热拉·多斯桑托斯和迈拉·加蒂。2014年。用于短文本情感分析的深度卷积神经网络。载于计算语言学国际会议论文集。
Cicero Nogueira dos Santos and Bianca Zadrozny. 2014. Learning character-level representations for part-of-speech tagging. In Proc. ICML.
西塞罗·努热拉·多斯桑托斯和比安卡·扎德罗兹尼。2014年。学习字符级表示以进行词性标注。载于国际机器学习会议论文集。
Lev Finkelstein, Evgeniy Gabrilovich, Yossi Matias, Ehud Rivlin, Zach Solan, Gadi Wolfman, and Eytan Ruppin. 2001. Placing search in context: The concept revisited. In Proc. WWW.
列夫·芬克尔斯坦，叶夫根尼·加布里洛维奇，约西·马蒂亚斯，埃胡德·里夫林，扎克·索兰，加迪·沃尔夫曼和艾坦·鲁平。2001年。在上下文中放置搜索：概念再探。载于万维网会议论文集。
Alex Graves. 2013. Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850.
亚历克斯·格雷夫斯。2013年。使用循环神经网络生成序列。arXiv预印本 arXiv:1308.0850。
Iryna Gurevych. 2005. Using the structure of a conceptual network in computing semantic relatedness. In Proc. IJCNLP.
伊琳娜·古雷维奇。2005年。在计算语义相关性中使用概念网络的结构。载于国际计算自然语言处理会议论文集。
Zellig S Harris. 1954. Distributional structure. Word, 10(2-3):146–162.
泽利格·S·哈里斯。1954年。分布式结构。词语，10(2-3):146–162。
Samer Hassan and Rada Mihalcea. 2009. Cross-lingual semantic relatedness using encyclopedic knowledge. In Proc. EMNLP.
萨默·哈桑和拉达·米哈尔切亚。2009年。使用百科全书知识进行跨语言语义相关性。载于自然语言处理经验方法会议论文集。
Colette Joubarne and Diana Inkpen. 2011. Comparison of semantic similarity for different languages using the google n-gram corpus and second-order co-occurrence measures. In Proc. Canadian Conference on Artificial Intelligence.
科莱特·朱巴恩和戴安娜·因克潘。2011年。使用谷歌n-gram语料库和二阶共现度量比较不同语言的语义相似性。载于加拿大人工智能会议论文集。
Yoon Kim, Yacine Jernite, David Sontag, and Alexander M Rush. 2016. Character-aware neural language models. In Proc. AAAI.
尹金，亚辛·杰尼特，大卫·索塔格，亚历山大·M·拉什。2016年。字符感知神经语言模型。载于美国人工智能协会会议论文集。
Maximilian Köper, Christian Scheible, and Sabine Schulte im Walde. 2015. Multilingual reliability and “semantic” structure of continuous word spaces. Proc. IWCS 2015.
马克西米利安·克佩尔，克里斯蒂安·谢布尔，萨宾·舒尔特·伊姆·瓦尔德。2015年。连续词空间的多语言可靠性和“语义”结构。载于国际词义计算研讨会论文集。
Angeliki Lazaridou, Marco Marelli, Roberto Zamparelli, and Marco Baroni. 2013. Compositionally derived representations of morphologically complex words in distributional semantics. In Proc. ACL.
安杰莉基·拉扎里杜，马可·马雷利，罗伯托·赞帕雷利，马可·巴罗尼。2013年。分布式语义中形态复杂词的组合派生表示。载于计算语言学协会会议论文集。
Wang Ling, Chris Dyer, Alan W. Black, Isabel Trancoso, Ramon Fermandez, Silvio Amir, Luis Marujo, and Tiago Luis. 2015. Finding function in form: Compositional character models for open vocabulary word representation. In Proc. EMNLP.
王凌，克里斯·戴尔，艾伦·W·布莱克，伊莎贝尔·特兰科索，拉蒙·费尔南德斯，西尔维奥·阿米尔，路易斯·马鲁霍，蒂亚戈·路易斯。2015年。在形式中寻找功能：开放词汇词表示的组合字符模型。载于自然语言处理经验方法会议论文集。
Kevin Lund and Curt Burgess. 1996. Producing high-dimensional semantic spaces from lexical co-occurrence. Behavior Research Methods, Instruments, & Computers, 28(2):203–208.
凯文·伦德和科特·伯吉斯。1996年。从词汇共现产生高维语义空间。行为研究方法、仪器与计算机，28(2):203–208。
Minh-Thang Luong and Christopher D. Manning. 2016. Achieving open vocabulary neural machine translation with hybrid word-character models. In Proc. ACL.
明堂·卢翁和克里斯托弗·D·曼宁。2016年。使用混合词字符模型实现开放词汇神经机器翻译。载于计算语言学协会会议论文集。
Thang Luong, Richard Socher, and Christopher D. Manning. 2013. Better word representations with recursive neural networks for morphology. In Proc. CoNLL.
堂·卢翁，理查德·索彻和克里斯托弗·D·曼宁。2013年。使用形态学递归神经网络获得更好的词表示。载于自然语言处理共指决议付会议论文集。
Tomáš Mikolov, Ilya Sutskever, Anoop Deoras, Hai-Son Le, Stefan Kombrink, and Jan ˇCernocký. 2012. Subword language modeling with neural networks. Technical report, Faculty of Information Technology, Brno University of Technology.
托马什·米科洛夫，伊利亚·苏茨克维尔，阿诺普·德奥拉斯，海森·勒，斯特凡·科姆布林克，扬·切诺科。2012年。使用神经网络进行子词语言建模。技术报告，布尔诺理工大学信息技术学院。
Tomáš Mikolov, Kai Chen, Greg D. Corrado, and Jeffrey Dean. 2013a. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
托马什·米科洛夫，凯·陈，格雷格·D·科拉多，杰弗里·迪恩。2013年。向量空间中词表示的有效估计。arXiv预印本 arXiv:1301.3781。
Tomáš Mikolov, Ilya Sutskever, Kai Chen, Greg S. Corrado, and Jeff Dean. 2013b. Distributed representations of words and phrases and their compositionality. In Adv. NIPS.
托马什·米科洛夫，伊利亚·苏茨克维尔，凯·陈，格雷格·S·科拉多，杰夫·迪恩。2013年。词和短语的分布式表示及其组合性。载于神经信息处理系统进展。