自然语言处理系列三十三》语义相似度》同义词词林》算法原理

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】

文章目录

自然语言处理系列三十三
- 同义词词林算法原理
- - 代码实战
总结

自然语言处理系列三十三

同义词词林算法原理

同义词词林主要用来衡量词和词之间的语义相似度，是人工整理的一个词典。《同义词词林》（亦称《义类词典》，以下简称《词林》）是由梅家驹等学者编纂的一部对汉语词汇按语义全面分类的词典，收录词语近7万条。《词林》根据汉语的特点和使用原则，确定了词的语义分类原：以词义为主，兼顾词类，并充分注意题材的集中。它将词义分为大类、中类、小类三级，共分12个大类（A类为人，B类为物，C类为时间与空间，D类为抽象事物，E类为特征，F类为动作，G类为心理活动，H类为活动，I类为现象与状态，J类为关联，K类为助语，L类为敬语），94个中类，1　428个小类，小类下再以同义词原则划分词群，每个词群以一标题词立目，共3　925个标题词。《词林》语义结构可用树型结构来表示，如图8.1所示。
在这里插入图片描述
图8.1 《词林》语义空间
编纂《词林》的初衷是提供从词义查词的工具，以便从中挑选适当的词语。作为一个语义分类体系，它也存在一些局限，如词典收词数量有限、复合词收录很少、词典更新滞后等等。若直接采用它作为同义词词典，显然不能满足实际需要。本书进行同义词的挖掘，是利用《词林》语义体系，并且将《词林》作为同义词底表来实现的。这样不仅可以依据《词林》作为底表的功能，直接识别出大量的、以词素形式出现的同义词，还可以依据其作为语义体系的功能，挖掘出大量的复合词形式的同义词。
同义词词林扩展版的词典比较大，这里给大家截取前面一部分展示：
Aa01A01= 人士人物人士人氏人选
Aa01A02= 人类生人全人类新人
Aa01A03= 人手人员人口人丁口食指生齿职员
Aa01A04= 劳力劳动力工作者血汗
Aa01A05= 匹夫个人个体局部片面私人一面个别小我小我私家部分一边一壁私家单方
Aa01A06= 家伙东西货色厮崽子兔崽子狗崽子小子杂种畜生混蛋王八蛋竖子鼠辈小崽子用具器材器械对象牲畜货品货物物品忘八工具牲口器具方向目标宗旨
Aa01A07= 者手匠客主子家夫翁汉员分子鬼货棍徒份子
Aa01A08= 每人各人每位大家人人众人大众
Aa01A09= 该人此人这人
Aa01B01= 人民民国民公民平民黎民庶庶民老百姓苍生生灵生人布衣白丁赤子氓群氓黔首黎民百姓庶人百姓全民全员萌黔黎子民匹夫平易近新人选民
Aa01B02= 群众大众公众民众万众众生千夫公家全体大家人人众人专家公共大伙团体人民集体全数所有大师全部一概悉数满堂一切黎民整体合座完全十足全豹百姓美满总共举座理想齐备扫数世人内行统统通盘公民全面具体一共整个全盘行家各人国民
Aa01B03# 良民顺民
Aa01B04# 遗民贱民流民游民顽民刁民愚民不法分子孑遗余存难民灾民
Aa01C01= 众人人人人们专家世人大家大师行家大众各人内行
Aa01C02= 人丛人群人海人流人潮
Aa01C03= 大家大伙儿大家伙儿大伙一班人众家各户人人大师专家行家众人民众大众各人群众公共老手内行世人巨匠熟稔
Aa01C04= 们辈曹等
Aa01C05@ 众学生
Aa01C06# 妇孺父老兄弟男女老少男女老幼
Aa01C07# 党群干群军民工农兵劳资主仆宾主僧俗师徒师生师生员工教职员工群体爱国志士党外人士民主人士爱国人士政群党政群非党人士业内人士工农分子军警民党政军民
Aa01D01@ 角色
Aa02A01= 我咱俺余吾予侬咱家本人身个人人家斯人个体局部片面私人一面个别小我小我私家部分一边一壁私家单方
Aa02A02= 区区仆鄙愚鄙人小人小子在下不才不肖戋戋
Aa02A03@ 老子
Aa02A04= 老朽老汉老夫老拙
Aa02A05@ 老娘
Aa02A06@ 愚兄
Aa02A07= 小弟兄弟昆仲昆季手足伯仲昆玉
Aa02A08= 奴妾妾身民女
Aa02A09= 朕孤寡人
Aa02A10= 职卑职下官奴婢奴才仆从仆众奴仆奴隶跟班跟随奴役跟从
Aa02A11= 贫道小道
Aa02A12@ 贫僧
Aa02A13@ 下臣
Aa02B01= 我们咱咱们吾侪吾辈俺们我辈咱俩
Aa03A01= 你您恁而尔汝若乃卿君公
Aa03A02= 老兄仁兄世兄兄长大哥年老老大垂老老迈年迈
Aa03A03= 老弟贤弟仁弟兄弟昆仲昆季手足伯仲昆玉
Aa03A04= 大嫂大姐老大姐
Aa03A05= 阁下足下驾同志老同志旁边左右安排控制操纵傍边同道驾御摆布当中台端掌握把握大驾驾驭尊驾独揽
Aa03A06= 陛下主公大王万岁
Aa03A07= 您老你咯
Aa03B01= 你们尔等
Aa03B02= 诸位各位诸君列位
Aa04A01= 他她彼其渠伊人家
Aa04B01= 他们她们他俩她俩
Aa05A01= 自己自家自个儿自各儿自身本身自我本人小我我自己己方我方私人个人
Aa05B01= 别人旁人他人人家
Aa05B02= 谁哪个哪位张三李四哪一个张王赵李
Aa05B03@ 其他人
Aa05C01= 某人某或人
Aa05D01@ 任何人
Aa05E01@ 克隆人
Aa06A01= 谁孰谁人谁个何人哪个哪位何许人也那个哪一个阿谁
Aa06B01@ 有人
Ab01A01= 男人男子男子汉男儿汉子汉士丈夫官人男人家光身汉须眉壮汉男士夫君外子良人
Ab01A02= 爷儿爷们爷儿们
Ab01A03= 先生子君郎哥小先生教师教员老师师长教师师长教授教练西宾西席
Ab01B01= 女人女子女性女士女儿女娘妇妇女妇道妇人女人家小娘子女郎巾帼半边天娘子军石女红装家庭妇女农妇才女密斯小姐姑娘少女
Ab01B02= 女流女人家妇道人家娘儿们妞儿
Ab01B03= 少妇婆娘婆姨娘子小娘子
Ab01B04= 姑娘少女丫头千金小姐闺女室女姑子黄花闺女大姑娘小姑娘童女老姑娘春姑娘密斯蜜斯女士令嫒掌珠令媛女郎仙女女仆梅香婢女使女丫鬟
同义词词林扩展版详细说明如下：
《同义词词林》的第一版和第二版的词表完全一样，收词 53,859 条。其中有很多的词已经很不常用，成为所谓的罕用词。参照多部电子词典资源，并按照人民日报语料库中词语的出现频度，只保留频度不低于 3（小规模语料的统计结果）部分词语，可剔除 14,706 个罕用词和非常用词。经过这样的处理，《同义词词林》还剩下 39,099 个词条。为了满足自然语言处理的需要，这样规模的词典显然是少了一些，可以说远远不够。为了扩充《同义词词林》，本实验室利用很多词语相关资源，并投入了大量的人力和物力，完成了一部具有汉语大词表的《哈工大信息检索研究室同义词词林扩展版》。最终的词表包含 77,343 条词语。《同义词词林》按照树状的层次结构把所有收录的词条组织到一起，把词汇分成大、中、小三类，大类有 12 个，中类有 97 个，小类有 1,400 个。每个小类里都有很多的词，这些词有根据词义的远近和相关性分成了若干个词群（段落）。每个段落中的词语有进一步分成了若干个行，同一行的词语要么词义相同（有的词义十分接近），要么词义有很强的相关性。例如，“大豆”、“毛豆”和 “黄豆”在同一行；“西红柿”和“番茄”在同一行；“大家”、“大伙儿”、“大家伙儿”在同一行。另外，“将官”、“校官”、“尉官”在同一行，“雇农”、“贫农”、“下中农”、“中农”、“上中农”、“富农”在同一行， “外商”、“官商”、“坐商”、“私商”也在同一行，这些词不同义，但很相关。为了将词义相关的行和同义的行区分开，词典《同义词词林》在行的左端加上“* *”作为标记。小类中的段落可以看作第四级的分类，段落中的行可以看作第五级的分类。这样，词典《同义词词林》就具备了 5 层结构。随着级别的递增，词义刻画越来越细，到了第五层，每个分类里词语数量已经不大，很多只有一个词语，已经不可再分，可以称为原子词群、原子类或原子节点。不同级别的分类结果可以为自然语言处理提供不同的服务，例如第四层的分类和第五层的分类在信息检索、文本分类、自动问答等研究领域得到应用。有研究证明，对词义进行有效扩展，或者对关键词做同义词替换可以明显改善信息检索、文本分类和自动问答系统的性能。词典《同义词词林》中保留下来的 39,099 条词语也保留了原有的分层结构，而新增的 36,267 条词语没有这样的结构。对于这些词，按照《同义词词林》的结构体系进行分类，工作量十分巨大。分类的某些环节可以使用机器自动完成，但是自动完成的结果不是很理想，各个环节主要还是依靠人工来完成。
《同义词词林》只提供了三层编码，即大类用大写英文字母表示，中类用小写英文字母表示，小类用二位十进制整数表示。例如：“Ae 07 农民牧民渔民”，“Ae 07”是编码，“农民牧民渔民”是该类的标题。标题是由一个或者多个第四层的“段首（即每个段的第一个词）”组成。根据标题词可以知道小类有分成多少个第四级类，如图8.2所示。
在这里插入图片描述
图8.2 词典结构
为了使用上的方便，对于第四级和第五级的分类也需要编码。新增的第四级
和第五级的编码与原有的三级编码和并构成一个完整的编码，唯一的代表词典中
的出现的词语。如：
Ba01A02= 物质质素
Cb02A01= 东南西北四方
Ba01A03@ 万物
Cb06E09@ 民间
Ba01B08# 固体液体气体流体半流体
Ba01B10# 导体半导体超导体
编码的方法说明如下：
第四级用大写英文字母表示，第五级用二位十进制整数表示。由于第五级的
分类结果需要特别说明，例如，有的行是同义词，有的行是相关词，有的行只有
一个词，可以分出具体的三种情况。在使用上，有时需要对这三种情况进行区别
对待，所以有必要再增加标记来分别代表着几种情形。具体的标记如表8.3所示。
在这里插入图片描述
表8.3词语编码表
图中的编码位是按照从左到右的顺序排列。第八位的标记有 3 种，分别是
“=”、“#”、“@”，“=”代表“相等”、“同义”。末尾的“#”代表“不等”、“同
类”，属于相关词语。末尾的“@”代表“自我封闭”、“独立”，它在词典中既没
有同义词，也没有相关词。

代码实战

HanLP本身就提供了语义相似度的方法，下一篇文章给大家演示代码。

总结

此文章有对应的配套新书教材和视频：

【配套新书教材】
《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】
新书特色：本书从自然语言处理基础开始，逐步深入各种NLP热点前沿技术，使用了Java和Python两门语言精心编排了大量代码实例，契合公司实际工作场景技能，侧重实战。
全书共分为19章，详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型（Language Model）、分布式深度学习实战等内容，同时配套完整实战项目，例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。
本书理论联系实践，深入浅出，知识点全面，通过阅读本书，读者不仅可以理解自然语言处理的知识，还能通过实战项目案例更好地将理论融入实际工作中。

【配套视频】
自然语言处理NLP原理与实战视频教程【陈敬雷】
视频特色：《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理，以及源码级别的应用操作实战，直接讲解自然语言处理的核心精髓部分，自然语言处理从业者或者转行自然语言处理者必听视频！

上一篇：自然语言处理系列三十二》语义相似度》语义相似度概念及入门
下一篇：自然语言处理系列三十》文本相似度算法》余弦相似度》Java代码实现