【学而不思则罔,思而不学则殆】
2023.10.20
语义相似度
相似文本,可以是语义上相似,可以是字符串相似,因此文本相似度包含了语义相似度。
传统的基于统计的文本相似度计算方法,如词频,词出现与否来表示文本,会存在着两句话语义相差万里,但相似度很近的情况。
如:你欠我钱,我欠你钱
语义相似度计算方法种类参考:
NLP 语义相似度常用计算方法总结
欧式距离和余弦相似度是最常用的两种方法,在文本领域,通常采用是采用余弦相似度来计算语义相似度,why?
欧式距离
它计算的是高维空间中两个点之间的绝对距离,不考虑向量的方向性
余弦相似度
它计算的是两个向量夹角的cos值,只关注向量的方向,不考虑向量的绝对大小(因为不管长短,都会除以模变成单位向量),这也是它的缺点。
一个只关注距离,一个只关注方向,为什么NLP就选择了余弦相似度呢?
观点大杂烩
观点一:
观点二:
观点三:
https://zhuanlan.zhihu.com/p/644943003?utm_id=0
观点四:
观点五: