【自然语言处理】补充:词项权重计算及向量空间模型
文章目录
- 【自然语言处理】补充:词项权重计算及向量空间模型
-
- 1. 排序式检索
- 2. 词项频率
- 3. tf-idf权重计算
- 4. 向量空间模型
1. 排序式检索
- 布尔检索的不足:结果过少或者过多
- 布尔查询常常会是过少(=0)或者过多(>1000)
- 在布尔检索中,需要大量技巧来生成一个可以获得合适规模结果的查询
- 排序式检索可以避免产生过多或者过少的结果:
- 大规模的返回结果可以通过排序技术来避免,只需要显示前10条结果,不会让用户感觉到信息太多
- 前提:排序算法真的有效,即相关度大的文档结果会排在相关度小的文档结果之前
- 排序式检索中的评分技术
- 我们希望,在同一查询下,文档集中相关度高的文档排名高于相关度低的文档
- 实现:通常做法是对每个查询-文档对赋一个[0, 1]之间的分值,该分值度量了文档和查询的匹配程度
2. 词项频率
- 二值关联矩阵
- 非二值关联矩阵
- 词袋模型
- 不考虑词在文档中出现的顺序(John is quicker than Mary 和 Mary is quicker than John 的表示结果是一样的),这称为一个词袋模型
- 在某种意思上说,这种表示方法是一种“倒退”,因为位置索引中能够区分上述两片文档
- (这里仅考虑词袋模型)
- 词项频率tf:词项t的词项频率
tf(t, d)
是指t在d中出现的次数- 采用原始的tf值:不太合适,例如,某个词项在A文档中出现十次,即tf=10,在B文档中tf=1,那么A比B更相关,但是相关度不会相差十倍,相关度不会正比于此项频率tf
- 对数词频: