浅谈推荐系统之内容推荐

news2026/2/12 22:23:06

内容推荐方法

基于内容的推荐向用户根据用户喜爱物品的直接推荐物品。

内容表示物品的描述。一般是自动从文档或无结构的文本描述中获得。因为在实际环境中对物品的专业描述需要专业人员的人工标注，这个费用是高昂的。

内容表示：物品的内容表示一般是维护每个物品特征的详细列表，例如属性集、特征集、物品记录。

基于内容的推荐的工作原理一般是评估用户还没看到的物品与当前用户过去喜欢的物品的相似程度。用到的典型的相似度方法是Dice系数，每物品Bi由一组关键词keyword(Bi)描述，Dice计算物品bi与bj之间的相似度：
在这里插入图片描述
基于内容的推荐一般使用出现在文档中的相关关键词，用不同的方法转换文档内容到关键词列表中。

简单的布尔型方法：

文档所有词语为一个列表，1表示出现，0表示没有出现，这种方法词语在文档中的重要性相等。

TF-IDF转换形式

TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)

TF

就是词频，在要提取关键词的文本中出现的次数
计算公式

       TF = 某个词在文章中出现的次数/文章的总次数 
       TF = 某个词在文章中出现的次数/该文出现的最多的词的次数

IDF

是提前统计好的，在已有的所有文本中，统计每一个词出现在了多少文本中，记为 n，也就是文档频率，一共有多少文本，记为 N。
计算公式

       IDF = log(N/(n+1))

TF-IDF

计算出 TF 和 IDF 后，将两个值相乘，就得到每一个词的权重

      TF-IDF = TF * IDF

筛选方式

根据该权重筛选关键词的方式有
1）TOP N的方式
2）大于平均值
3）对一些关键词过滤，例如只保留名词或者动词等操作
相关开源 sklearn TfidfVectorizer

TextRank

算法的基本思想是将文档看作一个词的网络,该网络中的链接表示词与词之间的语义关系

文本中，设定一个窗口宽度，比如 K
个词，统计窗口内的词和词的共现关系，将其看成无向图。图就是网络，由存在连接关系的节点构成，所谓无向图，就是节点之间的连接关系不考虑从谁出发，有关系就对了；
所有词初始化的重要性都是 1；
每个节点把自己的权重平均分配给“和自己有连接“的其他节点；
每个节点将所有其他节点分给自己的权重求和，作为自己的新权重；
如此反复迭代第 3、4 两步，直到所有的节点权重收敛为止。

通过 TextRank 计算后的词语权重，呈现出这样的特点：
那些有共现关系的会互相支持对方成为关键词。

相关开源 https://gitee.com/mirrors_summanlp/textrank