1、TF-IDF
TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文本频率)。TF指词频,IDF指的是逆文本频率。TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,可以评估一个词在一个文件集或者一个语料库中对某个文件的重要程度。一个词语在一篇文章中出现的次数越多,同时在所有文章中出现的次数越少,越能够代表该文章的中心意思,这就是TF-IDF的含义。
词频(Term Frequency ,TF)指的是一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数),来防止这个词偏向内容较长文件。比如:同一个词语在长文件里可能会比短文件有更高的词频。
逆向文本频率(Inverse Document Frequency,IDF),主要思想是在语料库中包含某个词条的文档越少,该词条IDF越大,说明这个词就有很强的类别区分能力。通常某个词语的IDF可以由语料库中文件的总数量除以包含该词语的文件数目,再将得到的商取对数决定。
分母加1主要是避免这个单词在语料库文章中没有出现,避免分母为0。这样当一个词语在语料库少数文章中出现,该词语对应的IDF值越大,当一个词语在大多数文章中都出现,那么该词语对应的IDF值会越小。
这样,某个词条的TF-IDF的值为 ,即某一个文件中高频出现的词条,以及该词条在整个语料库文件中低频出现的现象,就可以产生高权重的TF-IDF,因此,TF-IDF倾向过滤掉常见的词语,保留重要的词语。即:字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。