关于TF-IDF的一个介绍

在这篇文章中我将介绍TF-IDF有关的一些知识，包括其概念、应用场景、局限性以及相应的代码。

一、概念

TF-IDF（Term Frequency-Inverse Document Frequency）是一种广泛用于信息检索和文本挖掘中的统计方法，用于评估一个词在一个文档或文档集合中的重要性。TF-IDF值反映了词语的重要性，它由两部分组成：词频（Term Frequency, TF）和逆文档频率（Inverse Document Frequency, IDF）。

1.1 TF

Term Frequency (TF)：

词频是指某个词在文档中出现的次数。它是衡量一个词在文档中重要性的一个基本指标。

计算公式为：

1.2 IDF

Inverse Document Frequency (IDF)：

逆文档频率（IDF）是为了补偿词频（TF）的不足而引入的概念。IDF的作用是降低那些在很多文档中都出现的词的重要性，同时提高那些在较少文档中出现的词的重要性。换句话说，IDF试图捕捉一个词的独特性和区分能力。

计算公式为：

其中：

其中 N 是文档总数，

df(t)是包含词 t 的文档数量，

+1是为了避免 df(t)为0时导致的分母为0问题。

1.3 TF-IDF

TF-IDF是TF和IDF的乘积，综合考虑了词频和逆文档频率两个因素。这样既反映了词语在文档中的重要性，又考虑了词语的独特性。

因此，其计算公式为：

二、应用场景

信息检索：在搜索引擎中，可以通过对于TF-IDF的计算来寻找目标目标文档。其中，关于检索模型可以分为布尔模型、向量模型、概率模型这三大种。而其中的向量模型就会用到TF-IDF来计算相似度。

具体的，在向量空间模型中，每个文档和查询都被表示为一个向量，其中每个维度对应一个词汇的TF-IDF值。文档向量和查询向量之间的相似度通常是通过余弦相似度来计算的：

其中，A与B分别为文档向量和查询向量，而||A||与||B||则是其对应的模长。

举个例子：

假设我们有两个文档：

Doc1: "这是一个测试文档"
Doc2: "另一个测试文档"

我们需要用向量模型来计算得知其相似度。

假设词汇表为 ["这是", "一个", "测试", "文档", "另一个"]。

首先我们计算TF：

对于Doc1:

TF("测试",Doc1)= $\frac{1}{5}$

对于Doc2:

TF("测试",Doc2)= $\frac{1}{5}$

然后我们计算IDF：

假设我们的文档集合 D 包含这两个文档：

那么，

df("测试")=2

N=2

则有：IDF("测试",D)= $log(\frac{2}{2+1})$ = $log(\frac{2}{3})$

然后计算TF-IDF:

对于Doc1:

TF−IDF("测试",Doc1,D)= $\frac{1}{5}*log(\frac{2}{3})$

对于Doc2:

TF−IDF("测试",Doc2,D)= $\frac{1}{5}*log(\frac{2}{3})$

接着我们就可以构建文档向量了：

假设我们构建文档向量时，除了“测试”外还有其他词汇，构造向量如下：

A=[TF−IDF("这是"),TF−IDF("一个"),TF−IDF("测试"),TF−IDF("文档")]

B=[TF−IDF("另一个"),TF−IDF("测试"),TF−IDF("文档")]

具体数值为：

$A=[0,0,\frac{1}{5}log(\frac{2}{3}),0,0]$

$B=[0,0,\frac{1}{5}log(\frac{2}{3}),0,0]$

最后，就是计算其相似度：

使用余弦相似度计算 AA 和 BB 之间的相似度：

那么，我们带入A与B到计算公式里则可得：

$similarity=1$

文本分类：在文本分类任务中，TF-IDF用于提取文档的关键特征。通过计算文档中各个词的TF-IDF值，可以得到一组特征向量，这些向量可以输入到诸如朴素贝叶斯（Naive Bayes）、支持向量机（SVM）或其他机器学习算法中，用于训练模型并进行分类预测。

关键词提取：TF-IDF可以用于从文档中提取关键词。通过计算文档中每个词的TF-IDF值，可以选择TF-IDF值最高的若干词作为文档的关键词。这种方法广泛应用于摘要生成、文献检索等领域。

文章相似度计算：TF-IDF可以用于计算文档之间的相似度。通过计算两个文档中相同词汇的TF-IDF值，并使用余弦相似度（Cosine Similarity）等方法，可以评估文档之间的相似程度。这种方法在推荐系统、抄袭检测等方面有广泛应用。具体的相似度计算和上述的检索模型中向量模型的计算方式一致。

三、注意事项

在计算文档的TF-IDF时，我们要注意使用停用词库，像“一样”、“那么”、“还有”等词语虽然在文章中频繁出现，但实际意义不大，不能有助于我们区分不同文档间的差异，所以我们需要引入一个停用词库来筛选并剔除这些词语来。

然后，我们在计算文档的TF-IDF时，得到的往往是一个稀疏矩阵，它及占空间，所以我我们需要改变它的存储方式，就像如下图那样：

从这样的稀疏矩阵：

变为这样：

其中，可以看到元组内的第一项是特征，也就是词语所在的文档，第二项则是其在词汇表中索引位，至于元组后的小数，正是TF-IDF值。

四、python实例

如下这个代码就是用sklearn中现成的函数来直接计算文章的TF-IDF，并且在其中因为是全是中文文档的缘故，我还引用了一个中文的停用词库。代码如下：

from sklearn.feature_extraction.text import TfidfVectorizer
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import string
import jieba

# 加载停用词
def load_stopwords(filepath):
    with open(filepath, 'r', encoding='utf-8') as file:
        stopwords = set(line.strip() for line in file)
    return list(stopwords)

# 标点符号去除函数
def remove_punctuation(text):
    # 定义中文标点符号
    zh_punctuation = r'。\n ！？｡ ＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏'
    # 去除英文和中文标点符号
    translator = str.maketrans('', '', zh_punctuation + string.punctuation)
    try:
        text = str(text).translate(translator)  # 确保text是字符串类型
        return text.strip()
    except Exception as e:
        print(f"Error processing text: {e}")
        return " "

# 文本中文分词处理函数
def chinese_tokenizer(text):
    text = remove_punctuation(text)
    return " ".join(jieba.lcut(text))

# 数据载入及预处理
path = r"C:\Users\20349\Desktop\ArtificialIntelligence\ML\kaggle\TF_IDF\chinese_news.csv"
data_all = pd.read_csv(path)
data_use = data_all.iloc[:500]
data_list = data_use.iloc[:,-1].tolist()
data = [chinese_tokenizer(text) for text in data_list]

# 停用词库
stopwords_path = r"C:\Users\20349\Desktop\ArtificialIntelligence\wordCloud\stopWords.txt"
stopwords = load_stopwords(stopwords_path)

# tfidf
vec = TfidfVectorizer(stop_words=stopwords)
X_tfidf = vec.fit_transform(data)
feature_name = vec.get_feature_names_out()
print(X_tfidf)
print(X_tfidf.toarray())
# 可视化
# 获取非零元素及其对应的TF-IDF值
rows, cols = X_tfidf.shape
for doc_index in range(rows):
    # 获取非零元素及其对应的TF-IDF值
    nonzero_features = X_tfidf.indices[X_tfidf.indptr[doc_index]:X_tfidf.indptr[doc_index + 1]]
    nonzero_values = X_tfidf.data[X_tfidf.indptr[doc_index]:X_tfidf.indptr[doc_index + 1]]

# 排序
sorted_indices = np.argsort(nonzero_values)
sorted_nonzero_features = nonzero_features[sorted_indices]
sorted_nonzero_values = nonzero_values[sorted_indices]

# 绘制TF-IDF散点图
plt.figure(figsize=(10, 6))
plt.scatter(range(len(sorted_nonzero_values)), sorted_nonzero_values, alpha=0.6, label=f'Document {doc_index}')
plt.xlabel('Feature Index Sorted by TF-IDF Value')
plt.ylabel('TF-IDF Value')
plt.title(f'TF-IDF Values for Document {doc_index} (Sorted)')
plt.grid(True)
plt.legend()
plt.show()

其画出的图像为：