文本数据分析-(TF-IDF)(1)

news2024/11/16 11:55:31

文章目录

  • 一、TF-IDF简介
    • 1.意义
    • 2.TF与IDF
      • 1).TF(Term Frequency)
      • 2).IDF(Inverse Document Frequency)
      • 3).TF-IDF
  • 二、应用
  • 三、代码实现
    • 1.文件读取
    • 2.数据预处理
    • 3.排序和输出
    • 4.全部代码

一、TF-IDF简介

1.意义

TF-IDF(Term Frequency-Inverse Document Frequency)是一种在文本挖掘中广泛使用的特征向量化方法,用于评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。TF-IDF的主要思想是:如果某个词语或短语在一篇文章中出现的频率(TF,Term Frequency)高,并且在其他文章中很少出现(即IDF,Inverse Document Frequency,逆文档频率高),则认为这个词或者短语具有很好的类别区分能力,适合用来分类。

2.TF与IDF

1).TF(Term Frequency)

TF即词频,是指某个词语在文章中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件。
TF的计算公式为:
词频 ( T F ) = 某个词在文章中出现的次数 文章的总次数 词频(TF) = \frac{某个词在文章中出现的次数}{文章的总次数} 词频(TF)=文章的总次数某个词在文章中出现的次数

2).IDF(Inverse Document Frequency)

IDF即逆文档频率,其主要思想是:如果包含某个词语的文档越少,则IDF越大,说明这个词语具有很好的类别区分能力。

IDF的计算公式为:
I D F ( t ) = l o g N d f ( t ) + 1 ​ IDF(t)=log\frac{N}{df(t)+1} ​ IDF(t)=logdf(t)+1N

其中,

  • N 是文档集的总文档数。
  • df(t) 是包含词语 t 的文档数。分母加1是为了避免分母为0的情况。

3).TF-IDF

TF-IDF的计算公式则是TF和IDF的乘积:

其中,
T F − I D F ( t , d ) = T F ( t , d ) × I D F ( t ) TF-IDF(t,d)=TF(t,d)×IDF(t) TFIDF(t,d)=TF(t,d)×IDF(t)

  • TF(t,d) 是词语 t 在文档 d 中的词频。
  • IDF(t) 是词语 t 的逆文档频率。

二、应用

在文本挖掘和搜索引擎中,TF-IDF常被用于评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度,进而可以用于信息检索、文本挖掘、用户建模、特征词权重计算等。通过计算文档中每个词的TF-IDF值,可以构建文档的向量表示,进而用于各种文本处理任务,如分类、聚类、相似度计算等。

三、代码实现

在Python中,scikit-learn库提供了TfidfVectorizer类,可以很方便地计算TF-IDF值。例如:
下列六行英语位于task2_1.txt文本中,代码很好地实现了从文本文件中读取数据,使用TfidfVectorizer计算TF-IDF值,并将结果转换为DataFrame以便进一步分析。
在这里插入图片描述

1.文件读取

from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

infile = open('task2_1.txt','r')

corpus = infile.readlines()

打开一个名为 task2_1.txt 的文件,并以只读模式(‘r’)读取其内容。然后使用 readlines() 方法将整个文件的内容读入到一个列表中,其中每个元素都是文件中的一行。这个列表被赋值给变量 corpus。

2.数据预处理

vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(corpus)
print(tfidf)
wordlist = vectorizer.get_feature_names_out() #获取特征名称,所有的词
print(wordlist)
df = pd.DataFrame(tfidf.T.todense(),index=wordlist)
print(df)
  • 计算TF-IDF:vectorizer 是 TfidfVectorizer 类的一个实例,它负责将文本转换为 TF-IDF
    特征。fit_transform 方法首先学习 corpus中的词汇表(即所有独特的词),然后计算每个文档(或语料库中的每个文本项)中这些词的 TF-IDF 值。
  • 获取特征名称:拟合数据后获取词汇表中所有特征(即词汇表中的词)的名称。
  • 构建DataFrame:使用了tfidf.T.todense()来转置矩阵并转换为密集格式,以便可以将其用作DataFrame的数据。

3.排序和输出

for i in range(0,6):
    featurelist = df.iloc[:,i].to_list()
    # featurelist = df.to_numpy().tolist()

    resdict = {} #排序看看输出结果对不对
    for j in  range(0,len(wordlist)):
        resdict[wordlist[j]] = featurelist[j]
    resdict = sorted(resdict.items(),key=lambda x:x[1],reverse=True)
    print(resdict)

选取所有的第 i 列,并将其转换为列表。然后创建了一个字典,并根据TF-IDF值对其进行了排序。

4.全部代码

from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

infile = open('task2_1.txt','r')

corpus = infile.readlines()

vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(corpus)
print(tfidf)
wordlist = vectorizer.get_feature_names_out() #获取特征名称,所有的词
print(wordlist)
df = pd.DataFrame(tfidf.T.todense(),index=wordlist)
print(df)
for i in range(0,6):
    featurelist = df.iloc[:,i].to_list()
    # featurelist = df.to_numpy().tolist()

    resdict = {} #排序看看输出结果对不对
    for j in  range(0,len(wordlist)):
        resdict[wordlist[j]] = featurelist[j]
    resdict = sorted(resdict.items(),key=lambda x:x[1],reverse=True)
    print(resdict)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2090830.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大数据查询优化之谓词下推 ?

谓词 谓词,可以理解为条件表达式,在SQL中,谓词就是返回Boolean值,即True或False的函数,或是隐式转换为Boolean的函数。SQL中的谓词主要有 LKIE、BETWEEN、IS NULL、IS NOT NULL、IN、EXISTS其结果为布尔值&#xff0c…

NASA数据集:ASO L4雷达雪神数据集

目录 简介 代码 引用 网址推荐 0代码在线构建地图应用 机器学习 ASO L4 Lidar Snow Depth 50m UTM Grid V001 简介 该数据集包含根据机载光探测和测距仪(或称激光雷达)对地表高程的测量得出的 50 米网格雪深。 这些数据是 NASA/JPL 机载雪地观测…

如何构建基于Java SpringBoot的医疗器械管理系统?四步详解从需求分析到系统部署,集成Vue.js提升用户体验,内含MySQL数据库管理技巧。

🍊作者:计算机毕设匠心工作室 🍊简介:毕业后就一直专业从事计算机软件程序开发,至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。 擅长:按照需求定制化开发项目…

采购管理流程:自动化如何使效率提升75% ?

与许多业务流程一样,采购到付款 (P2P) 流程也面临着潜在错误、可避免的成本支出以及可能导致的延误。目前,实现自动化的采购流程比例尚不足一半。 自动化在工作场所的应用具有深远的影响,其重要性不言而喻。对于某些企业而言,自动…

android openGL ES详解——面剔除

一、什么是面剔除? 1.面剔除 尝试在头脑中想象一下有一个3D立方体,你从任何一个方向去看它,最多可以同时看到多少个面。如果你的想象力不是过于丰富,你最终最多能数出来的面是3个。你可以从一个立方体的任意位置和方向上去看它&…

金融上云方案中,国产虚拟化产品选型的重点考虑因素、自动化运维建设步骤及如何进行保障数据中心安全需求的存储设计等问题及解决方法|金融行业数字化QA合集③

Q:金融机构应该从哪些方面考虑虚拟化产品选型? 我行是中小规模城商行,想实现虚拟化国产替换,针对国产虚拟化种类繁多的情况,我行应该从哪些方面考虑产品选型,确保所选择产品既能满足信创替换,又…

银河麒麟v10-sp3-x86系统安装k8s-1.30.4

X86-64和arm架构的区别 x86-64架构: 设计理念:x86-64架构起源于Intel的x86架构,并对其进行了64位扩展。这种架构的设计侧重于高性能和灵活性,适合处理复杂的计算任务。 性能特点:x86-64架构的处理器通常提供高性能的…

六个方面探讨企业为何迫切需要替换FTP

随着信息技术的迅猛发展和网络安全形势的日趋严峻,传统的FTP文件传输协议因其固有的局限性和安全隐患,逐渐难以满足现代企业的需求。因此,寻找并升级FTP替代方案成为众多企业需要解决的问题。本文将从六个方面探讨企业为何迫切需要替换FTP。 …

云轴科技ZStack产品升级,浙江分公司产品发布会成功举办

近日,以“智启未来,云端共赢”为主题的云轴科技ZStack浙江分公司针对浙江地区渠道合作伙伴的产品发布会在杭州顺利召开。ZStack总代理伟仕佳杰、神州数码、英迈等百余位合作伙伴代表出席会议,共同见证ZStack在云基础设施与AI软件基础设施领域…

易查分如何查询图片?

最近经常看到老师们各种分享和讨论一个问题,今天,我就和大家聊聊如何高效地在易查分平台上上传和管理图片,让查询结果更加直观。 首先准备你的图片,无论是获奖证书还是奖状,确保它们的格式正确,比如"2…

VMware虚拟机安装的Ubuntu,桥接方式静态ip,内网可以访问,ping外网不可用

1.环境说明 系统:Ubuntu 24.04 环境:VMware下桥接静态IP设置 2.问题:ping www.baidu.com报错 [~] ping www.baidu.com ping: www.baidu.com: Temporary failure in name resolutio…

十、前后端分离通用权限系统(10)

🌻🌻 目录 一、功能说明二、部门管理三、岗位管理四、日志管理4.1、登录日志4.1.1、功能实现- 接口4.1.2、编写 AsyncLoginLogMapper4.1.3、功能实现- 接口实现4.1.4、导入获取ip地址的工具类 IpUtil4.1.5、在 TokenLoginFilter 调用方法实现4.1.6、修改…

【Matlab】时间序列模型(ARIMA)

文章目录 前言一、示例二、代码实现----Matlab全部数据的平稳性检验ADF检验图检验法 划分训练集平稳性检验确定 p,q结果分析和模型检验模型预测 前言 接上一篇博客,用 Matlab 完成代码编写。 【学习笔记】时间序列模型(ARIMA) 一、示例 已知一个上市公…

Linux云计算 |【第二阶段】SHELL-DAY4

主要内容: grep、egrep的使用,基本/扩展正则、sed的使用(非交互、逐行处理、常用命令与选项) 补充:grep [-E]选项,表示允许使用扩展的正则表达式(同等于egrep) 一、grep 与 egrep 的…

Kubernetes高可用部署

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:Linux运维老纪的首页…

极限的性质【上】《用Manim可视化》

通过前面的极限的定义,现在是计算极限的时候了。然而,在此之前,我们需要一些极限的性质,这将使我们的工作变得简单一些。我们先来看看这些。 极限的性质: 1.常数对极限的影响 1.首先,我们假设和存在&…

Tengine框架之配置表的Luban转换与加载

对于一个游戏来说,配置表是必不可少的,而且文件数量还比较多,像活动、任务成就、图鉴、地图、皮肤、本地化语言、技能等等之类。配置表一般使用Excel格式,便于策划来配置。但游戏中一般使用txt/json/xml/二进制格式文件&#xff0…

碎碎念之Android中CPU架构arm-v8a、arm-v7a、x86

0 碎碎念 之前写博客都是为了复习基础知识,不过好像也忘得很快hh。 以后估计会写点感兴趣的自己碎碎念,缓解下emo的心情。(不像之前的博客,这些博客不准备复现也不贴代码所以不一定对, 仅供个人参考 ) 现在…

Python酷库之旅-第三方库Pandas(111)

目录 一、用法精讲 486、pandas.DataFrame.count方法 486-1、语法 486-2、参数 486-3、功能 486-4、返回值 486-5、说明 486-6、用法 486-6-1、数据准备 486-6-2、代码示例 486-6-3、结果输出 487、pandas.DataFrame.cov方法 487-1、语法 487-2、参数 487-3、功…

鸿蒙项目签名配置

配置需要以下四个文件: 1. p12文件 2. csr文件 3. cer文件 打开AGC平台 点击申请调试证书 4. p7b文件 最后在项目中进行配置 配置项目的module.json5中