【一起从0开始学习人工智能0x03】文本特征抽取TfidVectorizer

news2025/6/28 15:39:05

文章目录

文本特征抽取TfidVectorizer
- - TfidVecorizer--------Tf-IDF
  - TF-IDF------重要程度

文本特征抽取TfidVectorizer

前几种方法的缺点：有很多词虽然没意义，但是出现次数很多，会影响结果，有失偏颇------------关键词

TfidVecorizer--------Tf-IDF

思想：一个词在一篇文章中出现概率高，但是在其他文章很少出现------------认为这个很适合来分类

TF-IDF------重要程度

TF------------term frequency---------------------词频
IDF------------inverse document frequency----------逆向文档频率

在这里插入图片描述

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vec = TfidfVectorizer()
# stop words自定义停用词表，为列表List类型
# token_pattern过滤规则，正则表达式，如r"(?u)bw+b
# max_df=0.5，代表一个单词在 50% 的文档中都出现过了，那么它只携带了非常少的信息，因此就不作为分词统计
documents = [
    'this is the bayes document',
    'this is the second second document',
    'and the third one',
    'is this the document'
]
tfidf_matrix = tfidf_vec.fit_transform(documents)
# 拟合模型，并返回文本矩阵  表示了每个单词在每个文档中的 TF-IDF 值
print('输出每个单词在每个文档中的 TF-IDF 值，向量里的顺序是按照词语的 id 顺序来的:', '\n', tfidf_matrix.toarray())
print('不重复的词:', tfidf_vec.get_feature_names())
print('输出每个单词对应的 id 值:', tfidf_vec.vocabulary_)
print('返回idf值:', tfidf_vec.idf_)
print('返回停用词表:', tfidf_vec.stop_words_)

🌸I could be bounded in a nutshell and count myself a king of infinite space.

特别鸣谢：木芯工作室、Ivan from Russia

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/131080.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

一篇文章带你搞懂nodeJs环境配置

一篇文章带你搞懂nodeJs环境配置

1、nodeJs下载地址，这里可以选择你想要的版本，我这里以14.15.1为例 2、下载完成后，直接傻瓜式安装即可。 3、打开命令行（以管理员身份打开）,输入node -v，出现以下版本号，代表node成功安装 4、在…

阅读更多...

html+css设计两个摆动的大灯笼

html+css设计两个摆动的大灯笼

实现效果新年马上就要到了，教大家用htmlcss设计两个大灯笼，喜气洋洋。 html代码： html代码部分非常简单，将一个灯笼分成几部分进行设计，灯笼最上方部分，中间的线条部分和最下方的灯笼穗。组合在一起就…

阅读更多...

docker系列教程：docker图形化工具安装及docker系列教程总结

docker系列教程：docker图形化工具安装及docker系列教程总结

通过前面的学习，我们已经掌握了docker-compose容器编排及实战了。高级篇也算快完了。有没有相关，我们前面学习的时候，都是通过命令行来操作docker的，难道docker就没有图形化工具吗？答案是肯定有的。咱们本篇就来讲讲docker图形化工具及使用图形化工具安装Nginx及docker系列…

阅读更多...

读书系列2022(下)读书纪录片

读书系列2022(下)读书纪录片

目录一、认知类二、纪录片一、认知类《蓝海战略》： 让你(企业/个人)在竞争中产生错位竞争，获得优势《认知盈余》：“人们实际上很喜欢创造并分享”， 参与是一种行为将人们的自由时间和特殊才能汇聚在一起，共同…

阅读更多...

移动Web【字体图标、平面转换[位移,旋转,转换原点,多重转换]、渐变】

移动Web【字体图标、平面转换[位移,旋转,转换原点,多重转换]、渐变】

文章目录一、字体图标1.1 图标库1.2 下载字体包：1.3 使用字体图标：1.4 使用字体图标 – 类名：1.5 案例：淘宝购物车1.6 上传矢量图：二、平面转换2.1 位移2.1 位移-绝对定位居中2.3 案例2.4 旋转2.5 转换原点2.6 多重转换…

阅读更多...

2022年终总结：不一样的形式，不一样的展现

2022年终总结：不一样的形式，不一样的展现

Author：AXYZdong 硕士在读工科男有一点思考，有一点想法，有一点理性！ 定个小小目标，努力成为习惯！在最美的年华遇见更好的自己！ CSDNAXYZdong，CSDN首发，AXYZdong原创唯…

阅读更多...

你真的了解表达式求值吗？

你真的了解表达式求值吗？

表达式求值大家很熟悉特别是整型十进制的表达式求值。那么char类型的表达式求值是怎么样的？Eg：#include <stdio.h>int main() {char a 127;char b 3;char c a b;printf("%d %d %d\n",a,b,c);return 0; }上面程序输出的结果是多少&am…

阅读更多...

2022跟学尚硅谷Maven入门(一)纯命令行

2022跟学尚硅谷Maven入门(一)纯命令行

2022跟学尚硅谷Maven入门一纯命令行Maven从小白到专家应用场景开发过程自动部署私有仓库课程介绍小白目标普通开发人员目标资深开发人员目标第一章:Maven 概述第一节为什么要学习MavenMaven 作为依赖管理工具(1)jar包的规模(2)jar 包的来源(3)jar包之间的依赖关系Maven 作为…

阅读更多...

APSIM练习：播种作物练—高粱作物模拟

APSIM练习：播种作物练—高粱作物模拟

在本练习中，您将观察作物在一个季节内的生长情况。您将更多地了解如何使用 APSIM 对施肥率进行“假设”实验。这些技能不仅可以用来试验施肥率，还可以用来试验变量，例如： 种植时间。播种率。作物比较和不同的起始土壤水分条件。 …

阅读更多...

C++之异常

C++之异常

文章目录一、C 语言传统的处理错误的方式二、C 异常概念三、异常的使用1.异常的抛出和捕获2.异常的重新抛出3.异常安全4.异常规范四、自定义异常体系五、C 标准库的异常体系六、异常的优缺点一、C 语言传统的处理错误的方式传统的错误处理机制： ① 终止程序&a…

阅读更多...

JUC(十)-线程池-ThreadPoolExecutor分析

JUC(十)-线程池-ThreadPoolExecutor分析

ThreadPoolExecutor 应用 & 源码解析文章目录ThreadPoolExecutor 应用 & 源码解析一、线程池相关介绍1.1 为什么有了JDK提供的现有的创建线程池的方法(Executors类中的方法),然而还需要自定义线程池ThreadPoolExecutor 提供的七个核心参数大致了解JDK提供的几种拒绝策…

阅读更多...

一辆适合长途出行的电动跑车奥迪RS e-tron GT正式上市

一辆适合长途出行的电动跑车奥迪RS e-tron GT正式上市

作为奥迪品牌电动化发展的先锋力作，奥迪RS e-tron GT不止是前瞻科技的呈现，在e-tron纯电技术的加持下，更传递着RS的情怀，承载着人们对GT豪华休旅生活的向往。 2022年12月30日，伴随着Audi Channel第九期直播节目盛大开播…

阅读更多...

MySQL存储引擎介绍以及InnoDB引擎结构理解

MySQL存储引擎介绍以及InnoDB引擎结构理解

目录存储引擎概述各个存储引擎介绍InnoDBMySIAMMemeory其他引擎引擎有关的SQL语句InnoDB引擎逻辑存储结构架构内存部分磁盘部分后台线程InnoDB三大特性存储引擎概述数据引擎是与数据真正存储的磁盘文件打交道的，它的上层（服务层）将处理好的…

阅读更多...

我的Python学习笔记：私有变量

我的Python学习笔记：私有变量

一、私有变量的定义在Python中，有以下几种方式来定义变量： xx：公有变量_xx：单前置下划线，私有化属性或方法，类对象和子类可以访问，from somemodule import *禁止导入__xx：双前置下…

阅读更多...

掌握Python中列表生成式的五个原因

掌握Python中列表生成式的五个原因

1. 引言在Python中我们往往使用列表生成式来代替for循环，本文通过引入实际例子，来阐述这背后的原因。闲话少说，我们直接开始吧！ 2. 简洁性列表生成式允许我们在一行代码中创建一个列表并对其元素执行相应的操作&#xff0…

阅读更多...

（十五）大白话我们每一行的实际数据在磁盘上是如何存储的？

（十五）大白话我们每一行的实际数据在磁盘上是如何存储的？

文章目录 1、前情回顾2、真实数据是如何存储的？3、隐藏字段4、初步的把磁盘上的数据和内存里的数据给关联起来1、前情回顾之前我们已经给大家讲过了，一行数据在磁盘文件里存储的时候，包括如下几部分：首先会包含自己的变长字段的长度列表然后是NULL值列表接着是数据头然后…

阅读更多...

图的概念及存储结构

图的概念及存储结构

文章目录图的概念图(graph)有向图(directed graph)无向图(undirected graph)加权图(weighted graph)无向完全图(undirected complete graph)有向完全图(directed complete graph)子图(subgraph)稀疏图与稠密图度路径与回路连通图与连通分量强连通图与强连通分量生成树图的存储结…

阅读更多...

STM32H750自制开发板调试经验

STM32H750自制开发板调试经验

本篇只是一个记录，没啥可看的。 STM32H750硬件相关 STM32H750可以通过USB-OTG下载程序，也可以使用SWD进行调试，所以设计板子得时候将PA13和PA12预留出来即可，后续也可以用作usb虚拟串口（CDC）功能或者模拟…

阅读更多...

stm32f407VET6 系统学习 day08 利用adc 模数转换监控光敏电阻。

stm32f407VET6 系统学习 day08 利用adc 模数转换监控光敏电阻。

1. ADC 的知识 1.基本概念 ： Analog-to-Digital Converter的缩写。指模/数转换器或者模拟/数字转换器。是指将连续变量的模拟信号转换为离散的数字信号的器件。典型的模拟数字转换器将模拟信号转换为表示一定比例电压值的数字信号。 2.STM32F4x ADC特点 1. 可配…

阅读更多...

git操作

git操作

删除暂存区文件： git rm --cached 完整文件名 git rm --cached xxx.txt这个删，只是把暂存区里的文件删了，工作区里面的没有删把本地文件添加到暂存区 git add完整文件名例如：git add xxx.txt git add xxx.txt此时xxx.txt已经…

阅读更多...

推荐文章

最新文章