Coggle 30 Days of ML(23年7月)任务五:XGBoost训练与预测

news2024/9/22 21:23:18

Coggle 30 Days of ML(23年7月)任务五:XGBoost训练与预测

任务五:使用TFIDF特征和XGBoost完成训练和预测

  • 说明:在这个任务中,你需要使用TFIDF特征和XGBoost算法完成训练和预测,进一步提升文本分类的性能。
  • 实践步骤:
    1. 准备TFIDF特征矩阵和相应的标签。
    2. 划分训练集和测试集。
    3. 使用Sklearn中的XGBoost算法进行训练,并使用训练好的模型对测试集进行预测。
    4. 评估模型的性能,如准确率、精确率、召回率等指标。

对于这一部分来说,我们只需要换一下模型即可,从线性模型换成一个比较强大的XGBoost模型即可完成,所以主要在评估结果中

TFIDF提取特征

首先使用任务三中的方法先提取特征

tfidf = TfidfVectorizer(token_pattern=r'(?u)\b\w\w+\b', max_features=4000, ngram_range=(1, 2))
train_tfidf = tfidf.fit_transform(train_data['content'])
test_tfidf = tfidf.fit_transform(test_data['content'])

这样我们就一句得到了TFIDF的特征矩阵,接下来我们就可以进行下一步的训练和测试了

训练XGBoost

这里修改为训练XGBoost模型

model = xgb.XGBClassifier()
model.fit(train_tfidf, train_data['label'])

训练完以后,我们就得到了一个不错的XGB模型,接下来我们可以进行评估模型的性能

评估模型

首先我们可以计算一下准确率,从结果上来看,准确率很圆满为100%

predictions = model.predict(train_tfidf)
accuracy = accuracy_score(train_data['label'], predictions)
print("Accuracy:", accuracy)
Accuracy: 1.0

我们还计算了精确率和召回率的指标,均为100%

from sklearn.metrics import precision_score, recall_score

precision = precision_score(train_data['label'], predictions)
recall = recall_score(train_data['label'], predictions)
print("Precision:", precision)
print("Recall:", recall)
Precision: 1.0
Recall: 1.0

模型预测及提交

最后利用模型对测试集进行预测,得到结果文件

submit = pd.read_csv('ChatGPT/sample_submit.csv')
submit = submit.sort_values(by='name')

submit['label'] = model.predict(test_tfidf).astype(int)

submit.to_csv('ChatGPT/xgb.csv', index=None)

经过提交以后,最后的分数为0.8848,从结果上来看,还是存在一些过拟合的,还是需要对其进行一些调参以得到更好的结果,并且可能还是需要一个验证集来检测结果是否过拟合,减小过拟合应该可以得到不错的分数

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/735749.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Matlab数学建模实战——(Lokta-Volterra掠食者-猎物方程)

1.题目 问题1 该数学建模的第一问和第二问主要是用Matlab求解微分方程组,直接编程即可。 求解 Step1改写 y(1)ry(2)f Step2得y的导数 y(1).2y(1)-ay(1)*y(2)y(2).-y(2)a*y(1)*y(2) Step3编程 clear; a0.01; F(t,y)[2*y(1)-a*y(1)*y(2);-y(2)a*y(1)*y(2)]; […

【Mac】Mac 通过路径找到对应的文件夹

mac 的快捷键 复制文件夹或文件全路径 命令:command Option C 跳转文件夹或文件 命令:command shift G 其他待补充

hexo #02 基本操作

本篇主要步骤 1、创建博客 1、创建博客 使用 $ hexo new [layout] <title>命令创建一篇新的博客。 PS hexo> npx hexo new post "test" Debugger attached. Debugger attached. INFO Validating config INFO Created: D:\hexo\source\_posts\test.md Wa…

MySQL表单查询以及多表查询

1.单表查询 CREATE TABLE emp ( empno int(4) NOT NULL, ename varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL, job varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL, mgr int(4) NULL DEFAULT NULL, hi…

基于51单片机的羽毛球计分器设计

功能&#xff1a; 本实例是基于51单片机的羽毛球计分器&#xff0c;主要硬件由51单片机最小系统&#xff0c;LCD1602液晶屏电路&#xff0c;按键电路构成。 1.本设计选用LCD1602液晶屏作为显示器件&#xff0c;用于记录两队的分数。 2.按照设计的功能模块共选用8个按键&#xf…

【软件测试】Git查看commit的提交历史(详细)一点即通...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 查看提交历史 在提…

【MATLAB第53期】基于MATLAB的TSK模糊神经网络时间序列预测模型,含短期预测未来功能

【MATLAB第53期】基于MATLAB的TSK模糊神经网络时间序列预测模型&#xff0c;含短期预测未来功能 一、效果展示 二、数据设置 数据采用一列数据滑动窗口设置为5 &#xff0c;可自行设置70%训练30%测试预测未来值为10 &#xff0c;可自行设置&#xff0c;控制10以内 三、模型…

zabbix proxy的配置及zabbix实现高可用(监控 windows,java应用,SNMP等)

目录 zabbix proxy 分布式代理服务器部署zabbix proxy 代理服务器部署 Zabbix 高可用集群Zabbix 监控 Windows 系统Zabbix 监控 java 应用Zabbix 监控 SNMP zabbix proxy 分布式代理服务器 zabbix 分布式代理服务器&#xff0c;可以代替zabbix server 采集性能和可用性数据。z…

C++的范围for语句详解 附易错实例

&#x1f4af; 博客内容&#xff1a;C读取一行内个数不定的整数的方式 &#x1f600; 作  者&#xff1a;陈大大陈 &#x1f680; 个人简介&#xff1a;一个正在努力学技术的准前端&#xff0c;专注基础和实战分享 &#xff0c;欢迎私信&#xff01; &#x1f496; 欢迎大家&…

匿名管道的使用示例

目录 整体框架 通信步骤 创建管道 ​编辑创建子进程&关闭相应的fd ​编辑 进程间通信 父子进程通信之间四种场景 实现父亲读&#xff0c;孩子写的进程间通信 管道通信的使用场景样例实现 整体框架 通信步骤 创建管道 pipe的参数为输出型参数&#xff0c;返回读写端…

从小白到大神之路之学习运维第55天--------shell脚本实例应用

第三阶段基础 时 间&#xff1a;2023年7月7日 参加人&#xff1a;全班人员 内 容&#xff1a; shell实例 目录 shell脚本应用&#xff1a; 一、shell脚本 二、环境变量的基本使用 三、条件测试 shell脚本应用&#xff1a; 一、shell脚本 1、shell脚本的作用shell解…

MySql索引结构介绍

文章目录 1.索引概述2. 索引结构2.1 二叉树与红黑树索引结构2.2 B-Tree索引结构2.3 BTree介绍2.4 Hash索引介绍 1.索引概述 索引的概念 索引的演示 索引的优缺点 2. 索引结构 索引结构在不同的存储引擎中的支持情况&#xff0c;我们平时所说的索引&#xff0c;如果没有特殊的…

深度学习各类优化器大总结

一、优化算法设计原理 深度学习中的优化算法采用的原理是梯度下降法&#xff0c;即最小化目标函数 J ( θ ) J(\theta) J(θ)&#xff0c;最优化的求解过程&#xff0c;首先求解目标函数的梯度 ∇ J ( θ ) \nabla J(\theta) ∇J(θ)&#xff0c;然后将参数 θ \theta θ 向…

Java代码风格统一

Java代码风格统一 IDEA快捷键失效IDEA配置代码风格 IDEA快捷键失效 Ctr Shift F 这里是搜狗输入法影响的。 Ctr Shift L 这个是因为网易云的问题。 IDEA配置代码风格 统一代码风格是必须的&#xff0c;因为我们需要时不时的格式化代码&#xff0c; 如果每个人的开发风格…

程序员到公务员:从入门到上岸

有句话叫做&#xff0c;“打不过就加入”。尽管当下我们国家的体制还存在种种的问题&#xff0c;不过&#xff0c;大家还都是挤破脑袋想进体制。毕竟&#xff0c;某种程度上来说&#xff0c;体制内还真是香~ 我记得读大学那会&#xff0c;教我们C语言的老师&#xff0c;就和我…

Linus I/O之io_ring

由于调用系统调用时&#xff0c;会从用户态切换到内核态&#xff0c;从而进行上下文切换&#xff0c;而上下文切换会消耗一定的 CPU 时间。 io_uring 为了减少或者摒弃系统调用&#xff0c;采用了用户态与内核态 共享内存 的方式来通信。 第一步&#xff1a;应用程序通过向 io…

FreeRTOS ~(七)互斥量 ~ (2/3)互斥量解决优先级反转问题

前情提要 FreeRTOS ~&#xff08;四&#xff09;同步互斥与通信 ~ &#xff08;2/3&#xff09;互斥的缺陷 FreeRTOS ~&#xff08;五&#xff09;队列的常规使用 ~ &#xff08;2/5&#xff09;队列解决互斥缺陷 FreeRTOS ~&#xff08;六&#xff09;信号量 ~ &#xff08;2/…

openpnp - 用空调压缩机改真空泵

文章目录 openpnp - 用空调压缩机改真空泵概述笔记备注END openpnp - 用空调压缩机改真空泵 概述 原来设备用的真空泵是AP200C/V 这个商品标称是48DB的噪音, 实际用的时候, 噪音很大, 应该快70DB了, 放在屋子里很吵. 如果仅仅是太吵, 可能也忍了. 关键是这个真空泵有强干扰…

JS逆向之——天翼云登录

JS逆向之——天翼云登录 前言 此文章仅用于技术交流&#xff0c;欢迎指出相关问题&#xff0c;感兴趣的可以关注我&#xff0c;有相关python逆向问题可以私信交流讨论。 目标与目的 目标网站&#xff1a;天翼云登录 目的&#xff1a;通过构建登录参数&#xff0c;完成天翼…

Qt样式表Qss

文章目录 简介基本语法使用setStyleSheet设置样式表可以设置的属性使用QtCreator设置 简介 Qss是Qt程序界面中用来设置控件的背景图片、大小、字体颜色、字体类型、按钮状态变化等属性它是用来美化UI界面。实现界面和程序的分离&#xff0c;快速切换皮肤。 学习视频 基本语法…