AI夏令营第三期 - 基于论文摘要的文本分类与关键词抽取挑战赛笔记

news2024/11/16 5:43:58

赛题:基于论文摘要的文本分类与关键词抽取
背景:高效的从海量医学文献中提取疾病诊断和治疗关键信息
任务:通过论文摘要判断论文是否为医学文献 样例
数据集:csv文件,字段:标题、作者、摘要、关键词
评价指标:F1_score
解题思路:文本分类任务
思路一:特征提取+机器学习
数据预处理->特征提取->构建训练集和测试集->模型训练和评估->调参优化
数据预处理: 文本清洗(去除特殊字符、标点符号)
分词
NLP工具包(NLTK\spaCy)
特征提取: 文本转换为向量表示
TF-IDF(词频-逆文档频率):计算文本中词语的重要性
BOW(词袋模型):统计词语在文本中的出现次数
使用scikit-learn库的TfidfVectorizer或CountVectorizer来实现
构建训练集和测试集:分割预处理后的数据
模型训练和评估:训练集训练模型,测试集评估结果
调参优化:调整参数
机器学习baseline:
LogisticRegression模型
实则为一个线性分类器,通过 Logistic 函数(或
Sigmoid 函数),将数据特征映射到0~1区间的一个概率值(样本属于正例的可能性),通过与 0.5 的比对得出数据所属的分类(二分类)。逻辑回归的数学表达式为:

使用 sklearn.linear_model.LogisticRegression 来调用已实现的逻辑回归模型

								Pandas:Python 语言的一个扩展程序库,用于数

据分析,基础是Numpy
scikit-learn:内部封装了多种机器学习算法与数据处理算法,提供了包括数据清洗、数据预处理、建模调参、数据验证、数据可视化的全流程功能

特征提取:
即从训练数据的特征集合中创建新的特征子集的过程。
提取出来的特征子集特征数一般少于等于原特征数,但能够更好地表征训练数据的情况,使用提取出的特征子集能够取得更好的预测效果。
训练数据的每一个维度称为一个特征
可以使用 sklearn 库中的 feature_extraction 包来实现文本与图片的特征提取。
在 NLP 任务中,特征提取一般需要将自然语言文本转化为数值向量表示,常见的方法包括基于 TF-IDF(词频-逆文档频率)提取或基于 BOW(词袋模型)提取

TF-IDF(term frequency–inverse document frequency):一种用于信息检索与数据挖掘的常用加权技术
TF 指 term frequence,即词频,指某个词在文章中出现次数与文章总词数的比值
IDF 指 inverse document frequence,即逆文档频率,指包含某个词的文档数占语料库总文档数的比例的倒数。
每个词最终的 IF-IDF 即为 TF 值乘以 IDF 值。计算出每个词的 TF-IDF 值后,使用 TF-IDF 计算得到的数值向量替代原文本即可实现基于 TF-IDF 的文本特征提取。
使用sklearn.feature_extraction.text 中的 TfidfVectorizer 类来简单实现文档基于 TF-IDF 的特征提取

BOW(Bag of Words)是一种常用的文本表示方法,其基本思想是假定对于一个文本,忽略其词序和语法、句法,仅仅将其看做是一些词汇的集合,而文本中的每个词汇都是独立的。
使用 sklearn.feature_extraction.text 中的 CountVectorizer 类来简单实现文档基于频数统计的 BOW 特征提取

停用词(Stop Words)是自然语言处理领域的一个重要工具,通常被用来提升文本特征的质量,或者降低文本特征的维度。
忽略一些不能提供有价值的信息作用的词语

划分数据集:训练集、验证集、预测集
同分布采样划分训练集和验证集
交叉验证,即对于一个样本总量为 T 的数据集,我们一般随机采样 10%~20%(也就是 0.1T~0.2T 的样本数)作为验证集,而取其他的数据为训练集。
使用 sklearn.model_selection 中的 train_test_split 函数便捷实现数据集的划分

选择机器学习模型:

  • sklearn.linear_model:线性模型,如线性回归、逻辑回归、岭回归等
  • sklearn.tree:树模型,一般为决策树
  • sklearn.neighbors:最近邻模型,常见如 K 近邻算法
  • sklearn.svm:支持向量机
  • sklearn.ensemble:集成模型,如 AdaBoost、GBDT等
    先实例化一个模型对象,再使用 fit 函数拟合训练数据,最后使用 predict 函数预测测试数据

数据探索:
使用pandas读取数据
利用pd.read_csv()方法对赛题数据进行读取,读取后返回一个DataFrame 数据

数据清洗:
数据和特征决定了机器学习的上限
数据清洗的作用是利用有关技术如数理统计、数据
挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。主要包括缺失值处理、异常值处理、数据分桶、特征归一化/标准化等流程。
由于表格中存在较多列,我们将这些列的重要内容组合在一起生成一个新的列方便训练
如果数据集中某行缺少title author abstract中的内容,我们需要利用fillna()来保证不会出现报错。

特征工程:
把原始数据转变为模型训练数据的过程,目的是获取更好的训练数据特征。比如BOW

模型训练与验证:
模型的选择决定结果的上限, 如何更好的去达到模型上限取决于模型的调参。

结果输出:
输出格式结果

改进1:使用TF-IDF,提高到0.76324

from sklearn.feature_extraction.text import TfidfVectorizer

vector = TfidfVectorizer().fit(train['text'])

改进2:添加停用词,下降到0.75911

stops =[i.strip() for i in open(r'stop.txt',encoding='utf-8').readlines()] 

改进3:去掉author,更换模型RidgeClassifier()下降到0.73032

train['text'] = train['title'].fillna('') + ' ' + train['abstract'].fillna('')+ ' ' + train['Keywords'].fillna('')
test['text'] = test['title'].fillna('') + ' ' + test['abstract'].fillna('')
model = RidgeClassifier()

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/909072.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uniapp 引入海康H5player实现视频监控的播放

uniapp直接调用海康H5player方法,只能在web浏览器页面正常播放,实机运行会因为找不到文件的相对路径而报错无法播放。因此需要通过web-view或iframe引入html的方式来实现实时视频监控的播放。具体步骤如下: 1、首先将海康h5player的相关文件…

服装定制小程序的秘诀

随着互联网的快速发展,越来越多的企业开始关注互联网商业模式的创新。其中,定制化服务成为了各行各业的关注焦点之一。尤其是在服装行业,定制化服装已经成为许多消费者的追求。而面对这一市场需求,如何创造成功的互联网新商业模式…

https非对称加密算法

非对称加密算法原理 在客户端公开公钥,服务端保存私钥 1.客户端第一次请求先请求443端口,从443端口下载公钥。 2.客户端将数据进行公钥算法进行加密,将秘文发送到服务端 服务端收到秘文后,通过私钥算法进行解密得到明文数据。…

【STM32】开发方式:寄存器、CMSIS、SPL、HAL、LL、RTOS

阅读本专栏其他文章,有助于理解本文。 文章目录 一、开发库选择1.1 概述1.2 CMSIS库1.3 SPL库1.4 HAL 库1.5 LL库1.6 寄存器开发 二、代码对比2.1 使用寄存器2.2 使用CMSIS库2.3 使用SPL库2.4 使用HAL库2.5 使用LL库2.6 使用RTOS 三、软件配置 一、开发库选择 1.1 …

【linux】使用rpm下载mysql

1/ 2/ 3/ 4/ 5/ 6/ 7/ 8/ 9/ 10/ 11/ 12/ 13/

JDBC回顾

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 JDBC回顾 前言一、JDBC1.JDBC是什么?2.如何使用?(1)注册驱动(2)获取连接(3)操作…

二叉树题目:二叉树的层序遍历

文章目录 题目标题和出处难度题目描述要求示例数据范围 解法思路和算法代码复杂度分析 题目 标题和出处 标题:二叉树的层序遍历 出处:102. 二叉树的层序遍历 难度 4 级 题目描述 要求 给你二叉树的根结点 root \texttt{root} root,返…

c++ day1

作业: 1.整理思维导图 2.定义一个命名空间Myspace,包含以下函数:将一个字符串中的所有单词进行反转,并输出反转后的结果。例如,输入字符串 为"Hello World",输出结果为"olleH dlroW",并…

python:pyqt5 + cef 模仿 mdict 界面

PyQt5 安装参见:python:PyQt5 简单示例 cefpython 入门 参考: Python GUI: cefpython3的简单分析和应用 pip install cefpython3 cefpython3-66.1-py2.py3-none-win_amd64.whl (69.0 MB) Successfully installed cefpython3-66.1 cd \Python37\Lib\si…

prometheus blackbox_exporter安装

目录 一、准备工作1.1 安装或关闭以下服务1.2 本次安装环境 二、安装blackbox_exporter2.1 下载并解压2.2配置2.3测试 三、配置blackbox_exporter3.1配置blackbox.yml3.2 开启blackbox_exporter3.3配置prometheus.yml 四、其他4.1server returned HTTP status 400 Bad Request …

Docker 存储驱动解析:选择最适合你的存储方案

🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 &a…

分类预测 | MATLAB实现NGO-DBN北方苍鹰优化深度置信网络多特征输入分类预测

分类预测 | MATLAB实现NGO-DBN北方苍鹰优化深度置信网络多特征输入分类预测 目录 分类预测 | MATLAB实现NGO-DBN北方苍鹰优化深度置信网络多特征输入分类预测效果一览基本介绍模型描述程序设计参考资料 效果一览 基本介绍 MATLAB实现NGO-DBN北方苍鹰优化深度置信网络多特征输入…

【QT】重写QAbstractLIstModel,使用ListView来显示多列数据

qt提供了几个视图来进行信息的列表显示,QListView可以用来显示继承QStractListModel的字符串列表中的字符串,默认的模型里面只包含一列的内容: 这里以qml为例子,先新建一个qml的项目,示例代码如下: 先创建一…

查看所有数据库各表容量大小

查看所有数据库各表容量大小 1. 查看所有数据库各表容量大小2.查看指定数据库容量大小3. 查看所有数据库容量大小 1. 查看所有数据库各表容量大小 select table_schema as 数据库, table_name as 表名, table_rows as 记录数, truncate(data_length/1024/1024, 2) as 数据容量…

Redis 持久化的手段有哪些 ?RDB 和 AOF 有什么区别 ?

目录 1. Redis 持久化的手段有哪些 2. RDB 和 AOF 有什么区别 2.1 RDB 持久化 2.2 AOF 持久化 2.2.1 AOF 持久化策略有哪些 3. 混合持久化是如何执行的(了解) 1. Redis 持久化的手段有哪些 Redis 持久化的手段有三种: 快照方式&#…

模型预测笔记(二):结合SMOTE来进行数据不均衡处理实操

文章目录 数据不均衡危害如何解决SMOTE原理代码效果 数据不均衡危害 在模型预测中,数据不均衡是指不同类别的样本数量差异很大。这种情况可能会对模型的性能和结果产生一些危害: 偏斜的预测结果:由于某些类别的样本数量较少,模型…

Rides分布式缓存

分布式缓存 -- 基于Redis集群解决单机Redis存在的问题 单机的Redis存在四大问题: 1.Redis持久化 Redis有两种持久化方案: RDB持久化 AOF持久化 1.1.RDB持久化 RDB全称Redis Database Backup file(Redis数据备份文件)&#x…

从Web 2.0到Web 3.0,互联网有哪些变革?

文章目录 Web 2.0时代:用户参与和社交互动Web 3.0时代:语义化和智能化影响和展望 🎉欢迎来到Java学习路线专栏~从Web 2.0到Web 3.0,互联网有哪些变革? ☆* o(≧▽≦)o *☆嗨~我是IT陈寒🍹✨博客主页&#x…

Docker容器与虚拟化技术:容器运行时说明与比较

目录 一、理论 1.容器运行时 2.容器运行时接口 3.容器运行时层级 4.容器运行时比较 5.强隔离容器 二、问题 1.K8S为何难以实现真正的多租户 三、总结 一、理论 1.容器运行时 (1)概念 Container Runtime 是运行于 k8s 集群每个节点中&#xff…

基于51单片机的八路抢答器Protues仿真设计

目录 一、设计背景 二、实现功能 三、仿真演示 四、源程序(部分) 一、设计背景 近年来随着科技的飞速发展,单片机的应用正在不断的走向深入。本文阐述了基于51单片机的八路抢答器设计。本设计中,51单片机充当了核心控制器的角…