Paddle上手实战——NLP经典cls任务“推特文本情感13分类”

news2025/1/11 20:40:09

Paddle上手实战——NLP经典cls任务“推特文本情感13分类”

实战背景介绍

数据地址:https://www.heywhale.com/home/activity/detail/611cbe90ba12a0001753d1e9/content

Twitter推文具备多重特性,首要之处在于其与Facebook的显著区别——其完全基于文本形式,通过Twitter接口可轻松注册并下载,从而便于作为自然语言处理研究所需的语料库。此外,Twitter明确规定了每篇推文的长度上限为140个字符,实际推文的长短各异,但普遍偏短,部分推文甚至仅包含一个句子或短语,这增加了对其进行情感分类标注的复杂性和挑战性。再者,推文往往具有即兴性,内容中富含情感元素,口语化表达较为普遍,缩写和网络用语频繁出现,情绪符号、新词和俚语亦屡见不鲜,这使得其与正式文本存在显著区别。因此,若采用适用于正式文本的情感分类方法对Twitter推文进行情感分析,其效果往往不尽如人意。

公众情感在多个领域,如电影评论、消费者信心、政治选举以及股票走势预测等,正日益展现出其重要的影响力。针对公共媒体内容进行情感分析,已成为分析公众情感的一项基础性任务,其重要性不言而喻。

img

准备数据集

数据集基于推特用户发表的推文数据集,并且针对部分字段做出了一定的调整,所有的字段信息请以本练习赛提供的字段信息为准
字段信息内容参考如下:

  1. tweet_id string 推文数据的唯一ID,比如test_0,train_1024
  2. content string 推特内容
  3. label int 推特情感的类别,共13种情感

其中训练集train.csv包含3w条数据,字段包括tweet_id,content,label;测试集test.csv包含1w条数据,字段包括tweet_id,content。

tweet_id,content,label
tweet_1,Layin n bed with a headache  ughhhh...waitin on your call...,1
tweet_2,Funeral ceremony...gloomy friday...,1
tweet_3,wants to hang out with friends SOON!,2
tweet_4,"@dannycastillo We want to trade with someone who has Houston tickets, but no one will.",3
tweet_5,"I should be sleep, but im not! thinking about an old friend who I want. but he's married now. damn, & he wants me 2! scandalous!",1
tweet_6,Hmmm. 
http://www.djhero.com/ is down,4
tweet_7,@charviray Charlene my love. I miss you,1
tweet_8,cant fall asleep,3

加载数据集

加载数据集

在数据分析和机器学习的项目中,加载数据集是至关重要的一步。数据集的质量、格式和完整性直接影响到后续的分析和模型训练的效果。在本章节中,我们将详细讨论如何加载数据集,并对其进行初步的处理和检查。

一、数据集来源与选择

首先,我们需要明确数据集的来源。数据集可以来自公开的数据仓库、研究机构、商业平台或者通过爬虫等方式自行获取。在选择数据集时,需要考虑数据集的可靠性、时效性、相关性和规模。对于Twitter推文这样的文本数据,我们可能需要从Twitter API或者相关的第三方数据源获取。

二、数据加载方式

数据加载的方式取决于数据的存储格式和所使用的编程环境。对于文本数据,常见的存储格式包括CSV、JSON、TXT等。在Python环境中,我们可以使用pandas库来加载这些数据。

例如,对于CSV格式的数据,可以使用以下代码加载:

import pandas as pd  
  
# 假设数据集名为'tweets.csv'  
data = pd.read_csv('tweets.csv')

对于JSON格式的数据,可以使用:

import pandas as pd  
  
# 假设数据集名为'tweets.json'  
data = pd.read_json('tweets.json')

如果数据存储在数据库中,则需要使用相应的数据库连接和查询语句来加载数据。

三、数据初步处理

加载数据后,通常需要进行一些初步的处理,包括数据清洗、缺失值处理、异常值处理等。对于Twitter推文数据,可能需要去除无关字符、标点符号、停用词等,并进行文本编码转换。

例如,我们可以使用正则表达式来去除推文中的URL和特殊字符:

import re  
  
# 定义一个函数来清洗推文  
def clean_tweet(tweet):  
    tweet = re.sub(r'http\S+', '', tweet)  # 去除URL  
    tweet = re.sub(r'[^\w\s]', '', tweet)  # 去除特殊字符  
    return tweet  
  
# 应用清洗函数到数据集中的每一行  
data['clean_tweet'] = data['tweet'].apply(clean_tweet)

四、数据检查

加载并初步处理数据后,我们需要对数据进行检查,以确保数据的完整性和准确性。这包括检查数据的行数和列数、检查是否有缺失值、检查数据的分布情况等。

# 检查数据集的形状(行数和列数)  
print(data.shape)  
  
# 检查缺失值  
print(data.isnull().sum())  
  
# 查看数据分布(例如,查看某个字段的唯一值数量)  
print(data['column_name'].nunique())

通过这些检查,我们可以对数据的整体情况有一个大致的了解,并为后续的分析和建模工作做好准备。

综上所述,加载数据集是数据分析和机器学习项目中的关键步骤。通过选择合适的数据源、使用适当的加载方式、进行初步的数据处理和检查,我们可以确保数据的质量和可用性,为后续的工作奠定坚实的基础。

本数据集实战代码

tweet_id content label
0 tweet_0 @tiffanylue i know i was listenin to bad habi... 0
1 tweet_1 Layin n bed with a headache ughhhh...waitin o... 1
2 tweet_2 Funeral ceremony...gloomy friday... 1
3 tweet_3 wants to hang out with friends SOON! 2
4 tweet_4 @dannycastillo We want to trade with someone w... 3
def read(pd_data):
    for index, item in pd_data.iterrows():       
        yield {
   'text': item['content'], 'label': item['label'], 'qid': item['tweet_id'].strip('tweet_')}
# 分割训练集、测试机
from paddle.io import Dataset, Subset
from paddlenlp.datasets import MapDataset
from paddlenlp.datasets import load_dataset

dataset = load_dataset(read, pd_data=train,lazy=False)
dev_ds = Subset(dataset=dataset, indices=[i for i in range(len(dataset)) if i % 5 == 1])
train_ds = Subset(dataset=dataset, indices=[i for i in range(len(dataset)) if i % 5 != 1])
for i in range(5):
    print(train_ds[i])
# 在转换为MapDataset类型
train_ds = MapDataset(train_ds)
dev_ds = MapDataset(dev_ds)
print(len(train_ds))
print(len(de

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1499009.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用 Logstash 丰富你的 Elasticsearch 文档

作者:来自 Elastic David Pilato 我们在上一篇文章中看到,我们可以使用摄取管道中的 Elasticsearch Enrich Processor 在 Elasticsearch 中进行数据丰富。 但有时,你需要执行更复杂的任务,或者你的数据源不是 Elasticsearch&#…

Android14音频进阶:AIDL数据转换关键图解(五十九)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒体系统工程师系列【原创干货持续更新中……】🚀 人生格言: 人生从来没有捷径,只…

光线追踪12 - Defocus Blur(虚焦模糊)

现在我们的最后一个特性是虚化模糊。注意,摄影师通常称之为景深,所以请确保在光线追踪的朋友中只使用虚化模糊这个术语。 真实相机具有虚化模糊是因为它们需要一个大孔(而不仅仅是针孔)来收集光线。一个大孔会导致所有物体失去焦点…

[HackMyVM]Quick 2

kali:192.168.56.104 主机发现 arp-scan -l # arp-scan -l Interface: eth0, type: EN10MB, MAC: 00:0c:29:d2:e0:49, IPv4: 192.168.56.104 Starting arp-scan 1.10.0 with 256 hosts (https://github.com/royhills/arp-scan) 192.168.56.1 0a:00:27:00:00:05 (Un…

MySQl基础入门⑥

上一章知识内容 1.数据类型的属性 2.MySql的约束 mysql的约束时指对数据表中数据的一种约束行为,约束主要完成对数据的检验,如果有互相依赖数据,保证该数据不被删除。它能够帮助数据库管理员更好地管理数据库,并且能够确保数据库…

算法打卡day11|栈与队列篇03|Leetcode 239. 滑动窗口最大值、347.前 K 个高频元素

小顶堆和大顶堆 小顶堆(Min Heap)和大顶堆(Max Heap)是两种特殊的完全二叉树,它们遵循特定的堆属性,即父节点的值总是小于或等于(小顶堆)或者大于或等于(大顶堆&#xf…

微信小程序开发系列(二十二)·wxml语法·双向数据绑定model:的用法

目录 1. 单向数据绑定 2. 双向数据绑定 3. 代码 在 WXML 中&#xff0c;普通属性的绑定是单向的&#xff0c;例如&#xff1a;<input value"((value))"/> 如果希望用户输入数据的同时改变 data 中的数据&#xff0c;可以借助简易双向绑定机制。在对应属性…

文心一言 VS 讯飞星火 VS chatgpt (210)-- 算法导论16.1 1题

一、根据递归式(16.2)为活动选择问题设计一个动态规划算法。算法应该按前文定义计算最大兼容活动集的大小 c[i,j]并生成最大集本身。假定输入的活动已按公式(16.1)排好序。比较你的算法和GREEDY-ACTIVITY-SELECTOR的运行时间。如何要写代码&#xff0c;请用go语言。 文心一言&…

阿里云和腾讯云区别价格表,云服务器费用对比2024年最新

2024年阿里云服务器和腾讯云服务器价格战已经打响&#xff0c;阿里云服务器优惠61元一年起&#xff0c;腾讯云服务器61元一年&#xff0c;2核2G3M、2核4G、4核8G、4核16G、8核16G、16核32G、16核64G等配置价格对比&#xff0c;阿腾云atengyun.com整理阿里云和腾讯云服务器详细配…

利用tree命令自动保存文件层级结构

tree命令的使用 为了将上图左侧的文件目录&#xff0c;生成上图右侧中的文件夹结构列表&#xff0c;保存在txt中&#xff0c;使用了如下cmd命令&#xff1a; C:\armadillo-12.8.0>tree .>list.txt以上tree命令分为3部分&#xff1a; tree 命令. 在当前目录>list.tx…

ChatGPT:人工智能的革命与未来

引言 随着人工智能技术的飞速发展&#xff0c;ChatGPT作为OpenAI推出的一款语言模型&#xff0c;已经引起了广泛的关注和讨论。它不仅改变了我们与机器交流的方式&#xff0c;还为众多行业的发展带来了革命性的影响。本文将深入探讨ChatGPT的技术原理、应用场景以及它对未来的…

一些硬件知识(六)

防反接设计&#xff1a; 同步电路和异步电路的区别: 同步电路:存储电路中所有触发器的时钟输入端都接同一个时钟脉冲源&#xff0c;因而所有触发器的状态的变化都与所加的时钟脉冲信号同步。 异步电路:电路没有统一的时钟&#xff0c;有些触发器的时钟输入端与时钟脉冲源相连…

【HarmonyOS】ArkTS-箭头函数

箭头函数 箭头函数是 比普通函数 更简洁 的一种函数写法 () > {}() > {// 函数体 }let 函数名 () > {// 函数体 }let 函数名 () > {// 函数体 } 函数名(实参1, 实参2)let 函数名 (形参1: 类型, 形参2: 类型) > {// 函数体 } 函数名(实参1, 实参2)let 函数名 …

【嵌入式】嵌入式系统稳定性建设:静态代码扫描的稳定性提升术

1. 概述 在嵌入式系统开发过程中&#xff0c;代码的稳定性和可靠性至关重要。静态代码扫描工具作为一种自动化的代码质量检查手段&#xff0c;能够帮助开发者在编译前发现潜在的缺陷和错误&#xff0c;从而增强系统的稳定性。本文将介绍如何在嵌入式C/C开发中使用静态代码扫描…

嵌入式学习第二十五天!(网络的概念、UDP编程)

网络&#xff1a; 可以用来&#xff1a;数据传输、数据共享 1. 网络协议模型&#xff1a; 1. OSI协议模型&#xff1a; 应用层实际收发的数据表示层发送的数据是否加密会话层是否建立会话连接传输层数据传输的方式&#xff08;数据包&#xff0c;流式&#xff09;网络层数据的…

Day22:安全开发-PHP应用留言板功能超全局变量数据库操作第三方插件引用

目录 开发环境 数据导入-mysql架构&库表列 数据库操作-mysqli函数&增删改查 数据接收输出-html混编&超全局变量 第三方插件引用-js传参&函数对象调用 完整源码 思维导图 PHP知识点&#xff1a; 功能&#xff1a;新闻列表&#xff0c;会员中心&#xff0…

Python爬虫——scrapy-3

目录 免责声明 任务 文件简介 爬取当当网内容单管道 pipelines.py items.py setting dang.py 当当网多管道下载图片 pipelines.py settings 当当网多页下载 dang.py pielines.py settings items.py 总结 免责声明 该文章用于学习&#xff0c;无任何商业用途 …

深度学习-2.3损失函数

文章目录 损失函数深度学习优化思想回归&#xff1a;误差平方和SSE二分类交叉熵损失函数1. 极大似然函数估计求解二分类交叉熵函数2.用tensor实现二分类交叉熵损失 多分类交叉熵损失函数1.由二分类推广到多分类2.用PyTorch实现多分类交叉熵损失 损失函数 在之前的文章中&#…

OpenAI劲敌吹新风! Claude 3正式发布,Claude3使用指南

Claude 3是什么&#xff1f; 是Anthropic 实验室近期推出的 Claude 3 大规模语言模型&#xff08;Large Language Model&#xff0c;LLM&#xff09;系列&#xff0c;代表了人工智能技术的一个显著飞跃。 该系列包括三个不同定位的子模型&#xff1a;Claude 3 Haiku、Claude 3…

Chapter20-Ideal gases-CIE课本要点摘录、总结(编辑中)

20.1 Particles of a gas Brownian motion Fast modules 速率的数值大概了解下&#xff1a; average speed of the molecules:400m/s speed of sound:approximately 330m/s at STP&#xff08;standard temperature and pressure&#xff09; Standard Temperature and Pres…