统计数据集句子长度信息

news2026/2/13 2:37:11

在文本分类任务做科研写论文的时候，我们有时候需要对对数据集的大小进行分析，如果你想统计CSV文件中某一列英语句子的单词个数（不包含标题），可以使用Python的split()函数将句子拆分为单词，并计算单词的个数，具体实现代码和结果分析如下。

一、Python实现

二、测试结果

一、Python实现

import csv

# 读取CSV文件
filename = 'your_file.csv'  # 请替换成你的CSV文件路径
with open(filename, 'r', newline='', encoding='utf-8') as csvfile:
    reader = csv.reader(csvfile)
    next(reader)  # 跳过标题行
    word_counts = [len(row[1].split()) for row in reader]  # 假设你想要获取第二列句子的单词个数

# 统计单词个数
total_sentences = len(word_counts)
average_words = sum(word_counts) / total_sentences

# 打印结果
print("句子总数:", total_sentences)
print("平均单词数:", average_words)

二、测试结果

下面对一个英文句子长度统计，按照上述方法

print(len('watching and loving the Thunderbirds.'.split()))

输出结果：5 ，是正确的

同时我用上述方法统计GLUE等相关数据集的训练集和测试集平均长度结果如下：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1367997.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

统计数据集句子长度信息

一、Python实现

二、测试结果

相关文章

【EasyExcel】导出excel冻结表头和冻结指定列并支持筛选器

歌词滚动显示

Redis基本原理和基础知识

test fuzz-02-模糊测试 JQF + Zest Semantic Fuzzing for Java

软件概要设计（word）原件

Linux ls命令

跨平台的文件传输协议@windows端服务器的配置@smb协议共享方案@ftp服务器设置

VS2022 | 调整适配虚幻5的设置

小米4A千兆版路由器刷入OpenWRT教程结合内网穿透远程访问

数组中元素的插入和查找算法探究

vulhub中的Apache HTTPD 换行解析漏洞（CVE-2017-15715）详解

16-20.Python语言进阶

Github 2024-01-09Python开源项目日报 Top10

Unity 编辑器篇|（二）GenericMenu自定义弹出式菜单

Django配置日志系统的最佳实践

苹果快捷指令在哪？详细使用教程送给大家！

虚拟机Linux硬盘扩容

前端八股文（网络篇）一

【数据结构】数据结构中应用题大全（完结）

与AI合作 -- 写一个modern c++单例工厂