pandas读取列数不同的CSV文件

news2024/12/26 9:29:22

使用pandas读取每行不同列的CSV文件

对于序列模型而言，每条数据的大小都不一定相等，但对于一般的神经网络要求输入大小相等。目前的一种方法是选取当前数据集中最大长度的数据作为基准数据大小，其余的数据末尾补零来规范整个数据集每条数据的大小。

本文重点关注小规模的CSV数据集，通过pandas读取每行不同列的CSV文件，最终生成神经网络可以使用的数据

PS: 本文仅具有一般性，对于特定的数据集，还需要具体问题具体分析！！

如图：

遍历train、test文件，获取最大列数据largest_colum

train_path = 'train.csv'
test_path = 'test.csv'
largest_colum = 0  # 数据集中最大的列数
with open(train_path, 'r') as f:  # 遍历train.csv, 获取训练集中的最大列数
    datas = f.readlines()
    for i, l in enumerate(datas):
        largest_colum = largest_colum if largest_colum > len(l.split(',')) + 1 else len(l.split(',')) + 1

with open(test_path, 'r') as f:  # 编列test.csv, 获取测试集中的最大列数
    datas = f.readlines()
    for i, l in enumerate(datas):
        largest_colum = largest_colum if largest_colum > len(l.split(',')) + 1 else len(l.split(',')) + 1

抛弃原有csv的列索引，使用largest_colum作为索引读取csv文件

col_name = [i for i in range(largest_colum)]  # 生成CSV数据每一列的索引
train_data = pd.read_csv(train_path, header=None, sep=',', names=col_name,  engin='python')
train_data = pd.read_csv(test_path, header=None, sep=',', names=col_name,  engin='python')

读出后数据为：

将末尾不够长的数据填充为0（不一定必须是0，要与数据集中原有数据区分开）
```
train_data = train_data.fillna(-1)
test_data = test_data.fillna(-1)
```

将pandas矩阵转化为torch tensor

train_features = torch.tensor(train_data, dtype=torch.float32)
test_features = torch.tensor(test_data, dtype=torch.float32)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/439937.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

pandas读取列数不同的CSV文件

使用pandas读取每行不同列的CSV文件

相关文章

计算机：理解操作系统：内存篇（下）

css tooltip (web.dev)

【周末闲谈】AI作图，你真的了解它吗？

[C++]：万字超详细讲解多态以及多态的实现原理（面试的必考的c++考点）

【Linux】使用systemd设置开机自启动命令

【基础】Kafka -- 基础架构及核心概念

MySQL 按关键字进行截取

GORM操作mysql数据库

HTTP中的Content-type详解

关于java.io的学习记录（写入文本）

【是C++，不是C艹】什么是C++ | C++从哪来 | 学习建议

文件夹改名，如何在改名之后批量复制文件夹名称

SpringBoot 接入chatGPT API

第十四天本地锁、Redis分布锁、Redisson锁三者的区别

产品研发流程管理

高精度人员定位系统源码，采用vue+spring boot框架，支持二次开发

【Python】实战：生成无关联单选问卷 csv《精神状态评估表》

使用pandas和seaborn绘图

【远程开发】VSCode使用Remote SSH远程连接Linux服务器

【Unity】创建一个自己的可交互AR安卓程序