pandas 处大 csv 文件:chunk

news2024/10/6 1:35:14

用 pandas 读取 csv 的常见方法:

import pandas as pd

df = pd.read_csv("your_csv_file.csv")

但对于大型的 csv 文件,直接读取可能会报错 numpy.core._exceptions._ArrayMemoryError

我的机器是 24G 内存,直接读大概只允许单个最大 4G 左右的 csv 文件;

而且 pandas 处理比较慢,看到内存一点点慢慢涨上去,到大概 97% 的时候就报错退出了;

用 chunk 分板块读取 csv 文件:

import pandas as pd
import random
import os

# 统计指定文件夹下的所有csv文件
csv_path = './your_dir_here/'
all_csv = []
for file in os.listdir(csv_path):
    if file.endswith(".csv"):
        all_csv.append(file)
all_csv.reverse()

for csv in all_csv:
    # 一块块读取大csv文件,随机采样50%并输出到新csv文件
    output_file = csv + '_50sampled.csv'

    # 打开输入文件和输出文件
    with open(csv, 'r') as infile, open(output_file, 'w') as outfile:
        header = next(infile)  # 读取CSV文件的头部
        outfile.write(header)  # 写入输出文件的头部

        chunk_size = 10000  # 设置每次读取的行数,根据内存状况定
        for chunk in pd.read_csv(infile, chunksize=chunk_size):
            sampled_chunk = chunk.sample(frac=0.5)  # 随机采样50%的行
            sampled_chunk.to_csv(outfile, index=False, header=False, mode='a')  # 追加到输出文件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1076672.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

交通物流模型 | MDRGCN:用于多模式交通客流预测的深度学习模型

城市交通拥堵是造成交通事故的重要原因,也是城市发展的主要障碍。通过学习历史交通流数据,我们可以预测未来一些区域的交通流,这对城市道路规划、交通管理、交通控制等都有重要意义。然而,由于交通网络拓扑结构的复杂性和影响交通流的因素的多样性,交通模式往往是复杂多变…

ASUS华硕ZenBook灵耀X逍遥UXF3000E_UX363EA原装出厂预装Win11系统工厂模式安装包

下载链接:https://pan.baidu.com/s/1WLPp0e5AZErtX3bJIhTZMg?pwd2j7i 带有ASUS Recovery恢复功能、自带所有驱动、出厂主题壁纸、Office办公软件、MyASUS华硕电脑管家等预装程序 所需要工具:16G或以上的U盘(非必需) 文件格式:HDI,SWP,OFS,E…

docker安装运行环境相关的容器

docker安装常用软件步骤 docker安装Tomcat:latest 2023-10-09 1)搜索镜像 以Tomcat为例子,先去官网仓库搜索https://hub.docker.com/search?qtomcat 或者直接命令查询 docker search tomcat2)拉取镜像 docker pull tomcat3&#xff09…

室内渲染的艺术:创造理想空间的视觉魔法!

在繁忙的生活中,我们常常渴望拥有一个属于自己的安静空间。这个空间可以是一间温馨的卧室,也可以是一间舒适的客厅,甚至可以是一个小小的书房。而这个空间的营造,离不开室内渲染。 室内渲染是一种艺术,它用色彩、光线…

postgres数据迁移

1.在原数据库:pg_dump -h 【ip】-p 端口 -U 用户 -d 数据库名称> 文件名 pg_dump -h localhost -p 5432 -U postgres -d confluence> confluence.bak2.目标数据库一定要保证是新建的数据库。将文件拷贝到目标数据库所在的服务器:psql -U 用户名 -…

SRC实战-cookie注入漏洞

目录 谷歌语法-信息收集 cookie注入 实战演示 信息收集 SQL注入判断 查找字段数 爆破表名 输出结果 总结 本文由掌控安全学院 - 小博 投稿 谷歌语法-信息收集 1.查找带有ID传参的网站(可以查找sql注入漏洞) inurl:asp idxx 2.查找网站后台&…

xshell安装完成在windows不能打开

文章目录 问题描述问题排查解决第一步第二步 问题描述 安装打开xshell的时候总是点击没有任何的反应,重启电脑后再次点击xshell也没有任何的响应。只有在重装软件后才能正常打开。 问题排查 点击打开xshell7的时候总是报如下错 在这里能看到具体的描述&#xff…

【运维笔记】Docker 部署Kibana-7.4.0(在线Docker版)

Docker 部署Kibana-7.4.0(在线Docker版) 一、准备工作: Centos 7.5 安装 Docker-24.0.6 详细步骤(避坑版): https://blog.csdn.net/seesun2012/article/details/133674191注意1:本文的命令使用…

【SpringMVC篇】详解SpringMVC入门案例

🎊专栏【SpringMVC】 🍔喜欢的诗句:天行健,君子以自强不息。 🎆音乐分享【如愿】 🎄欢迎并且感谢大家指出小吉的问题🥰 文章目录 🎍SpringMVC简介⭐优点 🌺SpringMVC入门…

SpringBoot整合Jaspty数据库密码加密

1.application.yml配置 2.利用jaspty工具类将数据库密码明文加密 /*** 明文加密*/public static String encrypt(String str,String pwd) {BasicTextEncryptor basicTextEncryptor new BasicTextEncryptor();basicTextEncryptor.setPassword(pwd);String ciphertext basicTe…

京东代码规范与解决图片底部空白缝隙问题

解决图片底端默认空白缝隙问题 给图片加边框,因为图片和文字底线对齐故会留出空白的部分 解决 :给图片vertical-align: middle; 块级元素独占一行 解决2:给图片转换成块级元素,防止其机械的对齐 方框中的文字如果显示不开自动…

技术篇——废水除铊、除铊吸附树脂技术

铊是一种有毒有害的重金属元素,对人体的神经、心血管、消化系统等都有较大的危害。因此,对铊污染的废水进行治理是非常必要的。 虽然铊的应用范围比较广泛,但同时也是一种剧毒的重金属,与砷、汞等重金属相比,铊污染较…

二维码解码文字或者链接怎么做?二维码分解内容的方法

当需要提取出二维码中的文字或者链接时该如何处理呢?一般想要获取二维码中的文本/链接内容可以使用二维码解码(二维码解码器在线-二维码图片解码-二维码转短链接生成器-机智熊二维码)工具来处理,只需要上传二维码图片就可以自动识…

购买新风机那些注意事项?

在购买新风机时,需要注意以下几个关键因素: 需求分析:首先要明确自己的需求。确定你希望新风机覆盖的面积和使用场所,以及你对新风机功能和性能的要求。这有助于筛选出适合的型号和规格。 新风量:新风量是衡量新风机性…

手写模拟SpringBoot核心流程

通过手写模拟实现一个Spring Boot,让大家能以非常简单的方式就能知道Spring Boot大概是如何工作的。 依赖 建一个工程,两个Module: 1.springboot模块,表示springboot框架的源码实现 2.user包,表示用户业务系统,用来写…

iview表格 异步修改列数据卡顿 滚动条失效

使用表格row-key属性 将row-key属性设置为true <Table ref"table" border :row-key"true" :columns"tableColumns" :loading"loading":data"tableData"></Table>

web基础及http协议

web基础 全称 world wide web 全球广域网也就是万维网 web1.0 只能看 web2.0 页面交互&#xff1a;静态页面和动态页面 静态页面url&#xff1a;文本文件&#xff0c;可以修改&#xff0c;一般以html .htm保存的文本文件。网站的基础。静态页面和后台数据库没有任何交互不包含…

接口自动化测试方案模版。希望可以帮到你

XXX接口自动化测试方案 1、引言 1.1 文档版本 版本 作者 审批 备注 V1.0 XXXX 创建测试方案文档 1.2 项目情况 项目名称 XXX 项目版本 V1.0 项目经理 XX 测试人员 XXXXX&#xff0c;XXX 所属部门 XX 备注 1.3 文档目的 本文档主要用于指导XXX-Y…

匠心传承,长期主义 | 竹云董事长董宁受邀出席大湾区品牌新消费论坛

10月8日&#xff0c;大湾区品牌新消费论坛在深圳落下帷幕&#xff0c;此次论坛以“酿造美好生活”为主题&#xff0c;由广东省粤港澳大湾区产业协同发展联合会、张支云酒业集团主办&#xff0c;香港大湾区工商业联合会、深圳市老字号协会协办。 深圳市人大常委会教科文卫工委主…

红队专题-REVERSE二进制逆向反编译

红队专题 招募六边形战士队员IDA pro安装python2加入环境变量py2安装pip安装IDA 7.0 proIDAPython: importing "site" failed. 招募六边形战士队员 一起学习 代码审计、安全开发、web攻防、逆向等。。。 私信联系 IDA pro 安装python2 python-2.7.3.msi 加入环…