第六课:数据存储三剑客:CSV/JSON/MySQL

news2025/3/12 19:59:40

在Python的数据存储与处理领域,CSVJSONMySQL被广大开发者誉为“数据存储三剑客”。它们各自在不同的场景下发挥着重要作用,无论是简单的数据交换、轻量级的数据存储,还是复杂的关系型数据库管理,都能找到它们的身影。本文将详细介绍如何使用Python的csv模块进行CSV文件的读写操作,json模块进行JSON数据的序列化处理,以及pymysql库连接MySQL数据库,并通过一个完整的案例展示如何构建一个数据管道。

1. CSV模块读写操作

CSV(Comma-Separated Values)文件是一种简单的文本文件格式,用于存储表格数据。Python的csv模块提供了丰富的功能,可以方便地进行CSV文件的读写操作。

读取CSV文件
import csv

def read_out():
    with open('my-checkin.csv', 'r') as _file:
        _reader = csv.reader(_file)
        for row in _reader:
            print(row)

if __name__ == '__main__':
    read_out()

上述代码会打开名为data.csv的文件,并将其内容逐行读取为列表形式,然后打印出来。

写入CSV文件
import csv
import random

def write_in():
    # 定义数据标题
    _list = [['date', 'in', 'out']]
    
    # 模拟一个月的考勤数据
    for i in range(31):
        _h = random.randint(1, 30) + 10
        _oh = random.randint(1, 30) + 20
        _list.append([
            '2025-03-' + (f'0{i}' if i < 10 else f'{i}'),
            '08:' + str(_h),
            '18:' + str(_oh)
        ])

    # 打开csv文件,并写入数据
    with open('my-checkin.csv', 'w', newline='') as checkin:
        _writer = csv.writer(checkin)
        _writer.writerows(_list)

if __name__ == '__main__':
    write_in()

上述代码会创建名为output.csv的文件,并将data列表中的数据逐行写入文件。

2. JSON数据序列化处理

JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于机器解析和生成。Python的json模块提供了对JSON数据的解析和生成功能。

序列化(将Python对象转换为JSON字符串)
import json

def to_json():
    # 定义字典数据
    data = {
        "name": "张三",
        "age": 30,
        "is_employee": True,
        "skills": ["Python", "Java", "C++"]
    }

    # 将字典转换为JSON格式的字符串
    json_data = json.dumps(data, ensure_ascii=False, indent=4)
    print(json_data)

if __name__ == '__main__':
    to_json()

上述代码会将Python字典data转换为格式化的JSON字符串,并打印出来。

反序列化(将JSON字符串转换为Python对象)
import json

def to_obj():
    # 定义一个JSON格式的字符串
    json_data = '{"name": "李四", "age": 25, "is_employee": false, "skills": ["JavaScript", "HTML", "CSS"]}'

    # 将JSON字符串转换为Python字典
    data = json.loads(json_data)
    print(data)
    print(type(data))

if __name__ == '__main__':
    to_obj()

上述代码会将JSON字符串json_data转换为Python字典data,并打印出来及其类型。

3. pymysql数据库连接

pymysql是Python中用于连接MySQL数据库的一个库,它提供了与MySQL数据库进行交互的接口。

安装pymysql

首先,你需要使用pip安装pymysql库:

pip install pymysql cryptography
连接MySQL数据库并执行查询
import pymysql

# 建立与MySQL数据库的连接
conn = pymysql.connect(
    host='localhost',
    user='yourusername',
    password='yourpassword',
    database='yourdatabase'
)

try:
    with conn.cursor() as cursor:
        # 执行SQL查询
        sql = "SELECT * FROM yourtable"
        cursor.execute(sql)
        
        # 获取查询结果
        results = cursor.fetchall()
        for row in results:
            print(row)
finally:

    # 关闭数据库连接
    conn.close()

上述代码会连接到本地的MySQL数据库,执行一个SQL查询,并打印查询结果。

4. 案例:构建完整数据管道

下面,我们将通过一个完整的案例,展示如何构建一个从CSV文件读取数据,经过处理(如数据清洗、转换等),然后存储到MySQL数据库中的数据管道。

数据管道流程
  • 从CSV文件读取数据。
  • 对数据进行清洗和转换。
  • 将处理后的数据存储到MySQL数据库中。
示例代码

原始数据(house_info.csv)

总价,单位价格,楼房信息
277,16380元/平米,2002年建/板塔结合
256,29869元/平米,2009年建/塔楼
500,30031元/平米,2005年建/板楼
215,13699元/平米,2000年建/塔楼
125,15117元/平米,2003年建/板楼
305,39173元/平米,2012年建/塔楼
98,11829元/平米,1992年建/平房
325,17580元/平米,2000年建/塔楼
290,24593元/平米,2015年建/板塔结合
232,26135元/平米,未知年建/板塔结合
153,17035元/平米,2013年建/板塔结合
225,26163元/平米,2011年建/塔楼
102,12848元/平米,未知年建/塔楼
126,12000元/平米,1998年建/板楼
167,18490元/平米,2013年建/塔楼
205,25764元/平米,2017年建/塔楼
240,19486元/平米,2008年建/板塔结合
155,20893元/平米,2012年建/板塔结合

从CSV文件读取数据(read_csv.py)

import csv

def read_csv(_filename):
    try:
        _result = []
        with open(_filename, 'r') as file:
            _reader = csv.reader(file)
            next(_reader)
            for line in _reader:
                _result.append(line)
        print('------------------------- read success')
        return _result
    except csv.Error as e:
        print('------------------------- read error')
        print(e)
        return []

对数据进行清洗和转换(clean_data.py)

import re

def is_num(_s):
    return re.match('^\d*\.?\d*$', _s)

def clean_data(_list):
    _result = []
    try:
        # 原数据
        # ['279', '29531元/平米', '未知年建/板塔结合']
        # ['279', '29531元/平米', '2005年建/板塔结合']
        for _row in _list:
            _s2 = re.sub('[^0-9]', '', _row[1])
            _s3 = _row[2].split('/')
            _result.append([
                round(float(_row[0]) if is_num(_row[0]) else 0, 2),
                0 if '' else int(_s2),
                _s3[0],
                _s3[1],
            ])
    except Exception as e:
        print('------------------------- clean error')
        print(e)

    print('------------------------- clean success')
    return _result

将处理后的数据存储到MySQL数据库中(store_data.py)

import pymysql

def store_data(data):
    _conn = None
    try:
        _conn = pymysql.connect(
            host='localhost',
            user='python_demo',
            database='python_demo',
            password='kX#8+N4$@YQt@+EAOG&mj!*%jUvgtms&$'
        )
        with _conn.cursor() as cursor:
            cursor.execute('''
            CREATE TABLE IF NOT EXISTS csv_demo_table (
                amount DECIMAL(10,2),
                price INT,
                build_year VARCHAR(40),
                house_type VARCHAR(40)
            )
            ''')
            # 插入数据
            sql = "INSERT INTO csv_demo_table (amount, price, build_year, house_type) VALUES (%s, %s, %s, %s)"
            cursor.executemany(sql, data)

            # 提交事务
            _conn.commit()
    except pymysql.Error as e:
        print('------------------------- mysql error')
        print(e)
    finally:
        if _conn:
            _conn.close()
        print('------------------------- store success')

执行整体业务数据(main.py)

from clean_data import clean_data
from read_csv import read_csv
from store_data import store_data

if __name__ == '__main__':
    # 调用读取方法获取csv数据
    _list = read_csv('house_info.csv')

    # 调用清洗方法获取结果集
    _result = clean_data(_list)

    # 存储数据到Mysql数据库中
    store_data(_result)

    print('------------------ finish')

说明

  • read_csv函数:从指定的CSV文件读取数据,并跳过表头行。
  • clean_data函数:对读取的数据进行清洗和转换,如将年龄字段转换为整数。
  • store_data函数:将处理后的数据存储到MySQL数据库中。首先检查表是否存在,如果不存在则创建表,然后插入数据并提交事务。
  • main函数:作为程序的入口,依次调用上述三个函数完成整个数据管道的流程。

通过以上步骤,我们成功构建了一个从CSV文件读取数据,经过处理,然后存储到MySQL数据库中的数据管道。这个案例展示了Python在数据处理和存储方面的强大能力。

关注我!!🫵 持续为你带来Nodejs相关内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2311610.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python通过SSH隧道访问数据库

本文介绍通过sshtunnel类库建立SSH隧道&#xff0c;使用paramiko通过SSH来访问数据库。 实现了两种建立SSH方式&#xff1a;公私钥验证、密码验证。 公私钥可读本地&#xff0c;也可读取Aws S3上的私钥文件。 本质上就是在本机建立SSH隧道&#xff0c;然后将访问DB转发到本地SS…

Aws batch task 无法拉取ECR 镜像unable to pull secrets or registry auth 问题排查

AWS batch task使用了自定义镜像&#xff0c;在提作业后出现错误 具体错误是ResourceInitializationError: unable to pull secrets or registry auth: The task cannot pull registry auth from Amazon ECR: There is a connection issue between the task and Amazon ECR. C…

立即释放 Mac 空间!Duplicate File Finder 8 重复文件高速清理工具

Duplicate File Finder 专业的 Mac 重复文件清理工具。查找并删除重复的文件、文件夹&#xff0c;甚至相似的照片。 不要让无用的文件占用磁盘上的宝贵空间。 整理你的 Mac。用最好的重复文件查找器来管理你的文件集合。 扫描任何磁盘或文件夹 主文件夹、照片/音乐库、外部磁…

快速掌握EasyOCR应用实战指南

EasyOCR 是一个开源的、支持多语言&#xff08;28种&#xff09;和多文档格式&#xff08;PDF/PNG/JPG/TIFF等&#xff09;的 OCR&#xff08;光学字符识别&#xff09;工具库&#xff0c;由 Hugging Face 团队维护。其目标是简化 OCR 的开发流程&#xff0c;提供易用、高性能的…

ubuntu22.04本地部署OpenWebUI

一、简介 Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 AI 平台&#xff0c;旨在完全离线运行。它支持各种 LLM 运行器&#xff0c;如 Ollama 和 OpenAI 兼容的 API&#xff0c;并内置了 RAG 推理引擎&#xff0c;使其成为强大的 AI 部署解决方案。 二、安装 方法 …

JavaScript(最后一个元素的索引就是数组的长度减 1)array.length - 1

在不同的编程语言中&#xff0c;表示数组中最后一个元素的方法略有不同&#xff0c;但基本思路都是利用数组的长度或索引来实现。 以下是一些常见编程语言中获取数组最后一个元素的方法&#xff1a; 1. JavaScript: 使用 array.length - 1 索引: 这是最常见和传统的方法。Java…

【Linux系统编程】初识系统编程

目录 一、什么是系统编程1. 系统编程的定义2. 系统编程的特点3. 系统编程的应用领域4. 系统编程的核心概念5. 系统编程的工具和技术 二、操作系统四大基本功能1. 进程管理&#xff08;Process Management&#xff09;2. 内存管理&#xff08;Memory Management&#xff09;3. 文…

Python-列表和元组

列表 列表是什么, 元组是什么 编程中, 经常需要使用变量, 来保存/表示数据. 如果代码中需要表示的数据个数比较少, 我们直接创建多个变量即可. 但是有的时候, 代码中需要表示的数据特别多, 甚至也不知道要表示多少个数据. 这个时候, 就需要用到列表. 列表是一种让程序猿在代…

ISA-95(S95)标准详解

目录 1. 什么是ISA-95&#xff1f; 2. 为什么需要ISA-95&#xff1f; 3. ISA-95模型结构 3.1 功能层次&#xff08;Purdue CIM模型&#xff09; 3.2 信息流模型 3.3 控制功能模型 3.4 生产活动定义&#xff08;Part 3&#xff09; 4. ISA-95与ISA-88&#xff08;S88&am…

透视京东物流财报:一个长期主义的产业样本

“企业的使命不是预测未来&#xff0c;而是创造未来。但创造的前提是理解什么值得坚守百年。” 从某种角度来说&#xff0c;京东物流恰在成为当下国内研究长期主义的一个样本。这些亮眼的财报数据背后&#xff0c;对应的不仅是向上的业务增长本身&#xff0c;其中更需要被看见…

时序数据库 TDengine 化工新签约:存储降本一半,查询提速十倍

化工行业在数字化转型过程中面临数据接入复杂、实时性要求高、系统集成难度大等诸多挑战。福州力川数码科技有限公司科技依托深厚的行业积累&#xff0c;精准聚焦行业痛点&#xff0c;并携手 TDengine 提供高效解决方案。通过应用 TDengine&#xff0c;力川科技助力化工企业实现…

Networking Based ISAC Hardware Testbed and Performance Evaluation

文章目录 Applications and Challenges of Networked SensingCooperation Mechanism in Networked SensingChallenges and Key Enabling Technologies 5G NR Frame Structure Based ISAC ApproachSignals Available for Radio SensingMulti-Dimensiona Resource Optimization S…

【音视频】ffplay简单过滤器

一、ffplay简单过滤器 视频旋转&#xff1a;借助transpose滤镜 ffplay -i 1.mp4 -vf transpose1这里选择不同的数字是不同的方向&#xff1a; 视频翻转&#xff1a;借助hflip/vflip实现水平和垂直翻转&#xff1a; 水平翻转 ffplay 1.mp4 -vf hflip垂直翻转 ffplay 1.mp4 …

力扣HOT100之哈希:1. 两数之和

这道题之前刷代码随想录的时候已经刷过好几遍了&#xff0c;看到就直接秒了。这道题主要是通过unordered_map<int, int>来建立哈希表&#xff0c;其中键用来保存向量中的元素&#xff0c;而对应的值则为元素的下标。遍历整个向量&#xff0c;当遍历到nums[i]时&#xff0…

TON基金会确认冠名赞助2025香港Web3嘉年华,并将于4月8日重磅呈现“TON生态日”

近日&#xff0c;由万向区块链实验室与HashKey Group联合推出的Web3年度盛典——2025香港Web3嘉年华正式宣布&#xff0c;TON基金会确认成为本届嘉年华的冠名赞助商&#xff0c;并将于4月8日在主会场特别举办“TON生态日”专题Side Event&#xff0c;集中展现TON生态的最新技术…

Raspberry pi4 realsense图像发送和自动启动服务

测试realsense安装&#xff1a; import pyrealsense2 as rs import numpy as np import cv2def main():# 配置RealSense管道pipeline rs.pipeline()config rs.config()# 启用RGB和彩色深度流config.enable_stream(rs.stream.color, 640, 480, rs.format.bgr8, 30)config.ena…

Git - 补充工作中常用的一些命令

Git - 补充工作中常用的一些命令 1 一些场景1.1 场景11.2 场景21.3 场景31.4 场景41.5 场景51.6 场景61.7 场景71.8 场景81.9 场景91.10 场景101.11 场景111.12 场景121.13 场景131.14 场景141.15 场景15 2 git cherry-pick \<commit-hash\> 和 git checkout branch \-\-…

电脑网络出现问题!简单的几种方法解除电脑飞行模式

在某些情况下&#xff0c;您可能需要关闭电脑上的飞行模式以便重新连接到 Wi-Fi、蓝牙或其他无线网络。本教程中简鹿办公将指导您如何在 Windows 和 macO S操作系统上解除飞行模式。 一、Windows 系统下解除飞行模式 通过快捷操作中心 步骤一&#xff1a;点击屏幕右下角的通知…

PQL查询和监控各类中间件

1 prometheus的PQL查询 1.1 Metrics数据介绍 prometheus监控中采集过来的数据统一称为Metrics数据&#xff0c;其并不是代表具体的数据格式&#xff0c;而是一种统计度量计算单位当需要为某个系统或者某个服务做监控时&#xff0c;就需要使用到 metrics prometheus支持的met…

【从零开始学习计算机科学】数字逻辑(九)有限状态机

【从零开始学习计算机科学】数字逻辑(九)有限状态机 有限状态机状态机的表示方法有限状态机的Verilog描述有限状态机 有限状态机(简称状态机)相当于一个控制器,它将一项功能的完成分解为若干步,每一步对应于二进制的一个状态,通过预先设计的顺序在各状态之间进行转换,状…