〖Python网络爬虫实战㉑〗- 数据存储之JSON操作

news2025/1/9 1:29:13
  • 订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+ 

                python项目实战

                Python编程基础教程系列(零基础小白搬砖逆袭)

  • 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,可报销(名额有限,先到先得)

        即将转为付费专栏,更多详细请看,五一或有优惠活动哦。

关于专栏〖Python网络爬虫实战〗转为付费专栏的订阅说明

  • 作者:爱吃饼干的小白鼠。Python领域优质创作者,2022年度博客新星top100入围,荣获多家平台专家称号。

 最近更新

〖Python网络爬虫实战⑳〗- 数据存储之CSV操作实战

🌟上节回顾

我们在上一节博客中,和大家介绍了TXT保存,CSV文件保存,我们还和大家介绍了一篇CSV实战的博客。我们已经学习了好几种数据的存储方式。本篇博客,我们就来了解如何利用 Python 保存数据到 JSON 文件。

⭐️ JSON存储

我们首先,先来认识一下什么是JSON,JSON的全称为 JavaScript Object Notation, 也就是 JavaScript 对象标记,它通过对象和数组的组合来表示数据,构造简洁但是结构化程度非常高,是一种轻量级的数据交换格式。是一种非常常见的数据格式。

🌟对象和数组

在 JavaScript 语言中,一切都是对象。因此,任何支持的类型都可以通过 JSON 来表示,例如字符串、数字、对象、数组等,但是对象和数组是比较特殊且常用的两种类型,下面简要介绍一下它们。

✨对象

对象(Object):对象是 JavaScript 中最基本的数据类型,它是由一组属性和方法组成的封装体,通常被用于存储数据、服务等信息。一个对象通常是通过对象字面量或构造函数创建的。

{  
  "name": "John",  
  "age": 30,  
  "email": "john@edu.com",  
  "phone": "123-456-7890"  
}

在这个 JSON 对象中,每个键(key)都对应一个值(value),这些值被组织成一个数组,每个键值对表示 JSON 中的一行内容。对象内的这些数据之间是用逗号分隔的,这个分隔符也是 JSON 的一个特性。

✨数组

数组(Array):数组是一组相同类型的元素的集合,通常用于存储一系列数据。数组在 JavaScript 中非常常用,尤其是在需要动态存储一些大量数据的情况下,使用数组可以很方便地管理这些数据。数组在内存中占用较少的空间,也便于随机访问。

[  
  {  
    "name": "Alice",  
    "age": 30,  
    "email": "alice@edu.com"  
  },  
  {  
    "name": "Bob",  
    "age": 25,  
    "email": "bob@edu.com"  
  },  
  {  
    "name": "Charlie",  
    "age": 35,  
    "email": "charlie@edu.com"  
  }  
]

在 JavaScript 中,数组是一种比较特殊的数据类型,它也可以像对象那样使用键值对,但还是索引用得多。同样,值的类型可以是任意类型。

✨区别 

对象和数组的区别在于,对象是一个更加封装的数据结构,它包含了属性和方法,这些属性和方法可以被访问和修改。而数组则是一个更加灵活的数据结构,它可以存储不同类型的元素,而且可以通过索引访问元素。另外,数组是一个固定长度的数据结构,不能动态扩展大小,而对象则可以通过new操作符来创建新对象,同时还可以重写对象的方法。

总之,对象和数组都是 JavaScript 中非常重要的数据类型,可以根据具体情况来选择使用。在进行文本编辑、交互式数据处理等任务时,使用对象更加方便和灵活;而在需要存储大量数据或处理大规模数据时,使用数组更加方便和快速。

🌟读取 和输出JSON

Python 为我们提供了简单易用的 JSON 库来实现 JSON 文件的读写操作,我们可以调用 JSON 库的 loads 方法将 JSON 文本字符串转为 JSON 对象,实际上 JSON 对象为 Python 中的 list 和 dict 的嵌套和组合,这里称之为 JSON 对象。另外我们还可以通过 dumps 方法将 JSON 对象转为文本字符串。

✨loads方法

例如,这里我们用上面的JSON 形式的字符串作为演示,它是 str 类型,我们用 Python 将其转换为可操作的数据结构,如列表或字典:


import json
str =""" [
  {
    "name": "Alice",
    "age": "30",
    "email": "alice@edu.com"
  },
  {
    "name": "Bob",
    "age": "25",
    "email": "bob@edu.com"
  },
  {
    "name": "Charlie",
    "age": "35",
    "email": "charlie@edu.com"
  }
]
"""

print(type(str))
data = json.loads(str)
print(data)
print(type(data))

我们来运行一下,看看效果。

<class 'str'>
[{'name': 'Alice', 'age': '30', 'email': 'alice@edu.com'}, {'name': 'Bob', 'age': '25', 'email': 'bob@edu.com'}, {'name': 'Charlie', 'age': '35', 'email': 'charlie@edu.com'}]
<class 'list'>

我们在这里需要注意,JSON 字符串的表示需要用双引号,否则,这里会出现 JSON 解析错误的提示。因为数据用单引号来包围,就会出现loads 方法会解析失败。

如果从 JSON 文本中读取内容,例如这里有一个 data.json 文本文件,其内容是刚才定义的 JSON 字符串,我们可以先将文本文件内容读出,然后再利用 loads 方法转化:

import json

with open('data.json', encoding='utf-8') as file:
    str = file.read()
    data = json.loads(str)
    print(data)

这样就把我们要的数据读取了。

dumps方法

另外,我们还可以调用 dumps 方法将 JSON 对象转化为字符串。例如,将上例中的列表重新写入文本。

import json

# 定义一个 JSON 对象
data = {
    'name': 'Alice',
    'age': '30',
    'email': 'alice@example.com'
}

# 将 JSON 对象转化为字符串
json_string = json.dumps(data)

# 打印字符串
print(json_string)

我们来打印看看上面效果

{"name": "Alice", "age": "30", "email": "alice@example.com"}

如果,我们想写入到json文件,那么,我们如何写代码呢。

with open('data.json', 'w', encoding='utf-8') as file:
    file.write(json.dumps(data, indent=2, ensure_ascii=False))

这段代码将打开名为 data.json 的文件,并将 data 对象写入文件中。json.dumps() 方法用于将 data 对象转换为 JSON 字符串,并将其写入文件中。indent 参数用于指定缩进级别,ensure_ascii 参数用于指定是否确保字符串中的非 ASCII 字符正确显示。

在这个例子中,我们使用 json.dumps() 方法将 data 对象转换为带缩进的字符串,并将其写入文件中。在写入时,我们指定了 indent=2 参数,这意味着每个缩进级别将使用两个空格进行缩进。此外,我们还指定了 ensure_ascii=False 参数,这意味着输出的字符串将不会出现 BOM(字节顺序标记)。

类比 loads 与 load 方法,dumps 也有对应的 dump 方法,它可以直接将 JSON 对象全部写入到文件中,因此上述的写法也可以写为如下形式:

json.dump(data, open('data.json', 'w', encoding='utf-8'), indent=2, ensure_ascii=False)

这里第一个参数就是 JSON 对象,第二个参数可以传入文件操作对象,其他的 indent、ensure_ascii 对象还是保持不变,运行效果是一样的。 

🌟总结

loadloadsdumpdumps,它们之间的主要区别包括以下几点:

 1、json.loads将一个Python数据结构(字符串)转换为JSON格式数据

 2. json.dumps将一个JSON编码的字符串转换回一个Python数据结构,即字符串

 3. json.dump() 和 json.load() 来编码和解码JSON数据,用于处理文件

我们可以这样记忆:

按照如下记忆:
文件:dump、load
字符串:dumps、loads

编码:dump、dumps
解码:load、loads

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/476397.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

912. 排序数组

1.题目&#xff1a; 2.我的代码&#xff1a; C语言&#xff1a; /*** Note: The returned array must be malloced, assume caller calls free().*/ int* sortArray(int* nums, int numsSize, int* returnSize) {//希尔排序int gap numsSize;//多次预排while (gap > 1) {/…

【Linux】初识Linux

目录 &#x1f34e;一.Linux历史&#x1f34e; 1.UNIX发展的历史 2.Linux发展历史 &#x1f34f;二.开源&#x1f34f; &#x1f351;三.官网&#x1f351; &#x1f34a;四.企业应用现状&#x1f34a; 1.Linux在服务器领域的发展 2.Linux在桌面领域的发展 3.Linux在移…

自实现朴素贝叶斯分类器with案例:基于SMS Spam Collection数据集的广告邮件分类

目录 贝叶斯分类器何为朴素案例&#xff1a;基于SMS Spam Collection数据集的广告邮件分类SMS数据集词向量表示Laplacian平滑训练过程分类过程 完整代码 贝叶斯分类器 首先要理解贝叶斯决策的理论依据&#xff0c;引用西瓜书上的原话&#xff1a;对于分类任务&#xff0c;在所…

【小呆的力学笔记】非线性有限元的初步认识【二】

文章目录 1.2 有限元分析的数学原理1.2.1 基于最小势能原理的变分法提法1.2.1.a 弹性力学方程简化记法1.2.1.b 应变能密度和应变余能密度1.2.1.c 最小势能原理变分基础 1.2 有限元分析的数学原理 书接上回&#xff0c;我们已经回顾了线性有限元分析的理论基础——线弹性力学的…

TryHackMe-Lunizz CTF(boot2root)

Lunizz CTF 端口扫描 循例nmap Web枚举 进80&#xff0c;apache默认页面 gobuster扫一下目录 /hidden一个文件上传点, 图片上传后无权访问/hidden/uploads/ /whatever一个假的命令执行点 /instructions.txt 由 CTF_SCRIPTS_CAVE 制作&#xff08;不是真实的&#xff09;感谢…

如何看待人工智能技术的变革与未来?

人工智能是当今科技领域中最具前景的技术之一。从最初的逻辑推理到现在的深度学习&#xff0c;人工智能技术的发展已经经历了多个阶段。在本文中&#xff0c;我们将从技术的角度&#xff0c;探讨人工智能的发展历程和未来发展趋势。 一、起源和逻辑推理阶段 人工智能的起源可…

【五一创作】Java 反射

在了解反射前&#xff0c;我们先要知道一些相关知识 Class类 Class类的实例表示java应用运行时的类或接口&#xff0c;每个java类运行时都在JVM里表现为一个class对象&#xff0c;可通过类名.class、类型.getClass()、Class.forName("类名")等方法获取class对象。 …

关于 IO、存储、硬盘和文件系统

关于IO、存储、硬盘和文件系统 0.引入1.了解IO1.1.存储器IO1.2.设备IO 2.存储介质和存储类型2.1.内存2.2.硬盘2.3.固态硬盘&#xff08;SSD&#xff09;2.4.U盘 3.硬盘的工作原理3.1.磁头3.2.盘片3.3.电动机3.4.硬盘的读写操作 4.文件系统概述4.1.文件系统的类型4.2.文件系统的…

vagrant virtualbox 复制

菜鸟学习&#xff0c;记录一下 vagrant virtualbox 虚拟机复制。 目录 第一步&#xff0c;使用 virtualbox 复制虚拟机 第二步&#xff0c;复制 vagrant 文件 第三步&#xff0c;重命名相关文件夹及文件并修改配置&#xff1a; 第四步&#xff0c;注册运行复制后的虚拟机 第…

ImageJ实践——测量大小/长短(以细胞为例)

ImageJ是一款功能强大的图像处理软件。毫无疑问它在测量方面提供了十分便利的功能。下面我将以测量细胞的长短、大小&#xff08;面积&#xff09;为例&#xff0c;详细介绍ImageJ的测量操作流程。 1. ImageJ打开图像文件 在弹出的文件选择对话框中选择目标文件&#xff0c;即…

Spring Data Elasticsearch--ElasticsearchRestTemplate--使用/教程/实例

原文网址&#xff1a;Spring Data Elasticsearch--ElasticsearchRestTemplate--使用/教程/实例_IT利刃出鞘的博客-CSDN博客 简介 说明 本文用实例来介绍如何使用Spring Data Elasticsearch的ElasticsearchRestTemplate来操作ES。包括&#xff1a;索引的增删等、文档的增删改查…

【拓扑排序】课程表系列

文章目录 课程表&#xff08;环检测算法&#xff09;1. DFS2. BFS 课程表 II&#xff08;拓扑序列&#xff09;1. DFS2. BFS 课程表 IV&#xff08;记忆化搜索&#xff09;1. DFS2. BFS 课程表&#xff08;环检测算法&#xff09; 1. DFS 先修课程之间的关系可以用有向图表示&…

AI题目整理

1、网络配置时batchsize的大小怎样设置?过小和过大分别有什么特点? Batch size是指一次迭代过程中&#xff0c;输入到神经网络的样本数量。 batchsize太小的缺点&#xff1a; ①耗时长&#xff0c;训练效率低。 ②训练数据就会非常难收敛&#xff0c;从而导致欠拟合。 batch…

MySQL后台线程详解

前言 MySQL的服务实现通过后台多个线程、内存池、文件交互来实现对外服务的&#xff0c;不同线程实现不同的资源操作&#xff0c;各个线程相互协助&#xff0c;共同来完成数据库的服务。本章简单总结MySQL的一些后台线程以及主要作用。 本章收录在MySQL性能优化原理实战专栏&am…

js常见混淆加密技术

下面&#xff0c;我将通过一个案例来演示如何使用JavaScript混淆加密技术来保护你的网站。 假设你有一个网站&#xff0c;其中包含一个登录页面&#xff0c;该页面的JavaScript代码如下所示&#xff1a; function login(username, password) {if (username "admin"…

Doris(21):Doris的函数—日期函数

1 CONVERT_TZ(DATETIME dt, VARCHAR from_tz, VARCHAR to_tz) 转换datetime值dt,从 from_tz 由给定转到 to_tz 时区给出的时区,并返回的结果值。 如果参数无效该函数返回NULL。 select convert_tz(2019-08-01 13:21:03, Asia/Shanghai, America/Los_Angeles); select co…

大数据-玩转数据-初识FLINK

一、初识Flink Flink采用一只松鼠的彩色图案作为logo Apache Flink是一个框架和分布式处理引擎&#xff0c;用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行&#xff0c;以内存执行速度和任意规模来执行计算 二、Flink的重要特点 1、事件驱动…

mysql与redis区别

一、.redis和mysql的区别总结 &#xff08;1&#xff09;类型上 从类型上来说&#xff0c;mysql是关系型数据库&#xff0c;redis是缓存数据库 &#xff08;2&#xff09;作用上 mysql用于持久化的存储数据到硬盘&#xff0c;功能强大&#xff0c;但是速度较慢 redis用于存储使…

一篇你看得懂的SNP

单核苷酸多态性&#xff0c;&#xff08;Single Nucleotide Polymorphism&#xff0c;简称SNP&#xff09;指的是由单个核苷酸—A,T,C或G的改变而引起的DNA序列的改变&#xff0c;造成包括人类在内的物种之间染色体基因组的多样性。是指在基因组上单个核苷酸的变异&#xff0c;…

朴素贝叶斯分类器with案例:基于SMS Spam Collection数据集的广告邮件分类

目录 贝叶斯分类器何为朴素案例&#xff1a;基于SMS Spam Collection数据集的广告邮件分类SMS数据集词向量表示Laplacian平滑训练过程分类过程 完整代码 贝叶斯分类器 首先要理解贝叶斯决策的理论依据&#xff0c;引用西瓜书上的原话&#xff1a;对于分类任务&#xff0c;在所…