Python爬虫必学数据库:MongoDB

news2024/11/23 21:38:54

微信公众号:愤怒的it男,超多Python技术干货文章。

MongoDB由C++编写而成,是免费开源跨平台的非关系型数据库,与关系型数据库不同,MongoDB将数据存储在类似JSON的文档中,这使得数据库非常灵活和可伸缩。

图1

一、环境安装

第一步:需要在MongoDB的官网(https://www.mongodb.com/try/download/community)下载免费的MongoDB安装包。

图2

第二步:安装并启动MongoDB服务。

图3

第三步:需要使用pip命令安装MongoDB驱动程序来访问MongoDB数据库。

pip install pymongo

第四步:在操作MongoDB数据库的Python代码中,需要导入pymongo。

import pymongo

二、常用概念

1、数据库

数据库是用于存储数据的物理容器,每个数据库在文件系统中都有属于自己的文件集。一台MongoDB服务器中可以创建多个数据库,并且每个数据库都是独立的,都有属于自己的集合和权限,而且不同数据库中的数据会放置在不同的文件中。

2、集合

集合就是一组MongoDB文档的组合,类似于关系型数据库(例如 MySQL)中的数据表。集合存在于数据库中,且没有固定的结构,您可以向集合中插入不同格式或类型的数据。

3、文档

文档是MongoDB中数据的基本单位,由BSON格式(一种计算机数据交换格式,类似于JSON)的键/值对组成,类似于关系型数据库中的一行行数据,但要相对复杂一些。文档具有动态模式,同一集合中的文档不需要具有相同的字段,即使是相同的字段也可以是不同的类型。

4、概念差异

图4

5、优点好处

这种文档型数据存储方式有几个好处:

  1. 文档的数据类型可以对应到语言的数据类型,如数组类型(Array)和对象类型(Object);

  2. 文档之间可以嵌套,有时关系型数据库涉及几个表的操作,在MongoDB中一次就能完成,可以减少昂贵的连接花销;

  3. 文档不对数据结构加以限制,不同的数据结构可以存储在同一个集合中。

三、创建数据库和集合

1、创建数据库

import pymongo
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["mydatabase"]

2、创建集合

import pymongo
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["mydatabase"]
mycol = mydb["customers"]

3、删除集合

import pymongo
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["mydatabase"]
mycol = mydb["customers"]
mycol.drop()

三、增删改查操作

1、增加文档(Insert)

  • 插入一个文档

insert_one()方法返回InsertOneResult对象,该对象拥有属性inserted_id,用于保存插入文档的id。如果没有指定_id字段,MongoDB将为每个文档分配一个唯一的ID。

import pymongo
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["mydatabase"]
mycol = mydb["customers"]
mydict = { "_id": 1, "platform": "微信公众号", "name": "愤怒的it男", "introduce": "人生苦短,Python是岸!" }
x = mycol.insert_one(mydict)
print(x.inserted_id)
  • 插入多个文档

insert_many()方法返回InsertManyResult对象,该对象拥有属性inserted_ids,用于保存被插入文档的id。如果没有指定_id字段,MongoDB将为每个文档分配一个唯一的ID。

import pymongo
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["mydatabase"]
mycol = mydb["customers"]
mylist = [
  { "_id": 1, "platform": "微信公众号", "name": "愤怒的it男", "introduce": "人生苦短,Python是岸!" },
  { "_id": 2, "platform": "微信公众号", "name": "angry_it_man", "introduce": "人生苦短,Python是岸!" },
  { "_id": 3, "platform": "CSDN", "name": "愤怒的it男", "introduce": "人生苦短,Python是岸!" },
  { "_id": 4, "platform": "知乎", "name": "愤怒的it男", "introduce": "人生苦短,Python是岸!" },
  { "_id": 5, "platform": "稀土掘金", "name": "愤怒的it男", "introduce": "人生苦短,Python是岸!" },
  { "_id": 6, "platform": "bilibili", "name": "愤怒的it男", "introduce": "人生苦短,Python是岸!" },
]
x = mycol.insert_many(mylist)
print(x.inserted_ids)

2、删除文档(Delete)

  • 删除一个文档

delete_one()方法的参数是query对象。

import pymongo
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["mydatabase"]
mycol = mydb["customers"]
myquery = { "platform": "bilibili" }
mycol.delete_one(myquery)
  • 删除多个文档

delete_many()方法的参数是query对象。

import pymongo
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["mydatabase"]
mycol = mydb["customers"]
myquery = { "platform": "微信公众号"} 
x = mycol.delete_many(myquery)
print(x.deleted_count, " documents deleted.")
  • 删除所有文档
import pymongo
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["mydatabase"]
mycol = mydb["customers"]
x = mycol.delete_many({})
print(x.deleted_count, " documents deleted.")
  • query对象

图5

3、修改文档(Update)

  • 修改一个文档

update_one()方法的第一个参数是query对象,第二个参数是定义文档新值的对象。

import pymongo
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["mydatabase"]
mycol = mydb["customers"]
myquery = { "platform": "bilibili"}
newvalues = { "$set": { "introduce": "欢迎关注微信公众号:愤怒的it男" } }
mycol.update_one(myquery, newvalues)
  • 修改多个文档

update_many()方法的第一个参数是query对象,第二个参数是定义文档新值的对象。

import pymongo
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["mydatabase"]
mycol = mydb["customers"]
myquery = { "platform": {"$ne":"bilibili"}}
newvalues = { "$set": { "introduce": "欢迎关注微信公众号:愤怒的it男" } }
mycol.update_many(myquery, newvalues)

4、查询文档(Find)

  • 查找一个文档

find_one()方法的第一个参数是query对象,第二个参数是描述包含在结果中字段的对象。

第二个参数不允许同时指定0和1值(除非其中一个字段是_id字段)。如果指定值为0的字段,则所有其他字段的值为1,反之亦然。

import pymongo
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["mydatabase"]
mycol = mydb["customers"]
myquery = { "platform": "微信公众号"}
x = mycol.find_one(myquery,{ "_id": 0, "platform": 1, "name": 1 })
print(x)
  • 查找多个文档

find()方法的第一个参数是query对象,第二个参数是描述包含在结果中字段的对象。

第二个参数不允许同时指定0和1值(除非其中一个字段是_id字段)。如果指定值为0的字段,则所有其他字段的值为1,反之亦然。

import pymongo
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["mydatabase"]
mycol = mydb["customers"]
myquery = { "platform": {"$ne":"bilibili"}}
for x in mycol.find(myquery,{ "_id": 0, "platform": 1, "name": 1 }):
  print(x)

五、其他高级操作

1、排序文档(Sort)

sort()方法的第一个参数是字段名称,第二个参数是方向(默认升序)。

import pymongo
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["mydatabase"]
mycol = mydb["customers"]
mydoc = mycol.find().sort("_id", -1)
for x in mydoc:
  print(x)

2、限定文档(Limit)

limit()方法接受一个参数,定义的数字表示返回的文档数。

import pymongo
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["mydatabase"]
mycol = mydb["customers"]
myresult = mycol.find().limit(4)
for x in myresult:
  print(x)

微信公众号:愤怒的it男,超多Python技术干货文章。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1370070.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springcloud bus消息总线

简介 Spring Cloud Bus 配合Spring Cloud Config 使用可以实现配置的动态刷新。 Spring Cloud Bus是用来将分布式系统的节点与轻量级消息系统链接起来的框架,它整合了Java的事件处理机制和消息中间件的功能。Spring Clud Bus目前支持RabbitMQ和Kafka。 Spring C…

云计算任务调度仿真01

云计算任务调度的研究大多数以来仿真研究,现梳理一些做过的代码研究 结果无数次的排错,终于finish with code 0 了 这个代码以来的是比较老的TensorFlow版本,我们都知道TensorFlow1.x和TensorFlow2.x之间有很大差别,但其实&#…

vue3中路由的使用(详细讲解)

1、路由的简介 路由(route):就是根据特定的规则将数据包或请求从源地址传输到目标地址的过程。 在前端或者vue3项目中路由主要用于构建单页面应用程序(SPA),其中所有的页面都在同一个HTML文件中加载,通过JavaScript动…

无人驾驶卡尔曼滤波

无人驾驶卡尔曼滤波(行人检测) x k a x k − 1 w k x_k ax_{k-1} w_k xk​axk−1​wk​ w k w_k wk​:过程噪声 状态估计 估计飞行器状态(高度) x k z k − v k x_k z_k - v_k xk​zk​−vk​ 卡尔曼滤波通…

OpenAI 是如何一步一步把RAG做到98%的准确性得

参考OpenAI的官方演讲,如何做好RAG。本文整理的内容,均来源于此演讲内容。 【OpenAI演讲-自制中文字幕】干货-如何提升大模型表现?-提示工程、RAG与Fine-Tuning技巧详解_哔哩哔哩_bilibili 45% 的准确性 普通搜索不做任何处理的效果&#x…

人工智能_机器学习091_使用三维瑞士卷数据_KMeans聚类算法进行瑞士卷数据聚类---人工智能工作笔记0131

然后我们首先来构建一下数据 准备瑞士卷数据: import numpy as np 导入数学计算包 import matplotlib.pyplot as plt 导入画图包 #自底向上聚类 from sklearn.cluster import AgglceerativeClustering 导入分层聚类模型 from sklearn.datasets import make_swiss_roll # 瑞士卷…

给自己创建的GPTs添加Action(查天气)

前言 在这篇文章中,我将分享如何利用ChatGPT 4.0辅助论文写作的技巧,并根据网上的资料和最新的研究补充更多好用的咒语技巧。 GPT4的官方售价是每月20美元,很多人并不是天天用GPT,只是偶尔用一下。 如果调用官方的GPT4接口&…

Linux 下查看内存使用情况方法总结

在做Linux系统优化的时候,物理内存是其中最重要的一方面。自然的,Linux也提供了非常多的方法来监控宝贵的内存资源的使用情况。下面的清单详细的列出了Linux系统下通过视图工具或命令行来查看内存使用情况的各种方法。 1./proc/meminfo 查看RAM使用情况…

【C语言】TCP测速程序

一、服务端 下面是一个用 C 语言编写的测试 TCP 传输速度的基本程序示例。 这只是一个简单示例&#xff0c;没有做详细的错误检查和边缘情况处理。在实际应用中&#xff0c;可能需要增加更多的功能和完善的异常处理机制。 TCP 服务器 (server.c): #include <stdio.h> #…

Centos7 手动更改系统时间

文章目录 1.更改系统时间2.写入系统时间3.查看是否写入成功 1.更改系统时间 date -s "2017-12-18 09:40:00"2.写入系统时间 hwclock -w3.查看是否写入成功 timedatectl

vue中鼠标拖动触发滚动条的移动

前言 在做后端管理系统中&#xff0c;像弹窗或大的表单时&#xff0c;经常会有滚动条的出现&#xff0c;但有些时候如流程、图片等操作时&#xff0c;仅仅使用鼠标拖动滚动条操作不太方便&#xff0c;如果使用鼠标拖拽图片或容器来触发滚动条的移动就比较方便了 功能设计 如…

用python提取word中的所有图片

使用word中提取的方式图片会丢失清晰度&#xff0c;使用python写一个脚本&#xff0c;程序运行将弹出对话框选择一个word文件&#xff0c;然后在弹出一个对话框选择一个文件夹保存word中的文件。将该word中的所有图片都保存成png格式&#xff0c;并命名成image_i的样式。 程序…

模型容器与AlexNet构建

一、模型容器——Containers nn.Sequential 是 nn.module的容器&#xff0c;用于按顺序包装一组网络层 Sequential 容器 nn.Sequential 是 nn.module的容器&#xff0c;用于按顺序包装一组网络层 • 顺序性&#xff1a;各网络层之间严格按照顺序构建 • 自带forward()&#xf…

nodejs版本管理工具nvm的安装与使用

提示&#xff1a;nodejs版本管理工具nvm的安装与使用 文章目录 前言一、安装二、淘宝镜像配置三、安装所需版本的nodejs四、切换nodejs版本五、参考文档总结 前言 需求&#xff1a;新建一个vue3项目&#xff0c;&#xff0c;提示写法错误 查原因为node版本过低 随着技术更新迭…

6个提升Python编程能力的PyCharm插件

大家好&#xff0c;PyCharm作为一款强大的集成开发环境&#xff0c;本身已经提供了许多功能&#xff0c;但一些插件将进一步扩展和增强PyCharm的能力。通过使用这些插件&#xff0c;大家能够更快速地编写代码、提高代码质量、进行调试和优化&#xff0c;并将开发体验提升到一个…

Python 面向对象之元类

Python 面向对象之元类 【一】一切皆对象 【1】元类 元类&#xff08;metaclass&#xff09;是Python中用于创建类的类。在Python中&#xff0c;类是对象&#xff0c;而元类就是类的类它们控制类的创建过程&#xff0c;允许你定制类的行为Python中内置的默认元类是type我们用…

SpringMVC概述、SpringMVC 的入门

1.MVC介绍 MVC是一种设计模式&#xff0c;将软件按照模型、视图、控制器来划分&#xff1a; M&#xff1a;Model&#xff0c;模型层&#xff0c;指工程中的JavaBean&#xff0c;作用是处理数据 JavaBean分为两类&#xff1a; 一类称为数据承载Bean&#xff1a;专门存储业务数据…

12、DolphinScheduler

1、DolphinScheduler简介 1.1、 DolphinScheduler概述 Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系&#xff0c;使调度系统在数据处理流程中开箱即用。 1.2、 DolphinScheduler核心架构 Dolph…

Unity 踩坑记录 AnyState 切换动画执行两次

AnySate 切换动画 Can Transition To Self 将这个勾选去掉&#xff01;&#xff01;&#xff01;

九州金榜如何让孩子在家庭教育中更优秀

​ 每个人在出生时就有上天恩赐的两份礼物&#xff0c;一份是血脉相连的亲情&#xff0c;一份是家庭的关爱与教育。 最早接触的人就是父母&#xff0c;最早接触的教育就是家庭教育&#xff0c;这对孩子的影响极为深远。 这种家庭教育相比较学校教育&#xff0c;不仅有言传教…