10.网络爬虫—MongoDB详讲与实战

news2025/2/27 1:57:56

网络爬虫—MongoDB详讲与实战

  • MongoDB
  • MongoDB安装
    • 创建数据目录
    • 1.数据库操作
    • 2.集合操作
    • 3.文档操作
    • 4.索引操作
    • 5.聚合操作
    • 6.备份与恢复
  • MongoDB增删改查
    • mongodb集合的增删改查
      • 数据插入到表
      • 数据的查看
      • 删除数据
      • 更新数据
  • PyMongo
      • 连接数据库
      • 第二步 选择需要使用的数据库和集合
  • PyMongo增删改查
  • 实战
    • 某电影top250排名获取并写入MongoDB
      • 数据获取
      • 写入MongoDB

前言
🏘️🏘️个人简介:以山河作礼。
🎖️🎖️:Python领域新星创作者,CSDN实力新星认证
📝​📝第一篇文章《1.认识网络爬虫》获得全站热榜第一,python领域热榜第一
🧾 🧾第四篇文章《4.网络爬虫—Post请求(实战演示)》全站热榜第八
🧾 🧾第八篇文章《8.网络爬虫—正则表达式RE实战》全站热榜第十二
🎁🎁《Python网络爬虫》专栏累计发表九篇文章,上榜三篇。欢迎免费订阅!欢迎大家一起学习,一起成长!!
💕💕悲索之人烈焰加身,堕落者不可饶恕。永恒燃烧的羽翼,带我脱离凡间的沉沦。

MongoDB

MongoDB是一种开源的文档型数据库管理系统,采用分布式文件存储方式,可以存储非结构化的数据,如文档和键值对等。

它的特点是高性能高可扩展性高可用性易于使用可以支持复杂的查询数据分析,同时还提供了数据复制故障转移自动分片等功能,可以应用于多种场景,如Web应用大数据物联网等。
MongoDB使用BSON(Binary JSON)格式来存储数据,支持多种编程语言的驱动程序,如Java、Python、Ruby、PHP等

MongoDB安装

MongoDB 提供了可用于 32 位和 64 位系统的预编译二进制包,你可以从MongoDB官网下载安装,MongoDB 预编译二进制包下载地址: MongoDB
在这里插入图片描述

  • MongoDB for Windows 64-bit 适合 64 位的 Windows Server 2008 R2, Windows 7 , 及最新版本的 Window 系统。
  • MongoDB for Windows 32-bit 适合 32 位的 Window 系统及最新的 Windows Vista。 32 位系统上 MongoDB 的数据库最大为 2GB。
  • MongoDB for Windows 64-bit Legacy 适合 64 位的 Windows Vista, Windows
    Server 2003, 及 Windows Server 2008 。

下载 .msi 文件,下载后双击该文件,按操作提示安装即可。
安装过程中,你可以通过点击 “Custom(自定义)” 按钮来设置你的安装目录。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

创建数据目录

=MongoDB 将数据目录存储在 db 目录下。但是这个数据目录不会主动创建,我们在安装完成后需要创建它。请注意,数据目录应该放在根目录下 (如: C:\ 或者 D:\ 等 )。
比如我这里安装在了D盘,那就在D盘创建一个data文件夹,进入文件夹创建db文件夹。

在这里插入图片描述
命令行下运行 MongoDB 服务器
为了从命令提示符下运行 MongoDB 服务器,你必须从 MongoDB 目录的 bin 目录中执行 mongod.exe 文件。

D:\Mongodb\bin\mongod --dbpath D:\data\db

如果执行成功,会输出如下信息:
在这里插入图片描述

27017就代表成功!!!
在这里插入图片描述
连接mongodb 有就说明成功了

1.数据库操作

  • 创建数据库:use datadb

在这里插入图片描述

  • 查看当前数据库:db
    在这里插入图片描述

  • 查看所有数据库:show dbs

在这里插入图片描述

  • 删除数据库:db.dropDatabase()

2.集合操作

  • 创建集合:db.createCollection("<collection_name>")

  • 在这里插入图片描述

  • 查看集合show collections

  • 在这里插入图片描述

  • 删除集合:db.<collection_name>.drop()

3.文档操作

  • 插入文档db.<collection_name>.insert(<document>)
  • 将一个文档插入到指定的集合(collection)中。
  • 查询文档db.<collection_name>.find(<query>, <projection>)
  • 使用db.<collection_name>.find()方法查询符合条件的文档。其中,query参数指定查询条件,projection参数指定返回的文档中包含哪些字段。
  • 更新文档db.<collection_name>.update(<query>, <update>, <options>)
  • 使用db.<collection_name>.update()方法更新符合条件的文档。其中,query参数指定查询条件,update参数指定更新的内容,options参数指定更新选项,如是否只更新第一个匹配的文档。
  • 删除文档db.<collection_name>.remove(<query>, <justOne>)
  • 使用db.<collection_name>.remove()方法删除符合条件的文档。其中,query参数指定查询条件,justOne参数指定是否只删除第一个匹配的文档。

4.索引操作

  • 创建索引db.<collection_name>.createIndex(<keys>, <options>)
  • 使用db.<collection_name>.createIndex()方法创建索引。其中,keys参数指定需要创建索引的字段,options参数指定索引的一些选项,如索引类型、索引名称等。
  • 查看索引db.<collection_name>.getIndexes()
  • 使用db.<collection_name>.getIndexes()方法可以查看指定集合中的所有索引。
  • 删除索引db.<collection_name>.dropIndex(<index>)
  • 用db.<collection_name>.dropIndex()方法删除指定集合中的索引。其中,index参数指定需要删除的索引的名称。注意,删除索引可能会影响查询性能,应该谨慎使用。

5.聚合操作

  • 聚合文档:db.<collection_name>.aggregate(<pipeline>)

使用db.<collection_name>.aggregate()方法对指定集合中的文档进行聚合操作。其中,pipeline参数是一个数组,包含了一系列聚合操作的步骤。每个步骤都是一个文档,包含了一个操作符和对应的参数。

聚合操作的步骤可以包括以下几种:

$match:筛选符合条件的文档;
$group:按照指定的字段进行分组,可以对每个组进行计算;
$sort:对文档进行排序;
$limit:限制返回的文档数量;
$project:指定返回的文档中包含哪些字段,可以对字段进行修改或计算;
$unwind:将数组类型的字段展开成多个文档。

聚合操作可以根据实际需求进行组合,以实现复杂的数据处理任务。

6.备份与恢复

  • 备份数据库mongodump -d <database_name> -o <backup_folder>
  • 使用mongodump命令可以备份指定数据库。其中,-d参数指定要备份的数据库名称,-o参数指定备份文件存放的目录。
  • 恢复数据库mongorestore -d <database_name> <backup_folder>
  • 使用mongorestore命令可以恢复备份的数据库。其中,-d参数指定要恢复到的数据库名称,后面跟着备份文件所在的目录即可。
  • 备份和恢复操作需要谨慎处理,因为错误的操作可能会导致数据丢失或不完整。因此,在进行备份和恢复操作之前,应该先进行数据备份和测试,确保数据的安全性和可靠性。

MongoDB增删改查

mongodb集合的增删改查

数据插入到表

插入演示
db.<col_name>.insert(dict_data)
插入实例
db.book.insert({'name':'小明','age':20,'gender':'男'})
其中,‘name’、'age’和’gender’是文档的字段名,‘小明’、20和’男’是对应的字段值。通过这个操作,我们成功向book集合中插入了一条文档。

数据的查看

输出演示

db.<col_name>.find({key1:value1, key2:value2}).pretty()
普通输出,获取所有数据
db.book.find()
美化输出
db.book.find().pretty()

删除数据

删除数据
db.<col_name>.remove({key1:value1})
删除实例

db.book.remove({'name':'小明'})

更新数据

只对一条满足要求的数据进行操作
db.col.update({'title':'MongoDB data''},{$set:{'title':'MongoDB'}})
db.book.update({'name':'小明'},{$set:{'age':18}})
对所有满足要求的数据进行操作
db.col.update({'title':'MongoDB data''},{$set:{'title':'MongoDB'}},{multi:true})
db.book.update({'name':'小明'},{$set:{'age':22}},{multi:true})

PyMongo

在终端输入代码安装:

pip install pymongo

在这里插入图片描述

连接数据库

mongo = pymongo.MongoClient()  # 'localhost', 27017

mongo = pymongo.MongoClient() 这行代码中,mongo是一个MongoDB客户端对象,可以用来连接MongoDB数据库,执行数据库操作等。如果MongoDB服务运行在其他主机上,可以通过传递参数来指定主机名和端口号,如:

mongo = pymongo.MongoClient('mongodb://<hostname>:<port>')

其中,为MongoDB服务所在主机的IP地址或者主机名,为MongoDB服务所监听的端口号。
在这里插入图片描述

第二步 选择需要使用的数据库和集合

选择数据库

# 选择数据库
db = mongo.test
# print(db)

使用 mongo 连接MongoDB数据库中的 test 数据库,返回一个 test 数据库对象,用于执行数据库操作。如果 test
数据库不存在,则会在MongoDB中创建一个名为 test 的数据库。

选择集合

col = db.book  # 选择集合
# print(col)

在 test 数据库中选择了一个名为 book 的集合,返回一个 book 集合对象,用于执行集合操作。如果 book 集合不存在,则会在
test 数据库中创建一个名为 book 的集合。

PyMongo增删改查

查找数据

print(list(col.find()))
print(list(col.find_one())) # 返回数据的key

在这里插入图片描述
增加一条数据

data_dict = {'name': '小雨', 'age': 20, 'gender': '男'}
col.insert_one(data_dict)

增加多条数据

data_dict = [{'name': '小雨', 'age': 20, 'gender': '男'},
             {'name': '小芳', 'age': 19, 'gender': '女'}]
col.insert_many(data_dict)

删除一条数据 只对一条数据生效

col.delete_one({'name': '小明'})
删除所有满足要求的数据 对所有数据生效
col.delete_many({'name': '小明'})

更新数据 只对一条数据生效

col.update_one({'name': '小雨'}, {'$set': {'age': 22}})

更新数据 对所有数据生效

col.update_many({'name': '小雨'}, {'$set': {'age': 22}})

实战

某电影top250排名获取并写入MongoDB

分两部分,第一部分,获取数据,第二部分,将数据写入MongoDB

数据获取

前面我们讲解了很多获取数据的方法,我们今天就不在这里作过多的展示,博主这里使用的是xpath进行解析数据,如果有什么疑问可以阅读博主之前的文章帮助理解和学习。《5.网络爬虫——Xpath解析》

直接查看结果:
我们本次目的是获取电影top250的电影名字,评分,评价人数和简介。数据较多,仅展示部分!!
在这里插入图片描述

在这里插入图片描述

写入MongoDB

  1. 连接数据库
mongo = pymongo.MongoClient()  # 连接数据库
print(mongo)

连接成功!
在这里插入图片描述

  1. 选择数据库
    我们先来查看一下有那些数据库
    在这里插入图片描述
    开始写代码,选择我们的数据库:
db = mongo.datadb
print(db)

在这里插入图片描述

  1. 选择集合
col = db.book
print(col)

在这里插入图片描述

4.插入数据
把刚才获取的数据插入到mongodb中。

 data_dict = {'name': name, 'score': score, 'number': number, 'introdu': introdu}
    # 插入数据
    col.insert_one(data_dict)
    time.sleep(1) # 睡眠1秒,防止过快请求被封IP
print('数据写入完成')

在这里插入图片描述

5.查看数据

results = col.find()
for result in results:
    print(result)

在这里插入图片描述

仅展示部分数据,数据太长了。正确来说一个有250条数据在里面。

写在最后
👉 👉本专栏所有文章是博主学习笔记,仅供学习使用,爬虫只是一种技术,希望学习过的人能正确使用它。博主也会定时一周三更爬虫相关技术更大家系统学习,如有问题,可以私信我,没有回,那我可能在上课或者睡觉,写作不易,感谢大家的支持!!🌹🌹🌹

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/412922.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

公司分布式锁加锁错误原因

目录一、问题二、问题复现三、为什么产生这个错误四、解决方案一、问题 第一次设置锁成功, 但是返回false, 后续在循环获取的时候, 因为已经设置成功, 调用setIfAbsent不会返回true, 导致等锁3s失败 private boolean lockWait(String key, long wait, long expire) { long tot…

【CV】Latent diffusion model 扩散模型体验

note 文章目录note一、diffusion模型1.1 Stable Diffusion简介1.2 和GAN对比的优势二、Latent diffusion model原理2.1 潜在空间(Lantent Space)2.2 自动编码器和U-Net2.3 文本编码器三、代码实践3.1 模型权重checkpoints3.2 Stable Diffusion v1模型推理3.3 安装Stable Diffus…

再见了,我的C!

本人的第一篇博客发布于1月份&#xff0c;现在已经4月份了&#xff0c;历时3个月&#xff0c;&#xff0c;已经将C语言涵盖的大多数C语言知识点系统性的整理了出来&#xff0c;在这个期间自己收获了很多&#xff0c;这是C语言的最后一篇文章&#xff0c;接下来我们来回顾一下我…

13.Java面向对象----嵌套类

Java面向对象—嵌套类、内部类、匿名类 一、static静态 在《Java编程思想》有这样一段话&#xff1a;   “static方法就是没有this的方法。在static方法内部不能调用非静态方法&#xff0c;反过来是可以的。而且可以在没有创建任何对象的前提下&#xff0c;仅仅通过类本身来…

计及需求侧响应日前、日内两阶段鲁棒备用优化【IEEE6节点】(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

3.3 二维随机变量条件分布

学习目标&#xff1a; 要学习二维随机变量的条件分布&#xff0c;我可能会采取以下步骤&#xff1a; 复习边缘分布和联合分布&#xff1a;首先需要了解二维随机变量的边缘分布和联合分布的概念以及相应的公式。 复习条件概率&#xff1a;学习条件概率的定义和计算公式&#x…

Java使用elasticjob实现定时任务(v2.1.5)

elastic是一个定时任务库 https://shardingsphere.apache.org/elasticjob/index_zh.html 项目结构 ​依赖 <dependency><groupId>com.dangdang</groupId><artifactId>elastic-job-lite-core</artifactId><version>2.1.5</version>&…

【linux】——进程和计划任务管理

文章目录1.进程 VS 线程1.1 程序和进程的关系1.2 线程1.3 进程和线程的关系2.查看进程2.1 查看进程信息ps2.2 查看进程信息top2.3 查看进程信息pgrep2.4 查看进程树pstree3.控制进程3.1 进程的启动方式3.2 进程的前后台调度3.3 终止进程的运行kill3.4 终止进程的运行pkill4.计划…

【华为OD机试】1039 - 迷宫问题

文章目录一、题目&#x1f538;题目描述&#x1f538;输入输出&#x1f538;样例1&#x1f538;样例2二、代码参考作者&#xff1a;KJ.JK&#x1f308; &#x1f308; &#x1f308; &#x1f308; &#x1f308; &#x1f308; &#x1f308; &#x1f308; &#x1f308; &am…

CASA(Carnegie-Ames-Stanford Approach)模型应用

植被作为陆地生态系统的重要组成部分对于生态环境功能的维持具有关键作用。植被净初级生产力&#xff08;Net Primary Productivity, NPP&#xff09;是指单位面积上绿色植被在单位时间内由光合作用生产的有机质总量扣除自养呼吸的剩余部分。植被NPP是表征陆地生态系统功能及可…

全网最详细,Jmeter性能测试-性能基础详解,控制器不同选择(四)

目录&#xff1a;导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09;前言 逻辑控制器 提前说…

机器学习实战:Python基于支持向量机SVM-RFE进行分类预测(三)

文章目录1 前言1.1 支持向量机的介绍1.2 支持向量机的应用2 demo数据集演示2.1 导入函数2.2 构建数据集拟合2.3 预测模型及可视化3 实例演示分类&#xff08;非SVM&#xff09;3.1 导入函数和数据3.2 简单线性分类3.3 最大间隔决定分类4 实例演示分类&#xff08;SVM&#xff0…

面试之Java的SPI机制详细讲解你会吗?

很多小伙伴对SPi不是很熟悉&#xff0c;今天我给大家详细讲解分享下&#xff1a; Java之SPI机制详细目录 1: SPI机制简介 2: SPI原理 3: 使用场景 4: 源码论证 5: 实战 6: 优缺点 6.1 优点 6.2 缺点 Java之SPI机制详解 1: SPI机制简介 SPI 全称是 Service Provider Interface…

Django整合mysqlclinet步骤

准备工作 要在 Django 中使用 MySQL 数据库&#xff0c;您需要完成以下步骤&#xff1a; 安装 MySQL 服务器和客户端。你可以从官方网站下载并安装&#xff1a;https://www.mysql.com/downloads/ 安装 mysqlclient。mysqlclient 是一个 Python 的第三方库&#xff0c;用于连接…

chapter-7数据库事务

以下课程来源于MOOC学习—原课程请见&#xff1a;数据库原理与应用 考研复习 DBMS保证系统中一切事务的原子性、一致性、隔离性和持续性 DBMS必须对事务故障、系统故障和介质故障进行恢复 恢复中最经常使用的技术&#xff1a;数据库转储和登记日志文件 恢复的基本原理&#…

十二、网络规划与设计

&#xff08;一&#xff09;网络设计基础 1、网络系统生命周期 &#xff08;1&#xff09;四阶段周期&#xff08;重叠&#xff09; 构思与规划阶段、分析与设计阶段、实施与构建阶段、运行与维护阶段 特点&#xff1a;能够快速适应新的需求变化&#xff0c;成本低&#xf…

【SQL 初阶教程】一文轻松玩转 SQL

目录 一、SQL 通用语法 二、SQL 语句的分类 三、DDL语句 DDL——数据库操作 查询所有数据库 语句&#xff1a; SHOW DATABASES;&#xff08;大小写均可&#xff0c;建议大写&#xff09; 创建数据库HSK 语句&#xff1a;CREATE DATABASE HSK; 删除数据库HSK 语句 &#…

关于本地git通过ssh链接github时 time out问题的解决方法

目录问题描述解决方法问题描述 我们如果想要用git ssh链接到远端github&#xff0c;进行repo的clone等操作时&#xff0c;会进行如下的操作&#xff1a; 首先在ssh端命令生成rsa秘钥&#xff0c;命令如下&#xff1a; ssh-keygen -t rsa -C “你的git绑定的邮箱名字”然后在g…

【HBase-读写流程】HBase的读写流程与内部执行机制

【HBase-读写流程】HBase的读写流程与内部执行机制1&#xff09;HBase 读取数据流程1.1.文字描述1.2.流程图2&#xff09;HBase 写入数据流程2.1.文字描述2.2.流程图3&#xff09;flush 机制与 compact 机制的原理3.1.文字描述3.2.流程图1&#xff09;HBase 读取数据流程 1.1.…

游戏开发之Unity2021URP项目场景的构建

地面的修改和编辑&#xff1a;地面插件的使用 打开包管理器&#xff0c;在左边的包那里选择“Unity注册表”&#xff0c;在右边进行搜索“Polybrush”&#xff0c;之后选择右下角的安装 安装完之后要选择样本中的URP进行导入&#xff0c;因为我们的项目是URP渲染管线的&#x…