Python爬虫常用哪些库？

Python爬虫常用哪些库？

news2026/2/14 17:44:08

经常游弋在互联网爬虫行业的程序员来说，如何快速的实现程序自动化，高效化都是自身技术的一种沉淀的结果，那么使用Python爬虫都会需要那些数据库支持？下文就是有关于我经常使用的库的一些见解。
在这里插入图片描述

请求库：

1、urllib：urllib库是Python3自带的库（Python2有urllib和urllib2，到了Python3统一为urllib），这个库是爬虫里最简单的库。

2、requests：requests属于第三方库，使用起来比urllib要简单不少，且功能更加强大，是最常用的请求库。

3、Selenium：Selenium属于第三方库，它是一个自动化测试工具，可以利用它自动完成浏览器的操作，如点击，下拉，拖拽等等，通常完成ajax复杂的操作。

解析库：

1、lxml：属于第三方库，支持HTML和xml的解析，支持XPath的解析方式，解析效率非常高。

2、Beautiful Soup：属于第三方库，API强大，使用也方便。

3、pyquery：属于第三方库，功能强大在于css选择器上，对jQuery比较了解的话使用pyquery将会十分方便，因此我也比较推荐使用pyquery。

存储库：

1、PyMySQL：MySQL作为最常用的数据库之一，PyMySQL也是爬虫后存储数据的非常好的选择，它可以实现对数据库的创建表，增删查改等操作。

2、PyMongo：PyMongo是和MongoDB进行交互的库。

3、redis-py：redis-py是和Redis进行交互的库。

图像识别库：

1、tesserocr：tesserocr是Python使用OCR技术来识别图像，本质是对tesseract做一层API的封装，所以在安装tesserocr之前必须先安装tesseract。

爬虫框架

1、pyspider：pyspider 是由国人 binux 编写的强大的网络爬虫系统，它带有强大的 WebUI、脚本编辑器、任务监控器、项目管理以及结果处理器，它支持多种数据库后端、多种消息队列、JavaScript 渲染页面的爬取。依赖库有PhantomJS。

2、Scrapy：功能极其强大，依赖库较多。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/142062.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

matlab复杂函数多元函数拟合

matlab复杂函数多元函数拟合

简介本文介绍了基于matlab实现的复杂函数以及多元函数的拟合。在工程和研究中偶尔会遇到要用一个非常复杂的数学公式来拟合实验测量数据，对这些复杂的数学公式拟合时，采用常见的拟合方法往往会失败，或者得不到足够精确的结果。本文以笔者多…

阅读更多...

AVL树：高度平衡的二叉搜索树

AVL树：高度平衡的二叉搜索树

AVL树 AVL树和BST树的联系答：BST树（二叉排序树）当节点的数据key有序时是一棵单支树，查找时效率直接降低到O(N)而不是树高，为了使树尽量两边均匀，设计出了AVL树，AVL树的左右高度差不超过1。…

阅读更多...

sql语句练习题1

sql语句练习题1

1、选择部门30中的所有员工； 要注意到查的是所有员工代码如下： mysql> select * from emp where deptno 30;2、列出所有办事员(CLERK)的姓名，编号和部门编号； 注意的是要查的是姓名，编号和部门编号范围限定的是…

阅读更多...

并发编程的原子性 != 事务ACID的原子性

并发编程的原子性 != 事务ACID的原子性

△Hollis, 一个对Coding有着独特追求的人△这是Hollis的第 412 篇原创分享作者 l Hollis来源 l Hollis（ID：hollischuang）关于原子性，很多人在多个地方都听说过，大家也都背的很熟悉。在事务的ACID中，有原子性…

阅读更多...

儒家思想和道家思想的三个主要差异

儒家思想和道家思想的三个主要差异

孔子、孟子、老子、庄子，这四位古代思想家被称为“中国四哲”，他们分别代表了儒家和道家思想。这两大思想流派，是数千年来中国人智慧的结晶和文化的瑰宝。01先秦儒家思想的发展，经过了三个阶段，第一阶段是孔子&#xf…

阅读更多...

CHAPTER 7 Ansible playbook（四）

CHAPTER 7 Ansible playbook（四）

ansible-playbook7.1 roles（角色）7.1.1 Ansible Roles 介绍7.1.2 Roles结构7.1.3 存储和查找角色7.1.4 制作一个Role7.1.5 使用角色7.1.5.1 经典方法7.1.5.2 import_role7.1.6 如何使用Galaxy7.1 roles（角色） 7.1.1 Ansible Role…

阅读更多...

windows docker安装prometheus和grafana

windows docker安装prometheus和grafana

文章目录docker安装prometheusdocker安装grafanawindows安装windows_exporterprometheus配置新增windows_exporter的job,配置grafana导入windows模板即可出现酷炫大屏出现酷炫画面完成docker安装prometheus 拉取镜像,在D盘下创建prometheus.yml配置文件,映射到docker里面d:/se…

阅读更多...

【pandas】教程：8-如何组合多个表格的数据

【pandas】教程：8-如何组合多个表格的数据

Pandas 组合多个表格的数据本节使用的数据为 data/air_quality_no2_long.csv，链接为 pandas案例和教程所使用的数据-机器学习文档类资源-CSDN文库导入数据 NO2NO_2NO2 import pandas as pd air_quality_no2 pd.read_csv("data/air_quality_no2_long.cs…

阅读更多...

二、python编程进阶02：模块和包

二、python编程进阶02：模块和包

目录 1. python中的模块是什么 2. 导入模块: 学习import语句 2.1 import语句介绍 2.2 import导入模块的语法 2.3 导入自己的模块 2.4 导入数字开头或者带空格的模块 3. 编写自定义模块 3.1 给自定义模块编写测试代码 3.2 给自定义模块模块编写说明文档 4. 模块的搜索…

阅读更多...

1215. 小朋友排队(树状数组应用 -- 逆序对个数)

1215. 小朋友排队(树状数组应用 -- 逆序对个数)

题目如下： 思路 or 题解我们可以得出交换的次数 > 逆序对个数 kkk 我们可以发现所有位置左边大于它的个数右边小于它的个数和 kik_iki 等于 k∗2k*2k∗2 我们可以简单证明出(感觉出)：答案就是 ∑1n(1ki)∗ki2\sum^n_1 \frac{(1 k_i) * k_i}…

阅读更多...

JavaScript 错误

JavaScript 错误

文章目录JavaScript 错误 - throw、try 和 catchJavaScript 错误JavaScript 抛出（throw）错误JavaScript try 和 catchThrow 语句实例实例JavaScript 错误 - throw、try 和 catch try 语句测试代码块的错误。 catch 语句处理错误。 throw 语句创建自定义错…

阅读更多...

string的使用介绍

string的使用介绍

目录标准库中的string类 string类(了解) 编码介绍 string类的常用接口说明 Member functions 测试一：创建对象测试二：遍历字符串 Iterators 测试三：反向迭代器(Iterators) Capacity 测试四：容器相关(Capacity) 测试…

阅读更多...

Redis企业云如何通过缓存轻松扩展到亿级请求？

Redis企业云如何通过缓存轻松扩展到亿级请求？

你是否在春运抢票过程中遇到12306 APP瘫痪？ 你是否在双十一抢好物的时候显示系统繁忙？ 你是否在微博刷某个爆了的娱乐新闻时显示页面走丢了？ 前几天热搜上好像又说小红书又崩溃了？ 当用户请求量过高，数据库无法支撑时&…

阅读更多...

Annotation(注解)

Annotation(注解)

一、注解概述1.从 JDK 5.0 开始,Java 增加了对元数据(MetaData) 的支持,也就是Annotation(注解)2.Annotation 其实就是代码里的特殊标记,这些标记可以在编译,类加载,运行时被读取,并执行相应的处理。通过使用 Annotation,程序员可以在不改变原有逻辑的情况下,在源文件中嵌入一些…

阅读更多...

Go第 6 章：函数、包和错误处理

Go第 6 章：函数、包和错误处理

Go第 6 章：函数、包和错误处理 6.1 为什么需要函数 6.1.1请大家完成这样一个需求: 输入两个数,再输入一个运算符(,-,*,/)，得到结果.。 6.1.2使用传统的方法解决分析一下上面代码问题上面的写法是可以完成功能, 但是代码冗余同时不利于代码维护函数…

阅读更多...

SAP FICO 成本对象控制解析

SAP FICO 成本对象控制解析

成本对象控制（Cost Object Cotrol）是指对不同的成本对象，比如成本收集器、生产订单、销售订单等进行成本的期末结算。基于这些不同的成本对象，SAP在成本对象控制菜单下面细分了相应的操作（SAP 菜单 →会计核算 →控制 …

阅读更多...

JavaScript篇.day10-面向对象,对象,构造函数,this关键字,原型

JavaScript篇.day10-面向对象,对象,构造函数,this关键字,原型

目录面向对象对象构造函数this关键字原型面向对象面向过程: 在开发过程中,关注过程的开发方式. 在开发时关注每一个细节,步骤和顺序.面向对象: 在开发过程中,只需要找一个对象来完成事情的开发思想对象: 在生活中,万物皆对象封装: 将完成步骤封装在对象内部属性: 对象的特征核…

阅读更多...

Java泛型上界与泛型方法的应用 | 如何通过泛型类获取任意类型的三个数的最大值？

Java泛型上界与泛型方法的应用 | 如何通过泛型类获取任意类型的三个数的最大值？

目录一、引言二、泛型上界 1、什么是泛型的上界 2、泛型上界的语法三、泛型方法 1、泛型方法的语法 2、泛型方法的类型推导三、编程分析 1、MyCompare泛型类 2、泛型方法实现四、总结一、引言初学Java时，同学们基本都会遇到这样一个基础编程题&am…

阅读更多...

平面设计师去哪里找素材？

平面设计师去哪里找素材？

5个平面设计素材网站，赶紧收藏！ 1、菜鸟图库 https://www.sucai999.com/?vNTYwNDUx 站内平面海报、UI设计、电商淘宝、免抠、高清图片、样机模板等素材非常齐全。还有在线抠图、CDR版本转换功能，能有效的为设计师节省找素材时间&#x…

阅读更多...

MySQL查询训练题1

MySQL查询训练题1

表信息： dept表和emp表 bonus表和salgrade表练习题： 1、选择部门30中的所有员工； select * from Emp where DEPTNO30;2、列出所有办事员(CLERK)的姓名，编号和部门编号； select ENAME 姓名,EMPNO 编号,DEPTNO 部门…

阅读更多...

推荐文章

最新文章