scrapy框架--快速了解

news2024/9/23 13:30:07

免责声明:本文仅做分享~ 

目录

介绍:

5大核心组件:

安装scrapy:

创建到启动:

修改日志配置:settings.py

修改君子协议配置:

伪装浏览器头:

让代码去终端执行:

数据保存:

1-基于命令

2-基于管道

文档:


介绍:

5大核心组件:


 

Scrapy是一个开源的Python框架,用于抓取网站数据并进行数据处理。Scrapy是一个快速、高效的框架,可以用来构建快速、可扩展的爬虫。Scrapy框架的主要组件包括:

1-引擎:Scrapy引擎负责处理数据流,包括调度、下载、解析、存储等。(包工头,大心脏)

2-调度器:Scrapy调度器负责管理URL请求,并将请求发送给下载器。

--过滤器和请求队列

3-spider:Spider是爬虫的主要组件,负责解析网页并提取数据。  

parse()方法:用于解析网页并提取数据。

4-下载器:下载器负责下载网页并返回响应。

5-管道:管道是Scrapy框架的核心组件之一,负责处理爬取到的数据。(保存数据,数据清洗,数据分析)

引擎--spider--调度器--下载器--引擎--管道

 


安装scrapy:

pip install scrapy

因为scrapy是异步框架,为什么是异步框架,是因为用了Twisted
pip install scrapy #默认安装最新版本的Scrapy
Twisted是一个Python网络框架,Scrapy使用Twisted来实现网络通信。异步IO的实现。
注意兼容问题.
Twisted                   22.10.0

如果使用scrapy2.9.0 Twisted-23.8.0 会有兼容问题
需要手动降版本
先卸载 pip uninstall Twisted
再安装 pip install Twisted==22.10.0 

 


创建到启动:

1-创建scrapy项目:
scrapy startproject 项目名称
scrapy startproject scrapy_demo1

2-进入项目目录:
cd scrapy_demo1

3-scrapy genspider 爬虫名称 域名
scrapy genspider baidu baidu.com

4-启动项目:
scrapy crawl 爬虫名
scrapy crawl baidu

修改日志配置:settings.py

#启动--发现打印了一些信息,调用,响应看

--设置日志输出的级别.

# 设置日志输出的级别:出现错误才输出.

LOG_LEVEL = "ERROR"


修改君子协议配置:

当pa百度的时候,发现返回不了数据,---因为百度有robots.txt 协议 -- 默认是遵守.

# 君子协议

ROBOTSTXT_OBEY = False

--我们不遵守.


伪装浏览器头:

伪装一下下,要不然明牌打.

USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"


让代码去终端执行:

# xxx.py 放在项目的spider文件夹下

from scrapy.cmdline import execute

execute(["scrapy","crawl", "爬虫名"])

数据保存:

1-基于命令

简单 -- 把所有数据return给parse()方法,然后执行命令.
缺点:有固定的格式:'json', 'jsonlines', 'jsonl', 'jl', 'csv', 'xml', 'marshal', 'pickle'
需要把parse()方法返回的数据保存到文件中: [{},{},{}]
scrapy crawl blibli -o blibli.txt  # 不行,会报错.

scrapy crawl blibli -o blibli.csv
--本地打开乱码就另存为.(编码问题)

2-基于管道

复杂
  1-在爬虫文件中进行数据解析
  2-在items.py定义相关属性(你要保存什么数据,就定于什么属性.)
  3-在 爬虫文件中 把 解析的数据存储封装到item类型对象中
  4-把item类型对象提交给管道
  5-在管道文件中,接收爬虫文件提交过来的item类型对象
  6-配置文件中开启管道 
  (默认的类只针对保存到txt里面.) Excel / 数据库

文档:

 


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2084710.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【3.5】贪心算法-解优势洗牌(类田忌赛马问题)

一、问题 给定两个 大小相等的数组 A 和 B ,A 相对于 B 的优势可以用满足 A[i] > B[i] 的索引 i 的数目来描述。 返回 A 的任意排列,使其相对于 B 的优势最大化。 二、解题思路 这个问题要求我们重新排列数组A,使得在相同位置上&#xf…

Ubuntu 24.04部署Wordpress

环境: Ubuntu 24.04 PHP 8.1.2-1ubuntu2.18 Nginx/1.18.0 (Ubuntu) WordPress 6.6.1 Mysql 8 文章目录 1. 安装php2. 配置nginx2.1. 安装nginx2.2. 配置 3. 下载wordpress3.1. 配置wordpress 4. mysql配置wordpress数据库和用户4.1. 安装和远程连接4.2. 创建wordpre…

uart16550_ip_spec

用途:允许与调制解调器或其他外部设备进行通信,例如使用串行电缆和RS232协议的另一台计算机。 核心特性: WISHBONE接口:支持32位或8位数据总线模式(可选)。 FIFO操作:仅支持FIFO(先…

惊爆!布偶猫喂养秘籍:希喂、交响乐金罐、尾巴生活适合布偶猫吗?

我家布偶甜美可爱,喜欢撒娇爱粘人,真的特别可爱。不过想养好布偶猫喂食非常重要,喂食方法不对,食物没选择好,都会影响布偶猫的健康与正常生长。今天我就就拿布偶猫的选粮标准来测评三款热门主食罐,让大家更…

基于JAVA的专利资源共享平台

项目介绍 基于JAVA的专利资源共享平台系统是一个集专利信息展示、资源共享、交易服务等功能于一体的综合性平台。该系统利用JAVA语言的强大功能和广泛的生态系统,结合数据库技术、Web开发技术等,为用户提供了一个高效、安全、便捷的专利资源共享和交易环…

天气分析预测系统-气象网

项目介绍 在信息科技蓬勃发展的当代,我们推出了一款基于Python Flask的全国上海气象数据采集、预测和可视化系统。随着气候变化越发引起全球关注,精准的气象数据和可视化展示变得愈发重要。该系统采用先进的技术和创新的功能,满足用户对实时…

html+css+js网页设计 个人博客模版 我的学习经历7个页面

htmlcssjs网页设计 个人博客模版 我的学习经历7个页面 网页作品代码简单,可使用任意HTML编辑软件(如:Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改编辑等操作)。 获取…

npm登录

npm 登录 npm login --auth-typelegacy报错 原因 npm源非npm本身源,需要切换: 查看源 nrm ls切换为npm源 nrm use npm重新登录 输入OTP验证后登录成功:

包含结构体的类的大小

看一下简单的例子&#xff0c;一个类声明中包含了一个结构体的声明&#xff0c;在没有定义这个结构体变量的情况下&#xff1a; #include <stdlib.h> #include <stdio.h> #include <malloc.h>class CTest { public:CTest(){}~CTest() {}struct internal{in…

在AMD GPU上使用DBRX Instruct

DBRX Instruct on AMD GPUs — ROCm Blogs 在这篇博客中&#xff0c;我们展示了DBRX Instruct&#xff0c;这是由Databricks开发的一个专家混合大型语言模型&#xff0c;在支持ROCm的系统和AMD GPU上运行。 关于DBRX Instruct DBRX是一个基于Transformer的仅解码大型语言模型…

OpenCV绘图函数(8)填充凸多边形函数fillConvexPoly()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 填充一个凸多边形。 函数 cv::fillConvexPoly 绘制一个填充的凸多边形。这个函数比 fillPoly 函数快得多。它可以填充的不仅仅是凸多边形&#…

护眼台灯减蓝光和无蓝光的有区别?眼科医生推荐的护眼台灯

自从疫情以后&#xff0c;”网课“成了一个热门的课程&#xff0c;许多家长会为了孩子的学习进行网课的报名。孩子们的眼睛处于生长期比较脆弱&#xff0c;长时间对着手机&#xff0c;电脑上课&#xff0c;电子产品会产生蓝光&#xff0c;眼睛会受到一定的伤害。护眼台灯减蓝光…

CTFHub-SSRF过关攻略(持续更新中...)

第一题&#xff0c;内网访问 一&#xff0c;打开web/ssrf/内网访问 二&#xff0c;进入页面什么都没有查看一下上一步给的参数 三&#xff0c;输入http://127.0.0.1/flag.php回车显示flag 四&#xff0c;然后复制提交&#xff08;恭喜通关&#xff09; 第二题&#xff0c;伪协…

AI智能大数据分析足球AIAutoPrediction,提高足球比赛预测准确度的新方法

本文摘要&#xff1a;一、I智能大数据分析足球的原理I智能大数据分析足球的原理是利用机器学习和大数据分析技术&#xff0c;对足球比赛的各种数据进行分析和预测。这些数据包括球队历史成绩、球员数据、场地... 一、I智能大数据分析足球的原理 I智能大数据分析足球的原理是利…

视频生成类大模型实现原理以及应用和难点

“ 视频生成属于计算机视觉领域&#xff0c;还包括图像处理等 ” 生成式大模型在文本&#xff0c;图像&#xff0c;视频等方面表现良好&#xff0c;而我们都知道文本生成大模型是基于自然语言处理技术&#xff0c;而视频生成的大模型又是怎么实现的呢&#xff1f; 今天我们就…

学习笔记之JS篇(0828)

Error Lens:报错提示插件 2. 主题&#xff08;One Dark Pro) 3. VSCode自带格式化工具代码缩进字符改为2个字符 4. 代码缩进字符改为2个字符 左右分屏&#xff08;live Server) Win 左右箭头 **学 习 ** 不能只看不动手 不管多简单的代码都要练习 随时暂停视频随时写代码 …

Win10 安装 Rabbitmq

参考文档&#xff1a;https://www.rabbitmq.com/docs/install-windows 一、安装 Erlang 语言 安装 RabbitMQ 需要该语言的支持才能安装 下载地址&#xff1a;https://erlang.org/download/otp_versions_tree.html 点击这里下载最新版本&#xff1a;27.0.1 直接默认 next 更…

Django+vue自动化测试平台(29)--测试平台集成playwright录制pytest文件执行

需求背景 一、 系统目标与功能概述 脚本管理: 系统需要能够组织和存储所有通过playwright官方插件录制的脚本。这包括脚本的上传、编辑、删除和版本控制功能。 脚本执行: 用户应该能够在后台界面上查看所有可用的脚本&#xff0c;并能够通过简单的点击操作来启动特定脚本的执…

微调方法概览

前言 大语言模型(LLM)的训练过程通常分为两大阶段&#xff1a; 阶段一&#xff1a;预训练阶段 此阶段模型是在大规模的无标签数据集上接受训练&#xff0c;目标是使模型掌握词汇的含义、句子的构造规则以及文本的基本信息和上下文。 需特别指出&#xff0c;预训练实质上是一…

16002.orin nano平台 linux gpio 学习记录

文章目录 1 查看当前系统gpio配置信息2 orin / nano gpio2.1 GPIO 映射表2.2 nano 平台对外提供的2排端口表 3 配置GPIO 电平3.1 通过指令配置普通GPIO高电平3.2 通过设备树配置普通GPIO高电平3.3 配置特定 gpio 高电平 1 查看当前系统gpio配置信息 sudo cat /sys/kernel/debu…