Scrapy配置使用

news2025/7/14 11:50:06

前人之述备矣

教程：Python虚拟环境+Scrapy+PyCharm 使用实例 - 知乎

注意：是cmd不是powershell,两者还是有区别的。因为是本地的虚拟环境，用cmd激活环境并且安装相关的scrapy包，如果用powershell，在pycharm中显示不了安装的包。

PowerShell 与 cmd 有什么不同？ - 知乎

如何快速打开cmd或powershell？
1.win+R打开“运行”，然后输入cmd或powershell，回车进入；
2.可在打开的文件夹内，直接在地址栏输入cmd或powershell，回车进入；
3.在Windows的搜索应用中输入cmd或powershell，回车进入。

安装好之后检查：

正式开始：

scrapy startproject CodeSpider //创建一个项目

创建成功如下：

文件结构：

选择抓取页面：

scrapy genspider blogs news.cnblogs.com
抓取模板，可以按照自己的需求修改模板。

需求分析：

采集静态数据，大部分网站都是动态的。

典型的分页数据：

采集详细信息：将所有页面采集下来-->详细信息：发布时间，内容，评论等

抓取所有文章的url.

scrapy调试：

在cmd中启动命令，不可调试：scrapy crawl blogs(name)

创建新的脚本进行调试：

在根目录文件夹中重新新建一个main文件，只要继承了crawl文件中的scrapy.Spider就可以

执行：

可以在断点之后看见response的信息，self和response:

xpath解析：

独立的语法，与各种库不同，可以兼容各种库。

xpath简介：学爬虫利器XPath,看这一篇就够了 - 知乎

XPath，全称 XML Path Language，即 XML 路径语言，它是一门在XML文档中查找信息的语言。XPath 最初设计是用来搜寻XML文档的，但是它同样适用于 HTML 文档的搜索。

使用xpath提取想要的值：

response参数：使用xpath就可以提取

通过复制xpath:

缺点：如果数据刷新，无法提取到正确数据。

// *[ @ id = "entry_740378"] / div[2] / h2 / a

提取出所有满足条件的：

使用特殊的设置，巧妙的xpath

使用css选择器提取：

没有xpath强大，使用css样式选择，解析出合适的内容：如h2

    url = response.css('div#news_list h2 a::attr(href)').extract()

爬虫抓取过程：

使用parse,做了很多处理，获取url.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/440908.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

Scrapy配置使用

正式开始：

选择抓取页面：

需求分析：

scrapy调试：

xpath解析：

使用xpath提取想要的值：

使用css选择器提取：

爬虫抓取过程：

相关文章

【MySQL】如何使用MySQL锁（全局锁、表级锁、行级锁）？

神经网络之反向传播算法（自适应矩估计算法Adam）

jmeter -- WebService接口压测

matlab中计算标准差std函数

HCIP之路VLAN

【Linux】生产者消费者模型——阻塞队列BlockQueue

Tomcat服务器

人社LEAF平台架构及其主要技术架构特点

WebGIS：前端：给出地理范围计算出地图瓦片的行列号

【Linux】Linux入门手册

关于数制及其转换

C++程序设计—类与对象

DataBinding 大坑总结（网上我暂时搜不到解决方法）

设计模式：UML中的类图（6种关系）

apkanalyzer-classpath.jar 中没有.class 文件

P80-MySQL

ChatGPT账号被封怎么办？进来看看解决办法

JSON Web Tokens (JWT) — the only explanation you will ever need

java程序员学前端-Vue2篇

【Vue基础】element快速入门