Python 网络爬取的时候使用那种框架

news2026/2/15 3:44:08

尽管现代的网站多采取前后端分离的方式进行开发了，但是对直接 API 的调用我们通常会有 token 的限制和可以调用频率的限制。

2023-09-19_11-42-21

因此，在一些特定的网站上，我们可能还是需要使用网络爬虫的方式获得已经返回的 JSON 数据结构，甚至是处理已经完成界面展示的数据了。

Selenium

与BeautifulSoup和Scrapy相比，Selenium是一个不同的工具。

Selenium 并不是为网络爬取而生的。它实际上是为网络测试而开发的。Selenium被用于网络应用程序的自动化测试。

它使网络浏览器自动化，你可以用它来代表你在浏览器环境中进行操作。然而，它后来也被纳入了网络爬取的范畴。Selenium可以发送网络请求，还带有一个分析器。通过Selenium，你可以从HTML文档中提取数据，就像你使用Javascript DOM API那样。

Selenium的主要优势在于它能加载Javascript，并能帮助你访问JavaScript背后的数据，而不一定要自己经历发送额外请求的痛苦。这使得Selenium不仅对自己有用，而且对其他工具也有用。

使用Scrapy或BeautifulSoup 的网络爬虫如果需要只有在加载Javascript文件时才能获得的数据，就会使用Selenium。

Selenium 会启动一个浏览器，同时在这个浏览器中进行操作的模拟。

同时 Selenium 还具有 HTML 的 DOM 分析能力，通过选择器，你可以选择需要的数据。

Scrapy

Scrapy是一个网络抓取框架，它配备了大量的工具，使网络抓取和爬取变得简单。它在设计上是多线程的，并建立在Twisted之上。Twisted是一个异步网络框架，遵循对服务器的非阻塞I/O调用。因为它是多线程和非阻塞的，所以它在性能方面实际上是最好的，实际上是3个工具中最快的。Scrapy比这三个工具的一个优势是，它带有发送请求和解析响应的模块。

Scrapy 是开发复杂的网络抓取和爬虫工具，因为你可以创建大量的工作者，而且每个工作者都能毫不费力地工作。它的建立是为了消耗更少的内存，并将CPU资源的使用降到最低。事实上，一些基准测试表明，Scrapy在抓取方面比其他工具快20倍。它是可移植的，而且其功能可以扩展。

与Scrapy相关的主要问题是，它不是一个以初学者为中心的工具。

Scrapy 的文档比较难读，学习曲线也比较陡峭，我不认为这个工具比较适合初学者来使用。

Scrapy的一个主要缺点是它不能渲染 JavaScript；你必须发送 Ajax 请求来获取隐藏在JavaScript事件后面的数据。

这种情况对当前前后端分离的技术来说，还是有点麻烦的，我们必须要比较清楚的分析 AJAX 的数据请求。