使用Python构建强大的网络爬虫

news2024/9/30 19:11:18

介绍

网络爬虫是从网站收集数据的强大技术,而Python是这项任务中最流行的语言之一。然而,构建一个强大的网络爬虫不仅仅涉及到获取网页并解析其HTML。在本文中,我们将为您介绍创建一个网络爬虫的过程,这个爬虫不仅可以获取和保存网页内容,还可以遵循最佳实践。无论您是初学者还是经验丰富的开发人员,本指南都将为您提供构建既有效又尊重被抓取网站的网络爬虫所需的工具。

设置您的环境

在深入代码之前,请确保您的计算机上已安装Python。您还需要安装requests和BeautifulSoup库。您可以使用pip来安装它们:

pip install requests beautifulsoup4

基本网络爬虫

让我们首先查看一个简单的网络爬虫脚本。此脚本获取一个网页,提取其标题和文本内容,并将它们保存到文本文件中。

import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
# ...(其余代码)

为什么使用requests和BeautifulSoup?

  • Requests:此库允许您发送HTTP请求并处理响应,因此在获取网页时至关重要。

  • BeautifulSoup:此库用于解析HTML并提取所需的数据。

创建输出目录

在进行抓取之前,有一个目录可以保存抓取到的数据非常关键。

if not os.path.exists(output_folder):
    os.makedirs(output_folder)

为什么这很重要?

创建专用的输出目录有助于组织抓取到的数据,使以后的分析更加容易。

网页遍历

该脚本使用广度优先搜索方法来遍历网页。它维护一个 visited 集合和一个 to_visit 的URL列表。

visited = set()
to_visit = [base_url]

网页遍历的必要性

网页遍历对于从一个网站抓取多个页面非常重要。visited 的集合确保您不会重新访问相同的页面,而 to_visit 的列表则用作您打算抓取的页面的队列。

获取和解析网页

获取网页涉及发送HTTP GET请求,而解析涉及将HTML内容转换为BeautifulSoup对象。

response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

为什么获取和解析?

获取可获取原始HTML内容,但解析允许您浏览此内容并提取所需的数据。

数据提取和存储

该脚本从各种HTML标签中提取标题和文本内容,并将它们保存到文本文件中。

title = soup.title.string if soup.title else "未找到标题"
# ...(其余代码)

数据提取和存储的重要性

数据提取是网络爬虫的核心。有效存储这些数据有助于更容易地进行分析和共享。

错误处理和速率限制

该脚本检查HTTP状态码,但缺乏全面的错误处理和速率限制。

if response.status_code != 200:
    print(f"无法检索{url}。状态码:{response.status_code}")

为什么需要错误处理和速率限制?

错误处理确保您的爬虫可以从意外问题中恢复,而速率限制可以防止您的爬虫过于频繁地访问服务器并被封锁IP地址。

网络爬虫的效用

网络爬虫不仅仅是一个技术练习;它具有现实世界的应用,可以推动业务决策、学术研究等各种领域。

为什么网络爬虫很重要?

  • 数据汇总:网络爬虫允许您将来自各种来源的数据收集到一个地方。这对于市场研究、情感分析或竞争分析特别有用。

  • 自动化:手动收集数据可能会耗费时间并且容易出错。网络爬虫自动化了这个过程,节省了时间并减少了错误。

  • 内容监控:您可以使用网络爬虫来监控竞争对手网站、股价或新闻更新等内容的变化。

  • 机器学习和数据分析:通过网络爬虫收集的数据可以用于训练机器学习模型或进行高级数据分析。

  • SEO监控:网络爬虫可以帮助跟踪您的网站的SEO表现,为您提供如何提高搜索引擎排名的见解。

强大网络爬虫的高级功能

虽然基本爬虫是功能性的,但缺少一些功能,这些功能可以使它更强大和多功能。让我们讨论一些您可能考虑添加的高级功能。

用户代理和头文件

一些网站可能会阻止不包含用户代理字符串的请求,该字符串用于识别发出请求的客户端。

headers = {'User-Agent': 'your-user-agent-string'}
response = requests.get(url, headers=headers)

代理轮换

为了避免IP地址被封锁,您可以使用多个IP地址发出请求。

proxies = {'http': 'http://10.10.1.10:3128'}
response = requests.get(url, proxies=proxies)

CAPTCHA处理

一些网站使用CAPTCHA来防止自动抓取。虽然可以使用selenium等库来处理这些挑战,但这可能会使您的爬虫变得更加复杂。

from selenium import webdriver


driver = webdriver.Firefox()
driver.get(url)
# ...(CAPTCHA处理代码)

数据存储

您可以考虑使用MongoDB或SQL数据库来存储抓取的数据,而不是将其存储在文本文件中,以实现更结构化和可扩展的存储。

import pymongo


client = pymongo.MongoClient("mongodb://localhost:27017/")
db = client["抓取的数据"]
collection = db["网页"]
collection.insert_one({"url": url, "title": title, "content": full_text})

将它们组合起来

import os
import time
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin


def fetch_content(base_url, output_folder):
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)


    visited = set()
    to_visit = [base_url]
    headers = {'User-Agent': 'your-user-agent-string'}
    
    while to_visit:
        url = to_visit.pop(0)
        if url in visited:            
            continue


        try:
            response = requests.get(url, headers=headers, timeout=10)
            response.raise_for_status()
        except requests.RequestException as e:            
            print(f"无法检索{url}。错误:{e}")            
            continue


        visited.add(url)
        soup = BeautifulSoup(response.text, 'html.parser')


        title = soup.title.string if soup.title else "未找到标题"


        text_content = []        
        for paragraph in soup.find_all(['p', 'div', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6']):
            text_content.append(paragraph.text)


        full_text = "\n".join(text_content)


        output_file_path = os.path.join(output_folder, f"{len(visited)}.txt")        
        with open(output_file_path, 'w', encoding='utf-8') as f:
            f.write(f"URL: {url}\n")
            f.write(f"Title: {title}\n")
            f.write("=====================================\n")
            f.write(f"Text Content:\n{full_text}\n\n")        
        
        print(f"已保存从{url}抓取的数据到{output_file_path}")        
        
        for a_tag in soup.find_all('a', href=True):
            next_url = urljoin(base_url, a_tag['href'])            
            if base_url in next_url:
                to_visit.append(next_url)


        time.sleep(1)  # 速率限制以避免过于频繁地访问服务器
    
if __name__ == "__main__":
    base_url = "https://www.example.com/"
    output_folder = "抓取的页面"
    fetch_content(base_url, output_folder)

关键添加

  • 用户代理字符串:headers字典包含一个用户代理字符串,以帮助绕过网站上的基本安全检查。

headers = {'User-Agent': 'your-user-agent-string'}
  • 错误处理:在requests.get()方法周围的try-except块可以优雅地处理与网络相关的错误。

try:
    response = requests.get(url, headers=headers, timeout=10)
    response.raise_for_status()
except requests.RequestException as e:    
    print(f"无法检索{url}。错误:{e}")    
    continue
  • 速率限制:添加了time.sleep(1)以在请求之间暂停一秒钟,减少IP地址被封锁的风险。

time.sleep(1)

通过添加这些功能,我们使网络爬虫更加强大,并确保其尊重与之交互的网站。这是一个很好的起点,随着您继续完善网络爬虫,您可以添加更多高级功能,如代理轮换、CAPTCHA处理和数据库存储。

结论和未来方向

网络爬虫是一个功能强大的工具,具有广泛的应用,从业务到学术都有。然而,构建一个强大的网络爬虫不仅仅涉及到获取网页并解析其HTML。本文为您提供了每个步骤的综合指南,不仅解释了如何实现每个功能,还解释了每个功能为什么必要。

在继续完善您的网络爬虫时,考虑添加高级功能,如用户代理字符串、代理轮换、CAPTCHA处理和数据库存储。这些功能将使您的爬虫更加强大、多功能,并确保尊重您正在抓取的网站。有了这些工具,您将成功迈向成为一个网络爬虫专家。祝愉快抓取!

·  END  ·

HAPPY LIFE

7a9f988ea865be9f5ebb93f9b4d9b16e.png

本文仅供学习交流使用,如有侵权请联系作者删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1024958.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机视觉与深度学习-全连接神经网络-训练过程-权值初始化- [北邮鲁鹏]

文章目录 思想避免全零初始化随机权值初始化权值初始化太小:权值初始化太大Xavier初始化目标为什么输入和输出分布会变得不同?Xavier在使用Tanh时的表现好Xavier在使用ReLU时的表现不好 HE初始化(MSRA)权值初始化总结 思想 通过调…

Kafka 集群与可靠性

文章目录 Kafka集群的目标Kafka集群规模如何预估Kafka集群搭建实战Kafka集群原理成员关系与控制器集群工作机制replication-factor参数auto.leader.rebalance.enable参数 集群消息生产可靠的生产者ISR(In-sync Replicas)使用ISR方案的原因ISR相关配置说明…

一键转换!轻松将视频转换为TS格式,让您的视频播放更顺畅!

尊敬的用户们,您是否遇到过需要将视频转换为TS格式的情况,但不知道应该如何操作?现在,我们为您提供一款简单而高效的工具,让您轻松将视频转换为TS格式,让您的视频播放更加顺畅! 首先&#xff0…

【flutter】架构之商城main入口

架构之商城main入口 前言一、项目模块的划分二、入口main的配置三、配置文件怎么做总结 前言 本栏目我们将完成一个商城项目的架构搭建,并完善中间的所有功能,总页面大概200个,如果你能看完整个栏目,你肯定能独立完成flutter 项目…

Java-根据模板生成PDF

文章目录 前言一、准备模板二、代码实现三、源代码总结 前言 在有些场景下我们可能需要根据指定的模板来生成 PDF,比如说合同、收据、发票等等。因为 PDF 是不可编辑的,所以用代码直接对 PDF 文件进行修改是很不方便的,这里我是通过 itext 和…

优思学院|六西格玛核心方法:CTQ关键质量树

在六西格玛管理方法中,CTQ是Critical-To-Quality的缩写。CTQ代表客户需求,这些需求被认为是项目/产品/流程的成功与否的关键因素,得到了执行团队的认可。CTQ树最初是作为六西格玛方法的一部分开发的。然而,您可以在各种情况下使用…

VERTU钛合金材质手机创新应用,领先苹果十年之久

9月13日,苹果发布了iPhone15系列手机,值得一提的是,这是苹果首次使用钛合金材质,也是苹果引以为傲的创新之一。钛合金是一种轻质、耐腐蚀、强度高的材料,由此应用于智能手机,可以提升手机的整体强度、耐摔性和耐刮擦性。 然而,一个备受关注的事实是,英国奢侈手机品牌VERTU早在六…

上海亚商投顾:沪指震荡反弹 汽车产业链全天强势

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 一.市场情绪 大小指数昨日集体反弹,沪指3100点失而复得,创业板指一度涨超1.5%,随后涨幅…

Vue的第三章节之模版语法下篇(带你感受来自Vue模版语法的魅力)

目录 ​编辑 前言 一、事件处理器 1. 事件冒泡模拟及处理方式 1.1 模拟 1.2 处理方式 1.3 事件冒泡模型图 2. 事件修饰符 3. 事件修饰符的使用 案例模拟使用 二、表单的综合案例(在控制台输出结果) 1. 模拟案例测试 代码 效果 三、 Vue之自…

Vue模板语法(下)

事件处理器 <!DOCTYPE html> <html><head><meta charset"utf-8"><title></title><script src"https://cdn.bootcdn.net/ajax/libs/jquery/3.7.1/jquery.min.js"></script><script src"https://c…

内存利用:迟来的blindless与逃不掉的exit漏洞

0x01 前言 在计算机安全领域&#xff0c;漏洞的危险性往往与其广泛性和潜在攻击方式密切相关。今天&#xff0c;我们将深入探讨一个异常危险的漏洞&#xff0c;它存在于程序退出时执行的常见函数"exit"中。无论是在操作系统还是应用程序中&#xff0c;"exit&qu…

【Vue.js】快速入门与工作生命周期的使用

&#x1f3ac; 艳艳耶✌️&#xff1a;个人主页 &#x1f525; 个人专栏 &#xff1a;《Spring与Mybatis集成整合》 《springMvc使用》 ⛺️ 生活的理想&#xff0c;为了不断更新自己 ! 目录 ​编辑 1.Vue是什么 2.Vue的特点及优势 3. 使用Vue的详细步骤 3.1.导入 3.2…

资源超分是什么?

经常听到资源超分&#xff0c;但是具体指的什么还不清楚&#xff0c;哪里来的术语 https://www.modb.pro/db/199368 3&#xff0e;超线程技术管理及如何开启 超线程是intel研发的技术&#xff0c;利用特殊的硬件指令&#xff0c;把一个物理CPU核模拟成两个逻辑内核&#xff…

点成案例丨温度梯度培养箱在探究温度对植物发芽影响中的应用

变暖的气候与受影响的种子 全球变暖是指由于人类工业化和燃烧化石燃料等活动释放了大量温室气体&#xff0c;这些气体进入大气层导致地球气温在过去几十年里逐渐升高的现象。全球气候变暖带来了一系列严重的环境问题&#xff1a;温度升高导致冰川和极地冰层融化&#xff0c;海…

中秋节要来了,程序猿的你还要加班吗

其他人的中秋节是这样的&#xff1a; 明月松间照&#xff0c;清泉石上流。 程序猿的中秋节是这样的&#xff1a; 明月几时有&#xff1f;把酒问青天。 首先&#xff0c;跟大家开个玩笑。希望中秋节的你&#xff0c;不要加班&#xff0c;毕竟身体是革命的本钱嘛。 中秋&…

初识 python 装饰器

1.什么是装饰器&#xff1f; 装饰器&#xff08;Decorator&#xff09;是Python中一种用于修改函数或类的行为的设计模式。装饰器允许您在不修改原始函数或类的情况下&#xff0c;给它们添加新的功能&#xff0c;这使得代码更具可重用性和可扩展性。简而言之&#xff0c;就是一…

17.适配器模式(Adapter)

意图&#xff1a;将一个类的接口转换为Client希望的另一个接口&#xff0c;使得原本由于接口不兼容而不能一起工作的那些类在一起工作。 UML图 Target&#xff1a;定义Client使用的与特定领域相关的接口。 Client&#xff1a;与符合Target接口的对象协同工作。 Adaptee&#xf…

华为OD机试 - 求最多可以派出多少支团队 - 双指针(Java 2023 B卷 100分)

目录 专栏导读一、题目描述二、输入描述三、输出描述四、解题思路五、Java算法源码六、效果展示1、输入2、输出3、说明 华为OD机试 2023B卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&#xff08;A卷B卷&#…

Linux提权辅助工具Linux Exploit Suggester

Linux提权辅助工具Linux Exploit Suggester 1.概述2.工具使用3.已经有人二开了 1.概述 Linux Exploit Suggester是一款根据操作系统版本号自动查找相应提权脚本的工具 Linux Exploit Suggester的官方下载地址为https://github.com/PenturaLabs/Linux_Exploit_Suggester 2.工具…

Linux内核源码分析 (B.4) 深度剖析 Linux 伙伴系统的设计与实现

Linux内核源码分析 (B.4) 深度剖析 Linux 伙伴系统的设计与实现 文章目录 1\. 伙伴系统的核心数据结构2\. 到底什么是伙伴3\. 伙伴系统的内存分配原理4\. 伙伴系统的内存回收原理5\. 进入伙伴系统的前奏5.1 获取内存区域 zone 里指定的内存水位线5.2 检查 zone 中剩余内存容量…