使用 Python 实现高效网页爬虫——从获取链接到数据保存

news2024/12/28 21:33:30

前言

在这个时代，网络爬虫已成为数据分析与信息收集不可或缺的技术之一。本文将通过一个具体的Python项目来介绍如何构建一个简单的网络爬虫，它能够自动抓取指定网站的文章链接、标题、正文内容以及图片链接，并将这些信息保存为CSV文件。
目标网站
在这里插入图片描述

一、准备工作

在开始编写爬虫之前，确保你的Python环境中已经安装了必要的库。可以通过pip命令来安装：

pip install drissionpage pandas fake-useragent

接下来，我们导入所需的库，并初始化一些变量：

import csv
import time
from DataRecorder import Recorder
import concurrent.futures
from DrissionPage import ChromiumPage, ChromiumOptions
from fake_useragent import UserAgent
import pandas as pd

二、定义工具类与函数

1. 数据记录器

首先定义一个DataRecorder类来处理数据存储逻辑，这里假设DataRecorder类已经被实现，它负责将爬取的数据写入到CSV文件中。

# 初始化记录器
recorder = Recorder(path=r"data.csv", cache_size=1000)
recorder.add_data(['链接', '标题', '文章内容', '图片链接'])

2. 创建Chromium页面实例

为了模拟真实用户访问行为，每次创建一个新的Chromium页面实例时都会随机生成一个User-Agent。

# 创建一个新的 Chromium 页面实例
def create_chromium_page():
    co = ChromiumOptions()
    user_agent = UserAgent().random
    print(user_agent)
    co.set_user_agent(user_agent=user_agent)
    return ChromiumPage(addr_or_opts=co)