如何设置Python爬虫的User-Agent？

news2025/2/18 15:51:10

在Python爬虫中设置User-Agent是模拟浏览器行为、避免被目标网站识别为爬虫的重要手段。User-Agent是一个HTTP请求头，用于标识客户端软件（通常是浏览器）的类型和版本信息。通过设置合适的User-Agent，可以提高爬虫的稳定性和成功率。

以下是几种常见的方法来设置Python爬虫中的User-Agent：

1. 使用`requests`库设置`User-Agent`

requests库是Python中最常用的HTTP请求库之一，它允许在发送请求时通过headers参数设置请求头，包括User-Agent。

示例代码：

import requests

# 目标URL
url = "https://example.com"

# 设置请求头
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}

# 发送GET请求
response = requests.get(url, headers=headers)

# 检查响应状态
if response.status_code == 200:
    print("请求成功")
    print(response.text)
else:
    print(f"请求失败，状态码: {response.status_code}")

2. 使用`BeautifulSoup`和`requests`设置`User-Agent`

如果你使用BeautifulSoup来解析HTML内容，同样需要通过requests库发送请求，并设置User-Agent。

示例代码：

import requests
from bs4 import BeautifulSoup

# 目标URL
url = "https://example.com"

# 设置请求头
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}

# 发送GET请求
response = requests.get(url, headers=headers)

# 检查响应状态
if response.status_code == 200:
    # 解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    print(soup.prettify())
else:
    print(f"请求失败，状态码: {response.status_code}")

3. 使用`Scrapy`框架设置`User-Agent`

如果你使用Scrapy框架来构建爬虫，可以在settings.py文件中全局设置User-Agent，或者在每个请求中动态设置。

全局设置`User-Agent`（在`settings.py`中）：

# settings.py
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'

动态设置`User-Agent`（在爬虫中）：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = "example"
    start_urls = ["https://example.com"]

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url=url, callback=self.parse, headers={
                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
            })

    def parse(self, response):
        # 解析响应内容
        self.logger.info("成功获取页面")

4. 使用随机`User-Agent`

为了避免被目标网站识别出规律性请求，可以使用随机的User-Agent。可以通过fake_useragent库生成随机的User-Agent。

安装`fake_useragent`库：

pip install fake_useragent

示例代码：

from fake_useragent import UserAgent
import requests

# 创建UserAgent对象
ua = UserAgent()

# 目标URL
url = "https://example.com"

# 设置随机User-Agent
headers = {
    "User-Agent": ua.random
}

# 发送GET请求
response = requests.get(url, headers=headers)

# 检查响应状态
if response.status_code == 200:
    print("请求成功")
    print(response.text)
else:
    print(f"请求失败，状态码: {response.status_code}")