Python网络爬虫：基础与实战！附淘宝抢购源码

Python网络爬虫是一个强大的工具，用于从互联网上自动抓取和提取数据。下面我将为你概述Python网络爬虫的基础知识和一些实战技巧。

Python网络爬虫基础

1. HTTP请求与响应

网络爬虫的核心是发送HTTP请求到目标网站并接收响应。Python中的requests库是处理HTTP请求的一个非常流行的库。

import requests

url = 'http://example.com'
response = requests.get(url)

# 检查响应状态码
if response.status_code == 200:
    print('请求成功')
    html = response.text  # 获取响应的HTML内容
else:
    print('请求失败')

2. 解析HTML

一旦你获取了HTML内容，下一步就是解析它以提取所需的数据。Python中有多种库可以用来解析HTML，如BeautifulSoup和lxml。

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
# 使用BeautifulSoup的API来查找和提取数据
titles = [title.text for title in soup.find_all('title')]

3. 处理JavaScript渲染的内容

如果目标网站的内容是通过JavaScript动态加载的，那么你可能需要使用Selenium来模拟浏览器行为。

pip install selenium

并下载相应的WebDriver。

from selenium import webdriver

driver = webdriver.Chrome(executable_path='path/to/chromedriver')
driver.get('http://example.com')
# 使用Selenium的API来查找和交互元素
element = driver.find_element_by_id('some-id')
print(element.text)
driver.quit()

4. 遵守robots.txt

在编写爬虫时，你应该尊重网站的robots.txt文件。这个文件告诉爬虫哪些页面可以访问，哪些不可以。

import requests

url = 'http://example.com/robots.txt'
response = requests.get(url)
robots_txt = response.text
# 解析robots.txt以确定哪些页面可以抓取

实战技巧

1. 使用代理和头信息

为了绕过一些简单的反爬虫机制，你可以使用代理和自定义头信息来模拟不同的用户和设备。

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
proxies = {
    'http': 'http://10.10.1.10:3128',
    'https': 'http://10.10.1.10:1080',
}

response = requests.get(url, headers=headers, proxies=proxies)

2. 处理登录和会话

如果需要登录才能访问某些页面，你可能需要处理登录表单并维护会话。

# 假设你已经通过POST请求登录并获取了cookies
cookies = {'session_id': 'your_session_id'}

response = requests.get(url, cookies=cookies)

或者使用Session对象来自动管理cookies和会话。

s = requests.Session()
s.post('http://example.com/login', data={'username': 'user', 'password': 'pass'})
response = s.get('http://example.com/protected_page')

3. 分布式爬虫

对于大型项目，你可能需要构建分布式爬虫系统来加快抓取速度和处理能力。这通常涉及到使用消息队列（如RabbitMQ）来分发任务，并使用多个爬虫实例来并行处理。

4. 遵守法律和道德

最后但同样重要的是，始终遵守法律和道德准则。不要抓取受版权保护的数据，不要对目标网站造成不必要的负担，并尊重网站的robots.txt文件。

案例：爬取淘宝商品
第一步：

思路很简单，就是让“程序”帮我们自动打开浏览器，进入淘宝，然后到购物车等待抢购时间，自动购买并支付。

第二步：

导入模块，我们需要一个时间模块，抢购的时间，还有一个Python的自动化操作。代码如下：

import datetime #模块
now = datetime.datetime.now().strftime('Y-m-d H:M:S.f')
import time
#全自动化Python代码操作
from selenium import webdriver

第三步：

根据我们的思路，首先需要程序帮我们打开谷歌浏览器，并输入“「http://www.taobao.com」”，然后点击登录，进入到购物车。代码如下：

times = "2021-11-04 21:00:00.00000000"
browser = webdriver.Chrome()
browser.get("https://www.taobao.com")
time.sleep(3)                               #点击
browser.find_element_by_link_text("亲，请登录").click()

不过这里有一个问题就是，我们不能把我们的账户、密码写在代码里边，这样很容易泄露，所以这里采取手动扫码登录

print(f"请尽快扫码登录")
time.sleep(10)
browser.get("https://cart.taobao.com/cart.htm")
time.sleep(3)

第四步：

进入购物车，等待抢购时间然后购买。

首先这个程序不能帮我们去挑选商品，所以我们得提前把商品加入到购物车里面。

等到了抢购时间，直接全选商品购买就可以了。

#是否全选购物车
while True:
    try:
        if browser.find_element_by_id("J_SelectAll1"):
            browser.find_element_by_id("J_SelectAll1").click()
            break
    except:
        print(f"找不到购买按钮")


while True:
    #获取电脑现在的时间,                      year month day
    now = datetime.datetime.now().strftime('Y-m-d H:M:S.f')
    # 对比时间，时间到的话就点击结算
    print(now)
    #判断是不是到了秒杀时间?
    if now > times:
        # 点击结算按钮
        while True:
            try:
                if browser.find_element_by_link_text("结 算"):
                    print("here")
                    browser.find_element_by_link_text("结 算").click()
                    print(f"主人,程序锁定商品,结算成功")
                    break
            except:
                pass
        # 点击提交订单按钮
        while True:
            try:
                if browser.find_element_by_link_text('提交订单'):
                    browser.find_element_by_link_text('提交订单').click()
                    print(f"抢购成功，请尽快付款")
            except:
                print(f"主人,我已帮你抢到商品啦,您来支付吧")
                break
        time.sleep(0.01)