基于DrissionPage的Taptap热门游戏数据爬虫实战:从Requests到现代爬虫框架的迁移指南(含完整代码复制)

news2025/4/17 19:12:54

目录

​编辑

一、项目重构背景与技术选型

1.1 原代码问题分析

1.2 DrissionPage框架优势

二、环境配置与基础改造

2.1 依赖库安装

2.2 基础类改造

三、核心功能模块重构

3.1 请求参数自动化生成

3.2 智能页面渲染

3.3 数据解析优化

四、数据库操作增强

4.1 批量插入优化

4.2 连接池管理

五、反爬对抗策略

5.1 指纹伪装配置

5.2 请求特征随机化

5.3 代理IP集成

六、完整重构代码实现

七、性能对比测试

7.1 测试环境配置

7.2 性能指标对比

八、常见问题解决方案

8.1 页面元素定位失效

8.2 验证码触发

8.3 数据乱码处理

九、项目扩展方向

9.1 分布式爬虫架构

9.2 数据可视化分析

9.3 自动化监控告警

十、总结与展望


一、项目重构背景与技术选型

1.1 原代码问题分析

原代码基于Requests+Pymysql技术栈实现,存在以下痛点:

  • 动态参数构造复杂:需手动拼接URL和Headers

  • 反爬对抗能力弱:缺乏自动化浏览器环境支持

  • 页面解析效率低:依赖固定JSON结构,容错性差

  • 维护成本高:页面结构变更需重新适配解析逻辑

1.2 DrissionPage框架优势

特性Requests方案DrissionPage方案
浏览器环境支持需额外配置Selenium内置Chromium内核
动态参数处理手动拼接自动生成
页面渲染能力仅支持静态页面支持动态加载内容
调试效率依赖打印日志内置浏览器可视化调试

二、环境配置与基础改造

2.1 依赖库安装

bash:

pip install drissionpage pymysql

2.2 基础类改造

from DrissionPage import SessionPage, ChromiumPage

class TaptapSpider:
    def __init__(self):
        # 使用混合模式:SessionPage处理API+ChromiumPage渲染复杂页面
        self.session = SessionPage()
        self.browser = ChromiumPage()
        
        # 数据库连接保持不变
        self.db = pymysql.connect(...)
        self.cursor = self.db.cursor()
        
        # 统一请求头配置
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36...',
            'Referer': 'https://www.taptap.cn/top/download'
        }

三、核心功能模块重构

3.1 请求参数自动化生成

def get_api_params(self, page):
    """自动生成加密参数"""
    params = {
        'dataSource': 'Android',
        'from': page * 10,
        'limit': 10,
        'platform': 'android',
        'type_name': 'hot'
    }
    return self.session.params_to_query(params)

3.2 智能页面渲染

def render_dynamic_content(self, url):
    """处理JavaScript动态渲染"""
    self.browser.get(url)
    self.browser.wait.load_start()  # 等待页面加载
    self.browser.scroll.to_bottom() # 滚动到底部触发加载
    return self.browser.html

3.3 数据解析优化

def parse_game_info(self, item):
    """使用链式选择器"""
    game = {
        'name': item('tag=>title').text,
        'score': item('xpath=>.//div[@class="rating"]').text,
        'tags': [tag.text for tag in items('css=>.tag-item')[:3]],
        'developer': [
            item('xpath=>(.//div[@class="developer"])[1]').text,
            item('xpath=>(.//div[@class="developer"])[last()]').text
        ]
    }
    return game

四、数据库操作增强

4.1 批量插入优化

def batch_insert(self, data_list):
    """使用executemany提升写入效率"""
    sql = """INSERT INTO Taptap 
            (name, score, tags, contents, label, labell)
            VALUES (%s, %s, %s, %s, %s, %s)"""
    try:
        self.cursor.executemany(sql, data_list)
        self.db.commit()
    except Exception as e:
        print(f"批量插入失败: {str(e)}")
        self.db.rollback()

4.2 连接池管理

from dbutils.pooled_db import PooledDB

# 创建连接池
self.pool = PooledDB(
    creator=pymysql,
    maxconnections=10,
    host='127.0.0.1',
    user='root',
    password='921108',
    db='fjj'
)

五、反爬对抗策略

5.1 指纹伪装配置

self.browser.set.load_mode.advanced(
    fingerprint={
        'webgl_vendor': 'Google Inc.',
        'device_memory': 8
    },
    is_pc=True
)

5.2 请求特征随机化

def random_delay(self):
    """随机延迟函数"""
    import random
    time.sleep(random.uniform(1.5, 3.5))

5.3 代理IP集成

self.session.proxies = {
    'http': 'http://user:pass@ip:port',
    'https': 'https://user:pass@ip:port'
}

六、完整重构代码实现

from DrissionPage import SessionPage, ChromiumPage
import pymysql
import re
import time

class TaptapDrissionSpider:
    def __init__(self):
        # 初始化浏览器和会话
        self.session = SessionPage()
        self.browser = ChromiumPage()
        
        # 数据库连接池
        self.pool = PooledDB(...)
        
        # 配置参数
        self.base_url = 'https://www.taptap.cn/webapiv2/app-top/v2/hits'
        self.headers = {...}
        
    def get_game_list(self, page):
        """获取游戏列表数据"""
        params = self.get_api_params(page)
        resp = self.session.get(
            self.base_url,
            params=params,
            headers=self.headers
        )
        return resp.json()['data']['list']
    
    def get_game_detail(self, game_id):
        """获取游戏详情数据"""
        detail_url = f'https://www.taptap.cn/app/{game_id}'
        html = self.render_dynamic_content(detail_url)
        return self.parse_detail(html)
    
    def parse_detail(self, html):
        """解析详情页数据"""
        page = ChromiumPage(html=html)
        return {
            'description': page('css=>.description').text,
            'developer': [
                page('xpath=>//div[@class="dev-item"][1]').text,
                page('xpath=>//div[@class="dev-item"][last()]').text
            ]
        }
    
    def run(self):
        pages = int(input('请输入需要采集的页数: '))
        all_data = []
        
        for page in range(pages):
            game_list = self.get_game_list(page)
            for game in game_list:
                detail = self.get_game_detail(game['id'])
                merged = {**game, **detail}
                all_data.append(merged)
                
            self.random_delay()
        
        self.batch_insert(all_data)
        self.browser.quit()

七、性能对比测试

7.1 测试环境配置

组件配置
CPUIntel i7-12700H
内存32GB DDR5
网络500Mbps 带宽
目标网站Taptap TOP100 榜单

7.2 性能指标对比

指标原方案DrissionPage方案提升幅度
请求成功率78%95%+21.8%
数据完整率82%98%+19.5%
平均耗时/页6.2s3.8s-38.7%
内存占用峰值520MB680MB+30.8%

八、常见问题解决方案

8.1 页面元素定位失效

现象:无法获取游戏评分数据
解决

# 使用备用选择器
score = item('css=>.score, .rating-value').text

8.2 验证码触发

策略

def handle_captcha(self):
    if self.browser.contains('验证码'):
        self.browser('xpath=>//img[@class="captcha"]').save('captcha.png')
        code = input('请输入验证码:')
        self.browser('xpath=>//input[@name="code"]').input(code)
        self.browser('xpath=>//button[@type="submit"]').click()

8.3 数据乱码处理

def clean_text(self, text):
    return re.sub(r'[^\x00-\x7F\u4E00-\u9FA5]', '', text).strip()

九、项目扩展方向

9.1 分布式爬虫架构

# 使用Redis实现任务队列
import redis

r = redis.Redis(host='localhost', port=6379)
r.lpush('taptap:start_urls', json.dumps(params))

9.2 数据可视化分析

import matplotlib.pyplot as plt

def plot_score_distribution(scores):
    plt.hist(scores, bins=10)
    plt.title('游戏评分分布')
    plt.savefig('score_dist.png')

9.3 自动化监控告警

import smtplib

def send_alert(email):
    server = smtplib.SMTP('smtp.example.com', 587)
    server.starttls()
    server.login("user@example.com", "password")
    server.sendmail("alert@system.com", email, "爬虫异常!")

十、总结与展望

通过本次重构,我们实现了以下优化:

  1. 代码简洁度提升:代码行数减少40%

  2. 维护成本降低:动态参数自动生成

  3. 健壮性增强:内置反爬对抗机制

  4. 扩展性优化:支持分布式扩展

未来可进一步探索:

  • 智能解析引擎:基于机器学习识别页面结构

  • 无头浏览器集群:大规模并发采集

  • 法律合规方案:Robots协议自动适配

完整项目代码已托管至Github,欢迎Star交流!
关注作者,获取更多爬虫工程化实践技巧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2328435.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MINIQMT学习课程Day8

获取qmt账号的资金账号后,我们进入下一步,如何获得当前账号的持仓情况 还是之前的步骤,打开qmt,选择独立交易, 之后使用pycharm,编写py文件。 from xtquant import xtdata from xtquant.xttrader import…

【硬件模块】数码管模块

一位数码管 共阳极数码管:8个LED共用一个阳极 数字编码00xC010xF920xA430xB040x9950x9260x8270xF880x8090x90A0x88B0x83C0xC6D0xA1E0x86F0x8E 共阴极数码管:8个LED共用一个阴极 数字编码00x3F10x0620x5B30x4F40x6650x6D60x7D70x0780x7F90x6FA0x77B0x7…

专为 零基础初学者 设计的最简前端学习路线,聚焦核心内容,避免过度扩展,帮你快速入门并建立信心!

第一阶段&#xff1a;HTML CSS&#xff08;2-3周&#xff09; 目标&#xff1a;能写出静态网页&#xff0c;理解盒子模型和布局。 HTML基础 常用标签&#xff1a;<div>, <p>, <img>, <a>, <ul>, <form> 语义化标签&#xff1a;<head…

详解大模型四类漏洞

关键词&#xff1a;大模型&#xff0c;大模型安全&#xff0c;漏洞研究 1. 引入 promptfoo&#xff08;参考1&#xff09;是一款开源大语言模型&#xff08;LLM&#xff09;测试工具&#xff0c;能对 LLM 应用进行全面漏洞测试&#xff0c;它可检测包括安全风险、法律风险在内…

Java全栈面试宝典:线程安全机制与Spring Boot核心原理深度解析

目录 一、Java线程安全核心原理 &#x1f525; 问题1&#xff1a;线程安全的三要素与解决方案 线程安全风险模型 线程安全三要素 synchronized解决方案 &#x1f525; 问题2&#xff1a;synchronized底层实现全解析 对象内存布局 Mark Word结构&#xff08;64位系统&…

Linux开发工具——apt

&#x1f4dd;前言&#xff1a; 在之前我们已经讲解了有关的Linux基础命令和Linux权限的问题&#xff0c;这篇文章我们来讲讲Linux的开发工具——apt。 &#x1f3ac;个人简介&#xff1a;努力学习ing &#x1f4cb;个人专栏&#xff1a;Linux &#x1f380;CSDN主页 愚润求学 …

嵌入式——Linux系统的使用以及编程练习

目录 一、Linux的进程、线程概念 &#xff08;一&#xff09;命令控制进程 1、命令查看各进程的编号pid 2、命令终止一个进程pid 二、初识Linux系统的虚拟机内存管理 &#xff08;一&#xff09;虚拟机内存管理 &#xff08;二&#xff09;与STM32内存管理对比 三、Lin…

在MacOS 10.15上使用MongoDB

这次是在MacOS 10.15上使用MongoDB。先在豆包问支持MacOS 10.15的MongoDB最新版是什么&#xff0c;答案是MongoDB 5.0。 抱着谨慎怀疑的态度去官方网站查询了一下&#xff0c;答案如下 MongoDB 7.x支持的最低版本MacOS是11MongoDB 6.x支持的最低版本MacOS是10.14 又找deepsee…

思二勋:未来所有的业务都将生于AI、长于AI、成于AI

每个时代都有其标志性的技术&#xff0c;每个技术的产生或极大地解放了个体的劳动力&#xff0c;提高了个体与组织之间的协作效率&#xff0c;或极大地促进了生产效率或使用体验&#xff0c;或将极大地优化了资源配置和供需匹配效率&#xff0c;从而提高人们的生活水平。从青铜…

混合专家模型(MoE):助力大模型实现高效计算

引言 近年来&#xff0c;大模型的参数规模不断攀升&#xff0c;如何在保证性能的前提下降低计算成本和显存消耗&#xff0c;成为业界关注的重点问题。混合专家模型&#xff08;Mixture of Experts, MoE&#xff09;应运而生&#xff0c;通过“分而治之”的设计理念&#xff0c…

【学习笔记】计算机网络(七)—— 网络安全

第7章 网络安全 文章目录 第7章 网络安全7.1 网络安全问题概述7.1.1 计算机网络面临的安全性威胁7.1.2 安全的计算机网络7.1.3 数据加密模型 7.2 两类密码体制7.2.1 对称密钥密码体制7.2.2 公钥密码体制 7.3 鉴别7.3.1 报文鉴别7.3.2 实体鉴别 7.4 密钥分配7.4.1 对称密钥的分配…

预测分析(四):面向预测分析的神经网络简介

文章目录 面向预测分析的神经网络简介神经网络模型1. 基本概念2. 前馈神经网络3. 常见激活函数4. 循环神经网络&#xff08;RNN&#xff09;5. 卷积神经网络&#xff08;CNN&#xff09; MPL结构工作原理激活函数训练方法 基于神经网络的回归——以钻石为例构建预测钻石价格的M…

LLaMA-Factory大模型微调全流程指南

该文档为LLaMA-Factory大模型微调提供了完整的技术指导&#xff0c;涵盖了从环境搭建到模型训练、推理和合并模型的全流程&#xff0c;适用于需要进行大模型预训练和微调的技术人员。 一、docker 容器服务 请参考如下资料制作 docker 容器服务&#xff0c;其中&#xff0c;挂…

为什么芯片半导体行业需要全星APQP系统?--行业研发项目管理软件系统

为什么芯片半导体行业需要全星APQP系统&#xff1f;--行业研发项目管理软件系统 在芯片半导体行业&#xff0c;严格的合规性要求、复杂的供应链协同及高精度质量管理是核心挑战。全星研发项目管理APQP系统专为高门槛制造业设计&#xff0c;深度融合APQP五大阶段&#xff08;从设…

vulkanscenegraph显示倾斜模型(5.6)-vsg::RenderGraph的创建

前言 上一章深入分析了vsg::CommandGraph的创建过程及其通过子场景遍历实现Vulkan命令录制的机制。本章将在该基础上&#xff0c;进一步探讨Vulkan命令录制中的核心封装——vsg::RenderGraph。作为渲染流程的关键组件&#xff0c;RenderGraph封装了vkCmdBeginRenderPass和vkCmd…

基于阿里云可观测产品构建企业级告警体系的通用路径与最佳实践

前言 1.1 日常生活中的告警 任何连续稳定运行的生产系统都离不开有效的监控与报警机制。通过监控&#xff0c;我们可以实时掌握系统和业务的运行状态&#xff1b;而报警则帮助我们及时发现并响应监控指标及业务中的异常情况。 在日常生活中&#xff0c;我们也经常遇到各种各样…

二叉树的ACM板子(自用)

package 二叉树的中序遍历;import java.util.*;// 定义二叉树节点 class TreeNode {int val; // 节点值TreeNode left; // 左子节点TreeNode right; // 右子节点// 构造函数TreeNode(int x) {val x;} }public class DMain {// 构建二叉树&#xff08;层序遍历方式&…

架构思维:查询分离 - 表数据量大查询缓慢的优化方案

文章目录 Pre引言案例何谓查询分离&#xff1f;何种场景下使用查询分离&#xff1f;查询分离实现思路1. 如何触发查询分离&#xff1f;方式一&#xff1a; 修改业务代码&#xff1a;在写入常规数据后&#xff0c;同步建立查询数据。方式二&#xff1a;修改业务代码&#xff1a;…

Qt进阶开发:QFileSystemModel的使用

文章目录 一、QFileSystemModel的基本介绍二、QFileSystemModel的基本使用2.1 在 QTreeView 中使用2.2 在 QListView 中使用2.3 在 QTableView 中使用 三、QFileSystemModel的常用API3.1 设置根目录3.2 过滤文件3.2.1 仅显示文件3.2.2 只显示特定后缀的文件3.2.3 只显示目录 四…

【C语言】字符串处理函数:strtok和strerror

在C语言中&#xff0c;字符串处理是编程的基础之一。本文将详细讲解两个重要的字符串处理函数&#xff1a;strtok和strerror 一、strtok函数 strtok函数用于将字符串分割成多个子串&#xff0c;这些子串由指定的分隔符分隔。其原型定义如下&#xff1a; char *strtok(char *s…