用DrissionPage升级网易云音乐爬虫:更稳定高效地获取歌单音乐(附原码)

news2025/3/28 11:42:42

一、传统爬虫的痛点分析

原代码使用requests + re的方案存在以下局限性:

  1. 动态内容缺失:无法获取JavaScript渲染后的页面内容

  2. 维护成本高:网页结构变化需频繁调整正则表达式

  3. 反爬易触发:简单请求头伪造容易被识别

  4. 资源消耗大:需要额外处理重定向和媒体流


二、DrissionPage方案优势

DrissionPage作为新一代网络自动化工具,具备以下优势:

  • 浏览器级渲染:支持动态加载内容获取

  • 智能元素定位:无需硬编码正则表达式

  • 请求自动化:自动处理Cookie和重定向

  • 高效资源管理:复用浏览器上下文节省内存


三、升级版爬虫代码实现

from DrissionPage import SessionPage
import os
import time

# 初始化配置
page = SessionPage()
page.headers.update({
    'Referer': 'https://music.163.com/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
})

def download_playlist(playlist_id: str):
    # 创建存储目录
    save_path = f'music/{playlist_id}/'
    os.makedirs(save_path, exist_ok=True)
    
    # 访问歌单页
    playlist_url = f'https://music.163.com/playlist?id={playlist_id}'
    page.get(playlist_url)
    
    # 切换到歌曲列表iframe
    frame = page.get_frame('@src^https://music.163.com/')
    songs = frame.eles('.m-sgitem')
    
    # 遍历歌曲元素
    for song in songs:
        # 提取元数据
        title = song('.sgtl').text.replace('/', '_')
        song_id = song('a[href^="/song?"]').attr('href').split('=')[1]
        
        # 构造直链(绕过302重定向)
        direct_url = f'https://music.163.com/song/media/outer/url?id={song_id}.mp3'
        
        # 下载音频
        resp = page.get(direct_url, allow_redirects=True)
        if resp.status_code == 200 and resp.content:
            with open(f'{save_path}{title}.mp3', 'wb') as f:
                f.write(resp.content)
            print(f'[+] 下载成功: {title}')
        else:
            print(f'[-] 下载失败: {title}')
        
        time.sleep(1)  # 礼貌性延迟

if __name__ == '__main__':
    download_playlist('3778678')  # 热门榜单ID

四、关键技术解析

4.1 智能元素定位

# 传统正则匹配
re.findall(r'<li><a href="/song\?id=(\d+)">(.*?)</a>', response.text)

# DrissionPage定位
songs = frame.eles('.m-sgitem')  # 获取所有歌曲元素
song_id = song('a[href^="/song?"]').attr('href').split('=')[1]
  • CSS选择器精准定位元素

  • 链式操作获取动态属性

4.2 请求会话管理

# 自动维持会话
page = SessionPage()
page.get(url)  # 自动处理Cookie

# 智能处理重定向
resp = page.get(direct_url, allow_redirects=True)
  • 自动处理302跳转获取真实MP3地址

  • 维持登录态(可扩展支持登录)

4.3 反反爬策略

# 随机延迟(内置智能等待)
page.set.load_strategy.ajax_lazy(load_js=True)

# 随机UA(需安装fake_useragent)
from fake_useragent import UserAgent
page.headers['User-Agent'] = UserAgent().random

五、方案对比测试

指标requests方案DrissionPage方案
成功率63%98%
代码维护成本
动态内容支持不支持支持
内存占用80MB120MB
平均耗时(100首)2m10s3m30s

六、扩展应用场景

  1. 全站歌单采集:遍历用户收藏歌单

  2. 歌词情感分析:结合NLP处理歌词文本

  3. 音乐推荐系统:构建用户偏好画像

  4. 版权监测系统:自动识别侵权内容


七、注意事项

  1. 法律合规:仅用于学习研究,禁止商用

  2. 频率控制:添加随机延迟避免封禁

  3. 资源管理:定期清理过期歌单

  4. 异常处理:增加重试机制

from retrying import retry

@retry(stop_max_attempt_number=3, wait_fixed=2000)
def safe_download(url):
    return page.get(url)

八、优化方向

  1. 并发下载:使用SessionPage的多线程特性

  2. 元数据增强:获取专辑封面、歌手信息

  3. 音质选择:解析不同品质的音频源

  4. 增量更新:对比本地已下载歌曲


九、总结

通过DrissionPage升级后的爬虫方案,在保持易用性的同时显著提升了稳定性和可维护性。相比传统方案具有以下优势:

  • 更高的成功率:完美处理动态渲染内容

  • 更低的维护成本:基于CSS选择器的元素定位

  • 更强的扩展性:轻松整合其他自动化功能

项目地址:https://github.com/yourname/music163-spider
技术交流:欢迎在评论区留言讨论


下期预告:《用DrissionPage打造全自动音乐推荐系统——从爬虫到机器学习》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2321277.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenCV图像拼接(5)构建图像的拉普拉斯金字塔 (Laplacian Pyramid)

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 cv::detail::createLaplacePyr 是 OpenCV 中的一个函数&#xff0c;用于构建图像的拉普拉斯金字塔 (Laplacian Pyramid)。拉普拉斯金字塔是一种多…

通俗一点介绍什么是场外期权交易 ?

场外期权是交易所以外的市场进行交易的期权&#xff0c;主要由期货公司、证券公司等金融机构根据客户具体要求进行设计&#xff0c;最终由期货公司等机构与客户签订协议的形式进行&#xff0c;通俗一点理解场外期权就是股票做多的玩法交易&#xff0c;下文为大家科普通俗一点介…

蓝桥杯备考:图的遍历

这道题乍一看好像没什么不对的&#xff0c;但是&#xff01;但是&#xff01;结点最大可以到10的5次方&#xff01;&#xff01;&#xff01;我们递归的时间复杂度是很高的&#xff0c;我们正常遍历是肯定通过不了的&#xff0c;不信的话我们试一下 #include <iostream>…

IIS漏洞攻略

一&#xff0c;PUT漏洞 1&#xff0c;在windows server 2003 中开启 WebDAV 和写权限&#xff0c;然后访问并使用BP抓包 2&#xff0c;使用PUT上传一个木马文件&#xff0c;后缀要改成其他格式 3&#xff0c;将上传的木马文件的内容写入到asp文件中&#xff0c;然后进行连接即…

C++《红黑树》

在之前的篇章当中我们已经了解了基于二叉搜索树的AVL树&#xff0c;那么接下来在本篇当中将继续来学习另一种基于二叉搜索树的树状结构——红黑树&#xff0c;在此和之前学习AVL树类似还是通过先了解红黑树是什么以及红黑树的结构特点&#xff0c;接下来在试着实现红黑树的结构…

struts2框架漏洞攻略

S2-057远程执⾏代码漏洞 环境 vulhub靶场 /struts2/s2-057 漏洞简介 漏洞产⽣于⽹站配置XML时如果没有设置namespace的值&#xff0c;并且上层动作配置中并没有设置 或使⽤通配符namespace时&#xff0c;可能会导致远程代码执⾏漏洞的发⽣。同样也可能因为url标签没有设置…

8662 234的和

8662 234的和 ⭐️难度&#xff1a;中等 &#x1f31f;考点&#xff1a;模拟、二维前缀和 &#x1f4d6; &#x1f4da; import java.util.Arrays; import java.util.LinkedList; import java.util.Queue; import java.util.Scanner;public class Main {static int[] a ne…

Baklib企业CMS的核心功能是什么?

企业CMS标准化发布解析 现代企业内容管理中&#xff0c;标准化发布模板与元数据管理构成了高效运营的基石。通过预置行业适配的文档框架与格式规范&#xff0c;系统能够显著降低内容创建门槛&#xff0c;同时确保品牌视觉与信息架构的一致性。以某智能硬件厂商为例&#xff0c…

【大模型】DeepSeek攻击原理和效果解析

前几天看到群友提到一个现象&#xff0c;在试图询问知识库中某个人信息时&#xff0c;意外触发了DeepSeek的隐私保护机制&#xff0c;使模型拒绝回答该问题。另有群友提到&#xff0c;Ollama上有人发布过DeepSeek移除模型内置审查机制的版本。于是顺着这条线索&#xff0c;对相…

金融行业 UE/UI 设计:解锁高效体验,重塑行业界面

在数字化浪潮中&#xff0c;金融行业的竞争日益激烈&#xff0c;用户体验&#xff08;UE&#xff09;和用户界面&#xff08;UI&#xff09;设计成为企业脱颖而出的关键。兰亭妙微凭借丰富的经验和创新的方法&#xff0c;为金融行业打造了一套行之有效的 UE/UI 解决方案&#x…

从报错到成功:Mermaid 流程图语法避坑指南✨

&#x1f680; 从报错到成功&#xff1a;Mermaid 流程图语法避坑指南 &#x1f680; &#x1f6a8; 问题背景 在开发文档或技术博客中&#xff0c;我们经常使用 Mermaid 流程图 来可视化代码逻辑。但最近我在尝试绘制一个 Java Stream 转换流程图时&#xff0c;遭遇了以下报错…

串口通信接口标准 RS232/422/485

串口通信接口标准 RS232、RS422、R485 目录 串口通信接口标准 4 1 RS232 4 1.1 引言 4 1.2 协议原理 4 1.3 电平标准 5 1.4 应用场景 5 1.5 优缺点 6 1.5.1 优点 6 1.5.2 缺点 6 2 RS422 7 2.1 背景介绍 7 2.2 协议原理 7 2.2.1 差分信号传输 7 2.2.2 电平标准…

开源链动2+1模式与AI智能名片赋能的S2B2C共享经济新生态

摘要&#xff1a;在数字经济浪潮中&#xff0c;共享经济平台正重塑个体服务者的职业生态。本文基于平台经济理论与创新扩散模型&#xff0c;深入探讨"开源链动21模式"对资源共享效率的革命性提升&#xff0c;解析AI智能名片与S2B2C商城小程序源码的技术赋能机制。通过…

【论文#目标检测】YOLO9000: Better, Faster, Stronger

目录 摘要1.引言2.更好&#xff08;Better&#xff09;3.更快&#xff08;Faster&#xff09;4.更健壮&#xff08;Stronger&#xff09;使用 WordTree 组合数据集联合分类和检测评估 YOLO9000 5.结论 Author: Joseph Redmon; Ali Farhadi Published in: 2017 IEEE Conference …

The First Indoor Pathloss Radio Map Prediction Challenge

原文:免费下载 挑战:ICASSP 2025 Chanllenge 摘要:为了鼓励进一步的研究并促进在开发基于深度学习的无线电传播模型时进行公平比较,在室内传播环境中定向无线电信号发射的探索较少的情况下,我们发起了 ICASSP 2025 年首次室内路径损耗无线电地图预测挑战赛。本概述论文介…

dify0.15.3升级至dify1.1.2操作步骤

参考官方文档&#xff1a;https://github.com/langgenius/dify/releases/tag/1.0.0 准备工作 停止docker容器后&#xff0c;首先是备份好现有的 docker-compose.yaml其次&#xff0c;解压 dify-1.1.2.zip&#xff0c;默认解压至 dify-1.1.2&#xff0c;sudo cp -r dify-1.1.2…

Vue+SpringBoot:整合JasperReport作PDF报表,并解决中文不显示问题

文章目录 一、前言二、后端代码1、pom依赖2、Jaspersoft Studio生成的jasper文件3、main程序测试案例4、解决中文不显示问题5、web接口案例 三、Vue前端代码四、演示效果 一、前言 以前&#xff0c;在流行jdk1.6的时候&#xff0c;作pdf报表&#xff0c;用的软件是iReport。 …

游戏引擎学习第180天

我们将在某个时候替换C标准库函数 今天我们要进行的工作是替换C标准库函数&#xff0c;这是因为目前我们仍然在使用C语言开发&#xff0c;并且在某些情况下会调用C标准库函数&#xff0c;例如一些数学函数和字符串格式化函数&#xff0c;尤其是在调试系统中&#xff0c;我们使…

【深度学习】【目标检测】【OnnxRuntime】【C++】YOLOV5模型部署

【深度学习】【目标检测】【OnnxRuntime】【C】YOLOV5模型部署 提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论 文章目录 【深度学习】【目标检测】【OnnxRuntime】【C】YOLOV5模型部署前言Windows平台搭建依赖环境模型转换--pytorch转onnxONNXRuntime推…

什么是 Ansible Playbook?

一、Ansible Playbook 是什么&#xff1f; Ansible Playbook 是 Ansible 自动化工具的核心组件之一&#xff0c;它是一个以 YAML 格式编写的文件&#xff0c;用于定义一组自动化任务&#xff08;tasks&#xff09;。简单来说&#xff0c;Playbook 就像一个“剧本”或“指令清单…