Python爬虫实战,Request+urllib模块,批量下载爬取飙歌榜所有音乐文件

news2024/11/18 11:21:23

前言

今天给大家介绍的是Python爬取飙歌榜所有音频数据并保存本地,在这里给需要的小伙伴们代码,并且给出一点小心得。

首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文

本数据爬取的人会很多,所以我们需要考虑更换代理IP和随机更换请求头的方式来对音乐数据进行爬取。

在每次进行爬虫代码的编写之前,我们的第一步也是最重要的一步就是分析我们的网页。

通过分析我们发现在爬取过程中速度比较慢,所以我们还可以通过禁用谷歌浏览器图片、JavaScript等方式提升爬虫爬取速度。

开发工具

Python版本: 3.8

相关模块:

requests模块

re模块

urllib模块

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

思路分析

浏览器中打开我们要爬取的页面
按F12进入开发者工具,查看我们想要的音乐数据在哪里
这里我们需要页面数据就可以了

源代码
找规律

代码实现

# 存放音乐文件的文件夹
folder = r'F:\music'
if not isdir(folder):
    mkdir(folder)

# 音乐飙升榜地址
url = 'https://music.163.com/discover/toplist?id=3779629'
# 模拟Chrome浏览器
headers = {'User-Agent': 'Chrome/88.0.4324.190'}
req = Request(url, headers=headers)
# 读取网页源代码
with urlopen(req) as fp:
    content = fp.read().decode()

# 正则表达式,提取音乐id和名字
pattern = r'<li><a href="/song\?id=(.+?)">(.+?)</a></li>'
for music_id, music_name in findall(pattern, content):
    music_file = rf'{folder}\{music_name}.mp3'
    if isfile(music_file):
        print(f'文件已存在,跳过...{music_name}')
        continue
    # 下载地址
    download_url = rf'https://music.163.com/song/media/outer/url?id={music_id}'
    req = Request(download_url, headers=headers)
    # 读取网络音乐文件数据,写入本地文件
    with urlopen(req) as fp:
        content = fp.read()
    with open(music_file, 'wb') as fp:
        fp.write(content)
    print(f'下载完成...{music_name}')

结果展示

结果

最后

为了感谢读者们,我想把我最近收藏的一些编程干货分享给大家,回馈每一个读者,希望能帮到你们。

里面有适合小白新手的Python实战教程给到大家~

快来和小鱼一起成长进步吧!

① 100+多本PythonPDF(主流和经典的书籍应该都有了)

② Python标准库(最全中文版)

③ 爬虫项目源码(四五十个有趣且经典的练手项目及源码)

④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)

⑤ Python学习路线图(告别不入流的学习)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/72652.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言实现三子棋(超详解版本)

&#x1f680;write in front&#x1f680; &#x1f4dd;个人主页&#xff1a;认真写博客的夏目浅石. &#x1f381;欢迎各位→点赞&#x1f44d; 收藏⭐️ 留言&#x1f4dd;​ &#x1f4e3;系列专栏&#xff1a;鹏哥带我学c带我飞 &#x1f4ac;总结&#xff1a;希望你看…

分布式电源接入对配电网影响的研究附Matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;修心和技术同步精进&#xff0c;matlab项目合作可私信。 &#x1f34e;个人主页&#xff1a;Matlab科研工作室 &#x1f34a;个人信条&#xff1a;格物致知。 更多Matlab仿真内容点击&#x1f447; 智能优化算法 …

springboot+easyexcel:导入excel表格

目录 前言 1.常规导入 2.读取到指定的列 3.读取全部的sheet页 4.日期、数字及其他自定义格式的转换 5.表头有多行的读取 前言 excel表格的导入与导出&#xff0c;可以说是业务系统里比较常见的功能了&#xff0c;早些时候相信很多人都是使用POI实现excel的导入与导出功能…

还有13天圣诞节,用python整个简易版的圣诞树玩一下.......

人生苦短 我用python 好像很久没发文章啦&#xff01; 看一眼日历快到圣诞节了 &#xff0c; 现在就来用python整个圣诞树玩一下吧&#xff01; 代码&#x1f386; 模块 源码、资料电子书点击此处 import turtle as t from turtle import * import random as r import time…

项目经理的需求常见分类总结

今天聊聊如何进行需求分类、需求规划和优先级排序。我们都会面临需求多&#xff0c;任务重&#xff0c;资源少的现状&#xff0c;在这种情况下&#xff0c;就需要产品人员对产品需求进行评估&#xff0c;找到在当前阶段最重要的功能进行开发&#xff0c;那么怎么来进行评估和判…

Spring整合Apollo的原理

Spring和Apollo源码涉及的类 Spring&#xff1a;ApplicationContextInitializer、BeanFactoryPostProcessor、BeanPostProcessor、Environment、CompositePropertySource Apollo&#xff1a;ApolloApplicationContextInitializer、PropertySourcesProcessor、ApolloProcessor、…

消息发布确认

描述&#xff1a;在消息投递的过程中可能会存在消息丢失的行为产生&#xff0c;生产者到交换机&#xff0c;交换机到队列的过程都有可能出现这个现象。所以我们要有个发布确认的操作来防止消息丢西。 确认机制方案&#xff1a; 配置文件配置交换机发布确认模式&#xff1a; p…

年终颁奖 | 建模助手年度产品经理正在评比当中!

大家好&#xff0c;我是建模助手。 12月来了&#xff0c;又到了激情总结&#xff0c;却发现flag倒被打脸的时刻&#xff01;我就想问问在座各位&#xff1a;年初的定立的flag&#xff0c;完成得咋样了&#xff1f; 我们今年就有一张很优秀的成绩单&#xff1a;↓↓↓ 建模助手…

优优聚:学会删减菜单,帮你提升销量和转化

如今随着外卖市场的不断发展&#xff0c;越来越多的堂食店铺加入外卖&#xff0c;但是对于做外卖很多老板认为&#xff0c;自家堂食做得不错&#xff0c;那么直接把堂食的菜单上传到外卖&#xff0c;结果这样做的后果就是不仅累还不挣钱。下面优优聚小编就来讲一下。 1、菜单太…

IDEA 导入别人的javaweb项目进行部署

前言 我主要是进行java的springboot项目和vue项目的开发&#xff0c;但是架不住在这些框架兴起之前&#xff0c;公司内部已经是有其他的老的框架&#xff0c;我需要在这些老的框架进行修改和调整代码。原本我是使用的eclipse软件进行部署&#xff0c;也比较简单&#xff1b; …

了解常见的模拟器及交换机的基本配置

了解常见的模拟器及交换机的基本配置 1. 首先我们先了解常见的模拟器软件 1.Cisco Packet Tracer&#xff08;简单&#xff0c;纯软件实现&#xff09; Cisco Packet Tracer 是由Cisco公司发布的一个辅助学习工具&#xff0c;为学 习思科网络课程的初学者去设计、配置、排除…

chapter9——电磁兼容性能设计指南

目录1.定义2.电磁干扰理论3.电磁干扰的流程、标准和认证4.影响集成电路抗干扰性能的几个因素5.减少EMC/EMI的技术电子线路易于接收来自其他发射器的辐射信号&#xff0c;无论是有意或无意发射。这些电磁干扰&#xff08;EMI&#xff09;使得设备内毗邻的元件不能同时工作。这时…

58同城首页腰部动态化技术选型(布局动态化)

1. 行业情况 1.1 基本概念介绍 1.1.1 Web混合 Web 前端和客户端的混合开发。使用 WebView 进行页面渲染、逻辑执行&#xff1b;依赖客户端的能力需要通过 JSBridge(通信桥) 的方式进行调用&#xff0c;比如调用客户端的相册、定位、登陆、埋点能力。 1.1.2 小程序 小程序体…

【Redisson源码】可重入锁看门狗机制

【本篇文章基于redisson-3.17.6版本源码进行分析】 为什么需要自动续期&#xff1f; 设想一下&#xff0c;如果我们指定的锁的超时时间是30秒&#xff0c;但是业务执行在30秒内还没有执行完成&#xff0c;此时分布式锁超时过期自动释放&#xff0c;其它线程就能获取到这把锁&…

OpenGL基础图形编程(八)变换

八、OpenGL变换 OpenGL变换是本篇的重点内容&#xff0c;它包括计算机图形学中最基本的三维变换&#xff0c;即几何变换、投影变换、裁剪变换、视口变换&#xff0c;以及针对OpenGL的特殊变换概念理解和用法&#xff0c;如相机模拟、矩阵堆栈等。学好了这章&#xff0c;才开始真…

基于多时间尺度滚动优化的多能源微网双层调度研究附Matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;修心和技术同步精进&#xff0c;matlab项目合作可私信。 &#x1f34e;个人主页&#xff1a;Matlab科研工作室 &#x1f34a;个人信条&#xff1a;格物致知。 更多Matlab仿真内容点击&#x1f447; 智能优化算法 …

网络套接字编程(TCP协议)

文章目录简单的TCP网络程序服务器绑定服务端监听服务端获取连接客户端连接服务器多线程版本的大小写字母转换服务简单的TCP网络程序 int socket(int domain, int type, int protocol);参数说明&#xff1a; domain&#xff1a;创建套接字的域或者叫做协议家族&#xff0c;也就…

百万基建狂魔们的赛博世界

钉钉完成的&#xff0c;是基于PaaS底座和底层基础产品&#xff0c;与生态伙伴一起提供低代码的普惠化定制开发模式&#xff0c;让大型企业自己可以具备诊断自己的能力和梳理流程的能力&#xff0c;并且将过往的经验和积累进行数字化应用层面的表达&#xff0c;进而寻找出一条最…

ffplay调试环境搭建

前言 ffplay是基于FFmpeg的最简单的官方播放器。麻雀虽小&#xff0c;五脏俱全&#xff0c;虽说ffplay简单&#xff0c;但是各种播放器应有的功能一一俱全&#xff0c;说它简单或许仅仅是因为它只有一个点c文件而已吧。 想要开发一个优秀的播放器&#xff0c;参考是必不可少的&…

Netron可视化Pytorch保存的网络模型

目录 一.理清网络的输入与输出 二. 将模型转换为onnx格式 三.Netron可视化工具 一.理清网络的输入与输出 我自定义的网络模型&#xff08;主要看看前向传播函数即可&#xff09;&#xff1a; import torch import torch.nn as nn#导入数据预处理之后的相关数据 from dataP…