【我的创作纪念日】关于某站的音频爬虫+GUI

news2024/9/22 19:45:12

文章目录

    • 一、前言&机遇
    • 二、爬虫代码
    • 三、爬虫GUI
    • 四、文件打包
    • 五、结果展示
    • 未来可期

一、前言&机遇

许久没看私信内容,一上线就看到了官方的私信,我已经来到CSDN1024天啦!

想到注册这个号的初衷是学习记录爬虫,后面渐渐变成了各种学习笔记。

勿忘初心,今天补写一篇爬虫文章,纪念一下(嘿嘿)


二、爬虫代码

由于一些原因,关于某站的爬虫,基础不能细🔒。大家看代码吧。

import requests
import re  
import json
import os


"""
根据bv号和自定义文件名得到filename、url、headers
    bv:视频bv号
    name:自己给待下载文件取的名字
"""


def bv_name(bv, name):
    if not os.path.exists("D:/video"):
        os.mkdir("D:/video")

    fileName = f"D:/video/{name}"
    URL = f'https://www.bilibili.com/video/{bv}'

    headers = {
        'referer': f'https://www.bilibili.com/video/{bv}?spm_id_from=333.337.search-card.all.click',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
    }

    return fileName, URL, headers


"""
获取网页源代码
    url:网页链接
    headers:请求头
"""


def send_request(url, headers):
    response = requests.get(url=url, headers=headers)
    return response


"""
解析视频数据
html_data:页面源代码,相当于上个函数response.text
"""


def get_video_data(html_data):
    # 提取视频对应的json数据
    # <script>window\.__playinfo__=(.*?)</script>是在网络上找的,随便百度都找的到
    json_data = re.findall('<script>window\.__playinfo__=(.*?)</script>', html_data)[0]
    json_data = json.loads(json_data)
    
    # 提取音频的url地址
    audio_url = json_data['data']['dash']['audio'][0]['backupUrl'][0]
    return audio_url


"""
下载音频
file_name:待下载文件地址
audio_url:音频文件在网页中的地址
headers:请求头
"""


def save_data(file_name, audio_url, headers):
    # 请求数据
    audio_data = send_request(audio_url, headers).content
    with open(file_name + '.mp3', mode='wb') as f:
        f.write(audio_data)
    # print("音频下载完毕!!!")
    
    
"""
测试使用,可以注释掉。GUI界面会调用之前的函数
"""
# if __name__ == '__main__':
#     filename, URL, headers = bv_name('BV1t14y1F7kd', '英文歌')
#     res = send_request(URL, headers).text
#     video = get_video_data(res)
#     print(video)

三、爬虫GUI

可视化才够爽!!!

在这里插入图片描述

  • GUI代码如下:
from PyQt5.Qt import *
from audio_spider import *
import sys
import time


class WorkerThread(QThread):
    # 自定义信号,传递两个字符串参数
    finish = pyqtSignal(str, str)

    def __init__(self, parent=None):
        super(WorkerThread, self).__init__(parent)
        self.text1 = None
        self.text2 = None

    def run(self):
        # 调用audio_spider.py的函数
        filename, url, headers = bv_name(self.text1, self.text2)
        res = send_request(url, headers).text
        video = get_video_data(res)  # 音频地址
        start_time = time.time()  # 下载开始时间
        save_data(filename, video, headers)
        end_time = time.time()  # 下载结束时间

        value1 = video  # 音频地址
        value2 = "下载完成咯!!!用时" + str(round(end_time - start_time, 2)) + '秒'  # 下载用时,保留两位小数
        self.finish.emit(value1, value2)  # 发射信号,传递结果给主线程


class mainwindow(QWidget):

    def __init__(self):
        super(mainwindow, self).__init__()
        self.windowUI()
        self.setWindowTitle("B站音频提取")
        self.resize(1000, 1000)

    def windowUI(self):
        palette = QPalette()
        pix = QPixmap("./file/background.jpg")

        pix = pix.scaled(self.width(), self.height())

        palette.setBrush(QPalette.Background, QBrush(pix))
        self.setPalette(palette)

        label_1 = QLabel(self)
        label_1.move(400, 70)
        label_1.setText("B站音频提取")
        label_1.setFont(QFont('SimHei', 20))

        label_2 = QLabel(self)
        label_2.move(500, 900)
        label_2.setText("数据来源:Bilibili")

        label_3 = QLabel(self)
        label_3.move(800, 900)
        label_3.setText("作者:Polaris")
        # label_3.setFont(QFont('Arial', 0))

        label_4 = QLabel(self)
        label_4.move(200, 200)
        label_4.setText("输入BV号")
        label_4.setFont(QFont('SimSun', 20, 75))

        label_5 = QLabel(self)
        label_5.move(200, 300)
        label_5.setText("输入文件名")
        label_5.setFont(QFont('SimSun', 20, 75))

        label_6 = QLabel(self)
        label_6.move(200, 480)
        label_6.setText("音频地址")
        label_6.setFont(QFont('SimSun', 20, 75))

        label_7 = QLabel(self)
        label_7.move(200, 680)
        label_7.setText("下载用时")
        label_7.setFont(QFont('SimSun', 20, 75))

        self.line_1 = QLineEdit(self)  # BV号
        self.line_1.resize(200, 40)
        self.line_1.move(430, 200)

        self.line_2 = QLineEdit(self)  # 文件名
        self.line_2.resize(200, 40)
        self.line_2.move(430, 300)

        self.text_1 = QTextEdit(self)  # 音频地址
        self.text_1.move(430, 400)

        self.text_2 = QTextEdit(self)  # 下载进度
        self.text_2.move(430, 600)

        self.btn = QPushButton('立即下载', self)
        self.btn.setFont(QFont('SimSun', 10, 75))
        self.btn.resize(150, 80)
        self.btn.move(750, 235)

        # 在 mainwindow 类的构造函数中创建了一个 WorkerThread 对象(在主线程中创建一个子线程对象)
        self.worker_thread = WorkerThread()
        # 绑定按钮事件
        self.btn.clicked.connect(self.start_thread)
        # 将子线程的 finish 信号连接到主线程的 value_change 槽函数上
        self.worker_thread.finish.connect(self.value_change)

    def start_thread(self):
        # 获取文本框内容
        self.worker_thread.text1 = self.line_1.text()
        self.worker_thread.text2 = self.line_2.text()
        # 我们使用 moveToThread 方法将 worker_thread 移动到一个新的线程中(即子线程中)
        # 将主线程中text1、text2的值传递到子线程中
        self.worker_thread.moveToThread(self.worker_thread)
        # 启动子线程
        self.worker_thread.start()

    def value_change(self, value1, value2):
        # 在槽函数中获取子线程传递的结果,并进行处理
        self.text_1.setText(value1)
        self.text_2.setPlainText(value2)


if __name__ == '__main__':
    app = QApplication(sys.argv)
    a = mainwindow()
    a.show()
    sys.exit(app.exec_())

四、文件打包

给不懂代码的小伙伴用一用,说不定就骗到一个入坑的(doge

可以参考我的这篇文章:pyinstaller多文件打包exe

五、结果展示

两小时的音频只需3秒哦!!!!
在这里插入图片描述

未来可期

文章到这里就要结束了,但故事还没有结局

如果本文对你有帮助,记得点个赞👍哟,也是对作者最大的鼓励🙇‍♂️。

如有不足之处可以在评论区👇多多指正,我会在看到的第一时间进行修正

作者:爱打瞌睡的CV君
CSDN:https://blog.csdn.net/qq_44921056
本文仅用于交流学习,未经作者允许,禁止转载,更勿做其他用途,违者必究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/713871.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

抖音产业带服务商哪些类目在招募?开通需要什么条件?

5月&#xff0c;刚刚结束的抖音电商生态大会上&#xff0c;抖音电商总裁魏雯雯披露&#xff0c;近一年平台GMV增幅超80%。其中&#xff0c;商城GMV同比增长277%&#xff0c;电商搜索GMV同比增长159%&#xff0c;货架场景GMV在平台GMV占比超30%。过去一年&#xff0c;抖音电商直…

数据结构与算法——树与二叉树

&#x1f60a;数据结构与算法——树与二叉树 &#x1f680;前言&#x1f680;树&#x1f6a2;树的定义&#x1f6a2;树的基本术语&#x1f6a2;有序树和无序树&#x1f6a2;森林 &#x1f680;二叉树&#x1f6a2;二叉树的定义&#x1f6a2;二叉树的性质&#x1f6a2;满二叉树&…

【VUE】Element UI 表单校验出现async-validator: [‘discipline is required‘]报错

问题:async-validator: [discipline is required] 选择器已经获取到数值&#xff0c;却显示获取到 解决办法如下

线性规划算法

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家&#xff1a;点击跳转 本文部分内容来自网友博客 一&#xff0c;线性规划 例如&#xff0c;一个企业“生产计划”的线性规划模型如下&#xff1a; 是subjec…

​如何优雅的卸载Edge浏览器

如何优雅的卸载Edge浏览器 由于Edge浏览器越来越复杂&#xff0c;功能越来越繁琐我是真的一刻也用不下去了。虽然我主力是火狐浏览器&#xff0c;Edge用来访问一些只能使用Chromium内核的网页作为备用。 但是我现在一打开Edge浏览器我就窝火&#xff0c;也懒得再去调整优化&a…

【表格树状】jqgrid表格树状折叠效果实现(附代码,留邮箱发demo)

【写在前面】有段时间没好好的整理一篇前端文章了&#xff0c;之前的6月城市活动也结束了&#xff0c;期待下周的榜单公布&#xff0c;其实这个月还有一个东西也让我牵肠挂肚的&#xff0c;就是软考的成绩也会在这个月的中旬公布&#xff0c;也是感觉很悬。既成定局&#xff0c…

【中间件-Openjob】高性能任务调度框架Openjob简介及快速搭建

介绍基础基础信息任务调度框架对比 特性高可靠高性能定时调度分布式计算延迟任务工作流程权限管理告警监控跨语言 安装访问docker-compose安装在线访问 总结 介绍 一款分布式高性能任务调度框架&#xff0c;支持多种定时任务、延时任务、工作流设计、轻量级分布式计算、无限水平…

el-form动态嵌套表单验证

v-for 遍历的表单校验 根据官网的介绍&#xff0c;是在 el-form-item 中使用 :rules 属性&#xff0c;同时 prop 属性直接定位到具体循环元素。这个用法的前提是在循环外面包裹一个 el-form 元素&#xff0c;v-for 位于 el-form-item 中。 <template><el-form:model…

深入浅出对话系统——对话管理与对话生成

引言 对话管理 我们知道对话管理主要包括状态追踪(DST)和策略优化(DPO)。 对话管理模块包含两个子任务&#xff1a; 对话状态追踪(Dialogue State Tracking) 根据用户输入和对话历史识别对话状态&#xff1b;策略学习(Policy Learning) 根据识别到的对话状态选择合适的下一步…

BC SU21 对象 ZJHD_LGO 已交付;只能进行有限更改

ECC 升级S4 库位从ECC的唯一库位 → S4 工厂 库位才能唯一。 那原先的 依据库存地 控制库位的zjhd打印机的权限需要新增工厂字段。 但是su21的修改的时候 提示 &#xff1a;对象 ZJHD_LGO 已交付&#xff1b;只能进行有限更改 查了一下&#xff0c;SAP官方说只能 把该权限…

HCIP第二次作业

要求&#xff1a;R1-R2-R3-R4-R5 RIP 100运行版本2 R6-R7 RIP 200 运行版本1 1.使用合理IP地址规划网络&#xff0c;各自创建环回接口 2.R1创建环回 172.16.1.1/24 172.16.2.1/24 172.16.3.1/24 3.要求R3使用R2访问R1环回 4.减少路由条目数量&#xff0c;R1-R2之间增加路由传递…

部署springboot项目读取外部配置文件

我们在部署springboot项目的时候&#xff0c;经常会遇到这样的情况&#xff1a;测试环境与生产环境的配置不一样&#xff0c;这就导致每次部署的时候都要修改配置文件再打包&#xff0c;即使用了nacos进行配置管理&#xff0c;但测试环境与生产环境的nacos部署的地方肯定不一样…

MyBatis简单入门

文章目录 快速入Mapper代理开发具体步骤使用mapper代理中的包扫描 查询字段名称不一致问题方法一&#xff1a;对SQL语句起别名方法二&#xff1a; 采用resultMap映射 条件查询单条件查询SQL中特殊字符的处理 多条件查询方式一&#xff1a;散装参数方式二&#xff1a;对象参数方…

ABAP:ABAP解析xml文件的方法

目前我在ECC的系统找到两种实现XML解析的办法&#xff0c;第一种是通过strans创建转化例程&#xff0c;然后在程序中调用转化例程来转化xml&#xff0c;第二种是调用方法按照node解析xml。 要转化的xml文件demo如下 <?xml version"1.0" encoding"Windows-…

1.5 编写自定位ShellCode弹窗

在笔者上一篇文章中简单的介绍了如何运用汇编语言编写一段弹窗代码&#xff0c;虽然简易ShellCode可以被正常执行&#xff0c;但却存在很多问题&#xff0c;由于采用了硬编址的方式来调用相应API函数的&#xff0c;那么就会存在一个很大的缺陷&#xff0c;如果操作系统的版本不…

提取图像中的文本信息(Tesseract OCR 和 pytesseract)

环境准备 安装Tesseract&#xff1a;点这里参考本人博客 下载第三方库 pip install Pytesseract这个库只自带了一个英语的语言包&#xff0c;这个时候如果我们图片中有对中文或者其他语言的识别需求&#xff0c;就需要去下载其他语言包 下载其他语言包 进入官网以后进入Tra…

MyBatisPlus基础知识

一、MyBatisPlus 1.MyBatisPlus入门案例与简介 这一节我们来学习下MyBatisPlus的入门案例与简介&#xff0c;这个和其他课程都不太一样&#xff0c;其他的课程都是先介绍概念&#xff0c;然后再写入门案例。而对于MyBatisPlus的学习&#xff0c;我们将顺序做了调整&#xff0…

STM32——MCU简单介绍

文章目录 一、单片机基础简介1.MCU简介&#xff08;1&#xff09;MCU的组成&#xff08;2&#xff09;常见的MCU 2.STM32简介&#xff08;1&#xff09;STM32&STM8产品型号--各个字母的含义 3.如何查手册&#xff08;1&#xff09;数据手册芯片信息总线框图时钟树内存映射 …

Java面试题及答案整理( 金九银十最新版,持续更新)

最近可能有点闲的慌&#xff0c;没事就去找面试面经&#xff0c;整理了一波面试题。我大概是分成了 Java 基础、中级、高级&#xff0c;分布式&#xff0c;Spring 架构&#xff0c;多线程&#xff0c;网络&#xff0c;MySQL&#xff0c;Redis 缓存&#xff0c;JVM 相关&#xf…

【vue】使用uni-indexed-list组件点击获取下标详情

问题描述 使用uniapp自带的uni-indexed-list组件&#xff0c;点击索引只能获取到点击的名称&#xff0c;不能获取其他信息 解决方案&#xff1a; uni-indexed-list组件1.2.1版本 对uni-indexed-list组件代码进行修改,示例如下: 找到setList函数&#xff0c;对内部逻辑赋值就…