python爬虫实战案例——爬取A站视频,m3u8格式视频抓取(内含完整代码!)

news2024/12/23 23:20:36

1、任务目标

目标网站:A站视频(https://www.acfun.cn/v/ac40795151)
要求:抓取该网址下的视频,将其存入本地,视频如下:

在这里插入图片描述

2、网页分析

  1. 进入目标网站,打开开发者模式,我们发现视频播放过程中有一个特点,也就是在Network-Fetch/XHR下不断有一些相似的接口文件产生
    在这里插入图片描述
  2. 我们点击其中一个接口文件,发现 preview 下的内容都是类似乱码的数据,其实在网页中发现这种数据的文件,基本上都是二进制码流文件,其中存放的就是视频、音频、图片等数据,这里我们可以确定他就是我们要找的视频文件,在观察其URL发现它是一个ts文件,且以序号结尾,如:100000.ts ;我们多观察几个这种ts文件,发现都是按顺序排列的。我们称这种格式的视频文件为m3u8格式
    在这里插入图片描述


m3u8格式视频简单介绍:

m3u8 格式其实就是将一个长的视频切割成一个个小的视频片段,然后网站通过不断加载这些片段,从而播放视频,这些片段自然就是上面说的 .ts格式的文件,并且这些片段还会进行编号,如:1000.ts,1001.ts,1002.ts;m3u8格式视频的好处就是,当我们滑动视频进度条,网站会直接加载该时间段的ts文件,一般一个片段就几秒钟,这样就可以快速定位并播放此刻的视频内容,从而给用户很好的观看体验

  1. 从上面我们知道了视频内容就存放在这些ts文件片段中,我们需要将其下载下来合并到一个mp4 文件中,从而播放完整的视频,一般一个ts片段几秒钟,这个视频只有1分多钟,那么至少有20来个ts文件需要找到,那么如何寻找这些文件呢?若等视频慢慢播放加载,不太现实。但是该网站有个特点,他会将所有ts文件的地址存放至一个 m3u8格式的文件中,该文件我们同样可以在 Network-Fetch/XHR 下找到,可以看到在下面这个m3u8格式的文件中,存放着这所有ts文件的url地址,这些地址都缺少主域名,后续我们需要将其拼接为完整地址
    在这里插入图片描述
  2. 现在找到了存放ts文件地址的m3u8 格式文件了,那么m3u8格式文件的地址又在哪里呢?我们发现在 Network-Doc 有一个文件,其中存放的内容就包含了m3u8文件的地址
    在这里插入图片描述
  3. 我们在内容中搜索m3u8,可以发现许多相关的链接地址,这些地址代表着不同编码、不同清晰度的m3u8文件的地址,我们只需选择其中一个就行,下面我将选择 720p清晰度的地址
    在这里插入图片描述


总结:
在上面我们经过分析网页,对该网站的爬取有了一定的思路,大致步骤如下:

  1. 向存放m3u8文件地址的接口文件发起请求,从中分析出想要的m3u8文件链接
  2. m3u8文件发起请求,从中解析出所有的ts文件地址
  3. 向每个ts文件发起请求,将他们依次存入到mp4文件中,最后合并为一个完整的视频文件

3、代码编写


完整代码:

'''
目标网站:https://www.acfun.cn/v/ac40795151
要求:爬取该网站下的视频,将其存放至本地
'''
import requests
import re
import json
from jsonpath import jsonpath
from bs4 import BeautifulSoup
from tqdm import tqdm # 用于显示进度条,需要下载:pip install tqdm

# 1、准备网站信息
# 目标网站
url = 'https://www.acfun.cn/v/ac40795151'
# 身份信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.43',
}

# 2、获取m3u8文件链接
def get_m3u8():
    re_html = requests.get(url,headers=headers).text # 获得视频页面的网页源码
    # 用正则解析出目标内容
    str_data = re.findall('<script>.*?window.pageInfo\s=\swindow.videoInfo\s=\s(.*?);.*?window.videoResource\s=\s{}',re_html,re.S)[0]
    # 将字符串数据转换为json格式数据
    json_data1 = json.loads(str_data)['currentVideoInfo']['ksPlayJson']
    json_data2 = json.loads(json_data1)
    # 得到m3u8文件的链接
    link_m3u8 = jsonpath(json_data2,'$..representation..url')[2]
    # 解析出视频标题
    soup = BeautifulSoup(re_html,'lxml')
    title = soup.select('.video-description.clearfix h1.title span')[0].string # 标题
    return link_m3u8,title

# 2、获取所有的ts文件链接
def get_ts(link_m3u8):
    re_data = requests.get(link_m3u8,headers=headers).text # 得到m3u8文件的内容
    # 解析出所有的ts文件链接
    ts_link = re.sub('#.*', '', re_data).split()
    return ts_link

# 3、合并所有ts文件
def combine(ts_link,title):
    print('下载进度:')
    # 遍历每个ts文件链接,并下载下来
    for l in tqdm(ts_link): # tadm 可以显示进度条
        ts_url = 'https://tx-safety-video.acfun.cn/mediacloud/acfun/acfun_video/' + l # 拼接为完整的链接
        ts_b = requests.get(ts_url,headers=headers).content # 得到下载的ts文件二进制流
        # 将ts文件全部保存至一个MP4文件中,完成合并!
        with open(f'{title}.mp4','ab') as f:
            f.write(ts_b)
    print('下载完成!')
    f.close()

# 4、调用函数
def start():
    # 依次调用每个函数
    link_m3u8,title = get_m3u8()
    ts_link = get_ts(link_m3u8)
    combine(ts_link,title)

if __name__ == '__main__':
    # 启动程序
    start()

执行效果:
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2240608.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

web实验3:虚拟主机基于不同端口、目录、IP、域名访问不同页面

创建配置文件&#xff1a; 创建那几个目录及文件&#xff0c;并且写内容&#xff1a; 为网卡ens160添加一个 IPv4 地址192.168.234.199/24: 再重新激活一下网卡ens160&#xff1a; 重启服务&#xff1a; 关闭防火墙、改宽松模式&#xff1a; 查看nginx端口监听情况&#xff1a;…

在tiktok开店,商家可以享受到多少显著的优势?

短视频带货正在蓬勃发展&#xff0c;因此&#xff0c;许多人开始利用自媒体平台进行商品销售。越来越多的商家选择在TikTok上开设店铺。那么&#xff0c;在TikTok上开店&#xff0c;商家可以享受到哪些显著的优势呢&#xff1f; 1. 庞大的用户基础 TikTok拥有海量的用户群体&…

【系统设计】理解带宽延迟积(BDP)、吞吐量、延时(RTT)与TCP发送窗口的关系:优化网络性能的关键

在设计和优化网络性能时&#xff0c;理解 带宽延迟积&#xff08;BDP&#xff09;、吞吐量、延时&#xff08;RTT&#xff09; 和 TCP发送窗口 之间的关系至关重要。这些概念相互影响&#xff0c;决定了网络连接的性能上限&#xff0c;尤其是在高带宽、高延迟的环境中&#xff…

Flutter:使用Future发送网络请求

pubspec.yaml配置http的SDK cupertino_icons: ^1.0.8 http: ^1.2.2请求数据的格式转换 // Map 转 json final chat {name: 张三,message: 吃饭了吗, }; final chatJson json.encode(chat); print(chatJson);// json转Map final newChat json.decode(chatJson); print(newCha…

IOT物联网低代码可视化大屏解决方案汇总

目录 参考来源云服务商阿里云物联网平台产品主页产品文档 开源项目DGIOT | 轻量级工业物联网开源平台项目特点项目地址开源许可 IoTGateway | 基于.NET6的跨平台工业物联网网关项目特点项目地址开源许可 IoTSharp | 基于.Net Core开源的物联网基础平台项目特点项目地址开源许可…

redis 原理篇 26 网络模型 Redis是单线程的吗?为什么使用单线程

都是学cs的&#xff0c;有人月薪几万&#xff0c;有人月薪几千&#xff0c;哎&#xff0c; 相信 边际效用&#xff0c; 也就是说&#xff0c; 随着技术提升的越来越多&#xff0c;薪资的提升比例会更大 一个月几万&#xff0c;那肯定是高级开发了&#xff0c; 一个月几千&…

前端中的 File 和 Blob两个对象到底有什么不同

JavaScript 在处理文件、二进制数据和数据转换时&#xff0c;提供了一系列的 API 和对象&#xff0c;比如 File、Blob、FileReader、ArrayBuffer、Base64、Object URL 和 DataURL。每个概念在不同场景中都有重要作用。下面的内容我们将会详细学习每个概念及其在实际应用中的用法…

【QT常用技术讲解】优化网络链接不上导致qt、qml界面卡顿的问题

前言 qt、qml项目经常会涉及访问MySQL数据库、网络服务器&#xff0c;并且界面打开时的初始化过程就会涉及到链接Mysql、网络服务器获取数据&#xff0c;如果网络不通&#xff0c;卡个几十秒&#xff0c;会让用户觉得非常的不爽&#xff0c;本文从技术调研的角度讲解解决此类问…

JS的学习与使用

JS的学习与使用 一 什么是Javascript&#xff1f; Javascript是一门跨平台&#xff0c;面向对象的脚本语言&#xff0c;是用来控制网页行为的&#xff0c;它能使网页可以交互 java与Javascript是完全不同的语言&#xff0c;不论是概念还是设计&#xff0c;但是基础语法类似 E…

WebRTC视频 03 - 视频采集类 VideoCaptureDS 上篇

WebRTC视频 01 - 视频采集整体架构 WebRTC视频 02 - 视频采集类 VideoCaptureModule [WebRTC视频 03 - 视频采集类 VideoCaptureDS 上篇]&#xff08;本文&#xff09; WebRTC视频 04 - 视频采集类 VideoCaptureDS 中篇 WebRTC视频 05 - 视频采集类 VideoCaptureDS 下篇 一、前…

发布rust crate

文章目录 一、cargo构建的配置类型&#xff1a;dev与release两种1.编译级别2.将 crate 发布到 Crates.io对整个库的注释pub use再导出功能发布crates.io 参考 一、cargo构建的配置类型&#xff1a;dev与release两种 $ cargo buildFinished dev [unoptimized debuginfo] targe…

Bugku CTF_Web——文件上传

Bugku CTF_Web——文件上传 进入靶场 My name is margin,give me a image file not a php抓个包上传试试 改成png也上传失败 应该校验了文件头 增加了文件头也不行 试了一下 把文件类型改成gif可以上传 但是还是不能连接 将Content-Type改大小写 再把文件后缀名改成php4 成…

三菱FX5UPLC以太网Socket通信功能

通过专用指令与通过以太网连接的对象设备以TCP及UDP协议收发任意数据的功能。 *1、是用于存储从开放的对象设备中接收到的数据的区域。 CPU模块:连接No.1~8以太网模块:连接No.1~32 以TCP协议进行通信时 TCP是在对象设备的端口号间建立连接&#xff0c;从而进行可靠的数据通信…

jmeter介绍、使用方法、性能测试、现参数化和数据驱动、分布式测试、压力测试、接口测试

目录 1.JMeter的组件介绍 2.JMeter介绍和使用方法 3.使用JMeter进行性能测试 4.JMeter如何实现参数化和数据驱动 5.使用JMeter进行分布式测试 6.使用JMeter完成压力测试 7.使用JMeter完成接口测试 下载并安装JMeter&#xff1a;从官方网站&#xff08;https://jmeter.ap…

【Android】组件化开发入门

文章目录 引入组件是什么?为什么使用组件化开发?什么是模块化&#xff0c;组件化&#xff0c;插件化&#xff1f;常见实现 组件分层创建module 组件单独调试配置组件工程类型配置组件ApplicationId和AndroidManifest文件 引入 组件是什么? 组件&#xff08;Component&#…

java访问华为网管软件iMaster NCE的北向接口时传递参数问题

上一篇文章介绍了利用《java访问华为网管软件iMaster NCE的北向接口》的一般性步骤&#xff0c;这里详细介绍其中一个读取性能数据的示例。原因是读取华为网管软件北向接口&#xff0c;完全找不到可供参考的例子。如果不需要传递什么参数&#xff0c;就能获取到结果&#xff0c…

鸿蒙 入门——ArkUI 自定义组件间的“后代“双向同步@Provide和@Consume装饰器小结(五)

文章大纲 引言一、Provide和Consume装饰器概述1、Provide和Consume关系的绑定2、使用规则3、变量的传递/访问规则4、支持的观察变化的场景5、Provide和Consume变量的值初始化和更新机制5.1、初始渲染5.2、当Provide装饰的数据变化时&#xff1a;5.3、当Consume装饰的数据变化时…

【MySQL从入门到放弃】InnoDB磁盘结构(一)

前言 从MySQL 5.5版本开始默认 使用InnoDB作为引擎&#xff0c;它擅长处理事务&#xff0c;具有自动崩溃恢复的特性&#xff0c;在日常开发中使用非常广泛。 下面是官方的InnoDB引擎架构图&#xff0c;主要分为内存结构和磁盘结构两大部分。 上一篇文章&#xff0c;我们解析了…

C哈的刷题计划之输出数字螺旋矩阵(1)

1、盲听C哈说 都说数据结构与算法是编程的核心&#xff0c;它们两个是内功与心法&#x1f600;&#xff0c;其它编程工具只是招式&#xff0c;学会了内功与心法&#xff0c;学习新事物&#xff08;这里特指层出不穷的IT技术&#xff09;就没有那么难了&#xff0c;实际上&#…

cv::RotatedRect::points误差较大

最后发现不是point的精度问题&#xff0c;float不至于产生这么大误差&#xff0c;是自己代码里缓存了顶点坐标&#xff0c;后面由手动修改了旋转矩形的角度&#xff0c;导致不匹配&#xff01; 下文可以忽略了-_-! 发现一个天坑&#xff0c;通过高宽和角度构造了一个旋转矩形 …