基础篇3 浅试Python爬虫爬取视频,m3u8标准的切片视频

news2024/10/12 20:22:51

浅试Python爬取视频

1.页面分析

  • 使用虾米视频在线解析
  • 使用方式:https://jx.xmflv.cc/?url=目标网站视频链接
  • 例如某艺的视频 原视频链接

解析结果:
在这里插入图片描述

1.1 F12查看页面结构

在这里插入图片描述
我们发现页面内容中什么都没有,video标签中的src路径也不是视频的数据。

1.2 老规矩看网络请求中的过滤的XHR

发现一堆没卵用的数据返回,直到我们看到这个mixed.m3u3结尾的返回结果,及后续高度相似的请求数据
在这里插入图片描述

1.3解析mp2t媒体文件

将上一步中的mp2t媒体文件随机挑选一个下载下来。打开后就是我们的目标视频。ok目的达到。
在这里插入图片描述接下来我们要做的就是将返回的mixed.m3u8解析出来

2.功能实现

2.1 拿到m3u8的文件

#-*- coding:UTF-8 -*-

import requests
import os
import sys


res = requests.get('https://vip.ffzy-online2.com/20221231/3848_0533f6da/2000k/hls/mixed.m3u8')
m3u8_obj = res.text
print(m3u8_obj)

可以看到打印结果
在这里插入图片描述
到这里我们就需要拿到ts结尾的字符串,然后筛选出以ts结尾的字符串。

2.2 解析m3u8的信息

m3u8 = m3u8_obj.split('\n')
# 匹配*.ts结尾的字符串
rst = [s for s in m3u8 if s.endswith('.ts')]
print(rst)

我们可以看到打印结果
在这里插入图片描述

接下来就需要拼接字符串获取到视频的路径,下载下来之后再进行拼接。

2.3 下载视频

baseurl= 'https://vip.ffzy-online2.com/20221231/3848_0533f6da/2000k/hls/'
# 下载并保存TS分片
for i, url in enumerate(rst):
    response = requests.get(baseurl+url, stream=True)
    with open(f'segment{i + 1}.ts', 'wb') as out_file:
        out_file.write(response.content)

于是我们可以看到
在这里插入图片描述
现在切片视频正确拿到了

  • 可以利用第三方软件进行视频合并
  • 可以先创建一个.MP4格式的文件使用python写入文件的方法进行合并

2.4 合并

# 将下载的视频合并起来
# 拿到文件名
file_names = os.listdir('./video')
# 最终视频路径
target_video = open('./output.mp4','ab')
# 遍历全部视频集合
for file in file_names:
  with open('./video/'+file,"rb") as f:
    target_video.write(f.read())
    f.close()
target_video.close()

我只是下载的部分视频,成功合成看结果:

在这里插入图片描述

3.整合一下

# -*- coding:utf-8 -*-

import requests
import os
import sys

class getvideo(object):
  def __init__(self) -> None:
    self.baseurl = 'https://vip.ffzy-online2.com/20221231/3848_0533f6da/2000k/hls/'  # ts视频的路径
    self.m3u8url = 'https://vip.ffzy-online2.com/20221231/3848_0533f6da/2000k/hls/mixed.m3u8' # m3u8文件的路径
    self.ts_video = [] # 存放解析后的ts视频信息

  def geturlbyts(self):
    res = requests.get(self.m3u8url)
    m3u8_obj = res.text 
    m3u8 = m3u8_obj.split('\n')  # 按照换行分割
    # 匹配*.ts结尾的字符串
    self.ts_video = [s for s in m3u8 if s.endswith('.ts')]

  # 下载并保存TS分片
  def downloadvideobyts(self):
    for i, url in enumerate(self.ts_video):
      response = requests.get(self.baseurl+url, stream=True)
      with open(f'.\\video\\'+self.ts_video[i], 'wb') as out_file:
        sys.stdout.write("下载进度:{0:.2f}%" .format(float((i+1)/len(self.ts_video))*100)  + '\r')
        sys.stdout.flush()
        out_file.write(response.content)


  def mergevideo(self):
    # 将下载的视频合并起来
    # 拿到文件名
    file_names = os.listdir('./video')
    # 最终视频路径
    target_video = open('./output.mp4','ab')
    # 遍历全部视频集合
    for file in file_names:
      with open('./video/'+file,"rb") as f:
        print("当前合并到{}".format(file))
        target_video.write(f.read())
      f.close()
    target_video.close()

dlvideo = getvideo()
dlvideo.geturlbyts()
# 当前目录创建一个video文件夹 用来存储ts分片视频
# 创建个文件夹存储视频
os.makedirs('video',exist_ok=True)
dlvideo.downloadvideobyts()
dlvideo.mergevideo()
print("合并完成")

单线程着实慢,后续继续更新学习。
在这里插入图片描述
以上仅供学习使用,下载后请于24小时内删除。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1567238.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

linux清理缓存垃圾命令和方法介绍

在Linux系统中,清理缓存和垃圾文件可以通过多种方法完成,这些方法旨在释放磁盘空间、提高系统性能。以下是一些常用的方法,结合了搜索结果中的信息: 1. 使用sync和echo命令清除RAM缓存和交换空间1 清除页面缓存(Page …

不讲概念,讲实操,mysql 分表模糊查询、分页查询 及 merge 表的使用

1.Mysql merge合并表的要求 1.合并的分表必须是 MyISAM 引擎,MyISAN引擎是不支持事务的。2.Merge表只保证合表后数据唯一性,合表前的数据可能会存在重复。3.表的结构必须一致,包括索引、字段类型、引擎和字符集。4.删除 tb_member1 分表正确…

原理图设计的通用规范

原理图各页内容依次为:封面、目录、电源、时钟、CPU、存储器、逻辑、背板(母板)接口等。 原理图上所有的文字方向应该统一,文字的上方应该朝向原理图的上方(正放文字)或左方(侧放文字&#xff…

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

原文:Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10) - 知乎 阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的语音做一些优化的措施,换句话说,…

【LeetCode热题100】51. N 皇后(回溯)

一.题目要求 按照国际象棋的规则,皇后可以攻击与之处在同一行或同一列或同一斜线上的棋子。 n 皇后问题 研究的是如何将 n 个皇后放置在 nn 的棋盘上,并且使皇后彼此之间不能相互攻击。 给你一个整数 n ,返回所有不同的 n 皇后问题 的解决方…

hadoop:案例:将顾客在京东、淘宝、多点三家平台的消费金额汇总,然后先按京东消费额排序,再按淘宝消费额排序

一、原始消费数据buy.txt zhangsan 5676 2765 887 lisi 6754 3234 1232 wangwu 3214 6654 388 lisi 1123 4534 2121 zhangsan 982 3421 5566 zhangsan 1219 36 45二、实现思路:先通过一个MapReduce将顾客的消费金额进行汇总,再通过一个MapReduce来根据金…

RocketMQ是什么?

文章目录 一、RocketMQ是什么?二、RocketMQ 应用场景三、RocketMQ 优缺点1.优点2、缺点 一、RocketMQ是什么? RocketMQ 是一款纯 java、分布式、队列模型的消息中间件,支持事务消息、顺序消息、批量消息、定时消息、消息回溯等。 二、Rocke…

java数据结构与算法刷题-----LeetCode417. 太平洋大西洋水流问题

java数据结构与算法刷题目录(剑指Offer、LeetCode、ACM)-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/123063846 文章目录 深度优先遍历 深度优先遍历 解题思路:时间复杂度O( …

DIY蓝牙键盘(1) - 理解 键盘报文(免费)

DIY蓝牙键盘(1) - 理解键盘报文 1. 键盘报文体验 一个键盘对于用户的体验是,用户按按键A他能看到字母A会在主机上显示出来。那这是如何实现的? 其实很简单,只要键盘发送下面的两个报文给主机,字母A就能在主机上显示出来。 (1)…

【Qt】Ubuntu20.04.6+Qt5.15.2+QtCreator10.0.1无法输入中文

1、前提条件 1)已经安装了fcitx sudo apt install fcitx sudo apt install fcitx-pinyin sudo apt install fcitx-bin fcitx-table-all sudo apt install fcitx-qt52)系统已经配置fcitx 3)将系统下 /usr/lib/x86_64-linux-gnu/qt5/plugins/platforminputcontexts/libfcitx…

CSS3新增的语法(三)【2D,3D,过渡,动画】

CSS3新增的语法(三)【2D,3D,过渡,动画】 10.2D变换10.1. 2D位移10.2. 2D缩放10.3. 2D旋转10.4. 2D扭曲(了解)10.5. 多重变换10.6. 变换原点 11. 3D变换11.1. 开启3D空间11.2. 设置景深11.3. 透视点位置11.4. 3D 位移11…

java数据结构与算法刷题-----LeetCode79. 单词搜索

java数据结构与算法刷题目录(剑指Offer、LeetCode、ACM)-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/123063846 文章目录 回溯深度优先遍历 回溯深度优先遍历 解题思路:时间复…

Vue 大文件切片上传实现指南包会,含【并发上传切片,断点续传,服务器合并切片,计算文件MD5,上传进度显示,秒传】等功能

Vue 大文件切片上传实现指南 背景 在Web开发中,文件上传是一个常见的功能需求,尤其是当涉及到大文件上传时,为了提高上传的稳定性和效率,文件切片上传技术便显得尤为重要。通过将大文件切分成多个小块(切片&#xff0…

Rust线程间通信通讯channel的理解和使用

Channel允许在Rust中创建一个消息传递渠道,它返回一个元组结构体,其中包含发送和接收端。发送端用于向通道发送数据,而接收端则用于从通道接收数据。不能使用可变变量的方式,线程外面修改了可变变量的值,线程里面是拿不…

UE5启用SteamOS流程

一、安装OnlineSubsystemSteam插件 1、在UE里安装OnlineSubsystemSteam 2、设置默认开始地图 3、设置DefaultEngine.ini文件: 打开项目根目录/Config/DefaultEngine.ini文件 打开官网的配置说明 复制并粘贴到该文件中 4、设置运行模式 5、测试 确保Steam平台已…

云原生:应用敏捷,华为视角下的应用现代化

Gartner 也提出,到 2023 年,新应用新服务的数量将达到 5 亿,也即是说:“每个企业都正在成为软件企业”。据IDC 预测,到 2025 年三分之二的企业将成为多产的“软件企业”,每天都会发布软件版本。越来越多的企…

【HTML】简单制作一个动态3D正方体

目录 前言 开始 HTML部分 JS部分 CSS部分 效果图 总结 前言 无需多言,本文将详细介绍一段代码,具体内容如下: 开始 首先新建文件夹,创建两个文本文档,其中HTML的文件名改为[index.html],JS的文件名改…

基于Python深度学习的中文情感分析系统(V2.0)

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

v3-admin-vite 改造自动路由,view页面自解释Meta

需求 v3-admin-vite是一款不错的后端管理模板,主要是pany一直都在维护,最近将后台管理也进行了升级,顺便完成一直没时间解决的小痛痒: 在不使用后端动态管理的情况下。我不希望单独维护一份路由定义,我希望页面是自解…

STM32的定时器中断Cubemx

STM32的定时器中断Cubemx 0.定时器简介1.配置时钟2.配置定时器3.创建工程4.补充源码 0.定时器简介 基本定时器功能: 16位向上、向下、向上/下自动装载计数器16位可编程(可以实时修改)预分频器,计数器时钟频率的分频系数为1~65535之间的任意…