【Python】基于you-get下载网页视频

news2024/11/19 6:26:00

文章目录

  • 1 前言
  • 2 you-get
    • 2.1 安装
    • 2.2 简单使用
    • 2.3 扩展
  • 3 下载网页视频
    • 3.1 概述
    • 3.2 下载网页
  • 4 代码

1 前言

  过年了,想给家里长辈下几首戏曲,于是找到一个发布戏曲的网站,虽然可以通过IDM插件的资源嗅探来一一下载,但是内容太多,便想通过爬虫的方式来批量下载视频。

2 you-get

  由于此前从未接触过爬虫,因此首先从“如何下载网页视频”开始检索,发现you-get是一个非常好用的工具,而且使用不是很复杂,于是便决定使用这个工具。

2.1 安装

  you-get是python中的一个第三方包,可以直接通过pip install you-get来进行安装。安装完之后,在命令行中输入you-get -h,不报错表明安装成功。
  之所以一个python第三方包可以直接在命令行运行,是因为它安装到pip所在文件夹了,如下图所示,这样能直接用pip即可直接用you-get。
在这里插入图片描述

  除安装这个第三方包外,you-get的运行还需要依赖一个软件——ffmpeg
  首先打开ffmpeg的官网https://www.ffmpeg.org/,根据下图下载Windows系统下的安装程序。
在这里插入图片描述

安装完成后,要将bin文件夹添加到环境变量,这一步一定不要漏掉!

2.2 简单使用

  you-get最简单的使用方式就是you-get [视频链接],不过需要注意的是,这里的视频链接不是网页的链接,同时也不是IDM下载视频的那个下载链接。根据GitHub官网的说明可以发现,YouTube上的视频是可以直接用you-get下载的:

$ you-get 'https://www.youtube.com/watch?v=jNQXAC9IVRw'
site:                YouTube
title:               Me at the zoo
stream:
    - itag:          43
      container:     webm
      quality:       medium
      size:          0.5 MiB (564215 bytes)
    # download-with: you-get --itag=43 [URL]

Downloading Me at the zoo.webm ...
 100% (  0.5/  0.5MB) ├██████████████████████████████████┤[1/1]    6 MB/s

Saving Me at the zoo.en.srt ... Done.

此外,B站的视频链接也是可以直接通过you-get下载到原视频的。其他的视频平台有待大家继续探索。

2.3 扩展

  其实除了用you-get去下载视频外,ffmpeg的其他功能也是非常强大,比如它可以用来合并视频,压缩视频等操作。具体可以参考这篇博客,讲得还是很详细的。

3 下载网页视频

3.1 概述

  前面提到,有一些视频平台的网址即是视频链接,可以直接通过you-get下载,但是更多的网页中的视频链接是需要对HTML解析之后才能找到的。而上面提到的戏曲网站也属于这一种。

另外,还需要注意,这里可以通过you-get下载的视频链接似乎并不是IDM下载的链接,具体的区别有待继续研究。

3.2 下载网页

  提到python爬虫,一般都绕不过一个库:requests,它可以获取某个网址对应的网页的HTML,但是很多网站的视频链接并不是在HTML中,而是在引入的js文件中。而js在网页打开时是会运行的,从而得到网页中的各个元素。

  注意,这里的元素和源代码是有很大区别的。打开某个网页,按下F12,可以看到两栏分别是元素和源代码。源代码就只包含了HTML文件及其附带的js源码,而元素则是源代码执行之后得到的结果。

  我们在使用requests模块时,如果给定的请求链接就是网址的话,只能得到这个网页的HTML文件,如果要获取js的源码,可以在网络标签页中找到,如下图所示。

在这里插入图片描述

  那问题来了,上面这几种方式得到的都是网页的源码,即HTML或者js,那有没有什么办法可以得到js运行后的结果呢?查找资料后得知,可以是用python模拟浏览器环境,从而运行js文件,得到运行结果。但是这种方式代码会非常的臃肿。此外,就是在浏览器中打开开发者模式(F12),然后刷新网页,再在网络标签栏中找到刚刚运行的结果,然后把它们的网络请求复制下来,再给到代码中。

4 代码

import requests as req
import re
import subprocess
response = req.get("link") #获取对应网页的js
html = response.text
# print(html)
patter = 'XMT.{12}' # XMT加上后面12个字符,就是每个视频的代码
code = re.findall(patter, html,flags=0) # 获取所有匹配的字符串,生成一个列表
# print(len(code))
# print(code)
for item in code:
    # print(item)
    link = "https://player.com" + item
    cmd = "you-get -f -o D:/1 --format=3gphd " + link
    print(cmd)
    p = subprocess.Popen(cmd) #能够实现执行完指令再进行下一个
    while(p.wait() and p.stderr): # 忙碌时或出错时退出堵塞
        print(p.stderr)
        pass
    print("down!")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/191763.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【JavaScript】数据劫持详解

💻 【JavaScript】数据劫持 🏠专栏:JavaScript 👀个人主页:繁星学编程🍁 🧑个人简介:一个不断提高自我的平凡人🚀 🔊分享方向:目前主攻前端&#…

这就是传说中超难的N皇后?——详细图解!

✔️本文主题:回溯算法之N皇后 算法 ✔️题目链接:N皇后 详解N皇后一、前言二、题目信息三、解题思路四、参考代码五、结语一、前言 大家好久不见,今天我们一起来学习一道很经典、也很有难度的一道题目——N皇后 二、题目信息 按照国际象棋…

Spring-基础知识二

Spring9.Spring JdbcTemplate的使用9.1 JdbcTemplate入门9.1.1 需要的包9.1.2 代码测试9.2 将数据源和jdbcTemplate交给Spring来管理9.2.1 druid连接池9.2.2 使用外部文件配置数据连接信息9.3 基于JdbcTemplate实现DAO9.Spring的事务管理机制9.1 PlatformTransactionManager 事…

第十章 面向对象编程(高级)

一、类变量和类方法(P374) 1. 类变量 定义语法: 访问修饰符 static 数据类型 变量名; 类变量也叫静态变量/静态属性,是该类的所有对象共享的变量,任何一个该类的对象去访问它时&…

微服务 热点流控 规则-授权 系统规则 自定义返回

微服务 热点流控 规则-授权 系统规则 自定义返回Sentinel-热点流控操作示例Sentinel规则-授权操作示例Sentinel规则-系统规则Sentinel自定义异常返回Sentinel-热点流控 拿商品举例,当一个商品的查询请求量异常火爆的时候,应该对该商品的查询请求进行限流…

FineReport使用

目录报表命名规范数据集命名规则参数命名规则条件属性命名规则超链接命名规范决策报表组件命名规则普通报表悬浮元素命名规则用户权限模版版本管理FineDB内置数据库外置数据库配置外接数据库新建数据库外接数据库配置入口配置外接数据库数据表权限控制:用户-部门职位…

【JavaEE】锁策略 + synchronized原理 + CAS + JUC下常用类和接口 + 死锁

目录 锁策略 乐观锁VS悲观锁 轻量级锁VS重量级锁 自旋锁VS挂起等待锁 互斥锁VS读写锁 公平锁VS非公平锁 可重入锁VS不可重入锁 synchronized原理 synchronized特性 synchronized优化机制 加锁过程优化 锁消除 锁粗化 CAS CAS概念 CAS原理 CAS应用 自旋锁的实…

Vite+Vue3+TypeScript 搭建开发脚手架

Vite前端开发与构建工具 开发环境中,vite无需打包,可快速的冷启动 真正的按需编译,不需要等待整个应用编译完成 一个开发服务器,它基于原生ES模块 提供了丰富的内建功能,速度快模块热更新(HMR&#xff0…

2022年10个最流行Blender插件

如果你从事平面设计、动画或 3D 建模,您可能听说过Blender,这是一款开源的一体化 3D 图形软件。Blender 配备了适用于各种领域的工具和功能,包括 3D 动画、计算机辅助设计、纹理编辑、特殊效果等。 Blender 的最新版本3.0于 2021 年 12 月上…

LeetCode题目笔记——1566. 重复至少 K 次且长度为 M 的模式

文章目录题目描述题目难度——简单方法一:模拟代码/C总结题目描述 给你一个正整数数组 arr,请你找出一个长度为 m 且在数组中至少重复 k 次的模式。 模式 是由一个或多个值组成的子数组(连续的子序列),连续 重复多次…

【面试】vue组件style中scoped的作用是什么?什么是scoped穿透?

vue组件style中scoped的作用是什么? 在Vue文件中的style标签上有一个特殊的属性——scoped。scoped属性是 HTML5 中的新属性,是一个布尔属性,如果使用该属性,则css样式仅仅只能应用到当前的Vue组件,避免组件之间样式相…

EfficientNet v1 v2

EfficientNet v1 增加网络的深度depth能够得到更加丰富、复杂的特征并且能够很好的应用到其它任务中。但网络的深度过深会面临梯度消失,训练困难的问题。增加网络的width能够获得更高细粒度的特征并且也更容易训练,但对于width很大而深度较浅的网络往往很…

Base64编码

介绍 Base64 编码 Base64 是一种使用 64 个可打印字符来表示二进制数据的编码方式。 Base64 中的 64 个可打印字符包括:大小写字母 a - z、阿拉伯数字 0 - 9,这样共有 62 个字符,另外两个可打印字符在不同的系统中而不同。RFC 4648 标准中&…

程序员可以不看书,但不可以不知道这些网站!

程序员可以不看书,但是不能停止学习。如果你不喜欢看书,这些网站可以先收藏下来! 花了两天整理出的程序员常看的网站,纯纯干货来了↓↓ 一、学习网站 ①菜鸟教程 这个网站有HTML、CSS、Javascript、PHP、C、Python等各种基础编…

关于python常用软件用法:Pycharm 常用功能

一.Pycharm的基本使用 1.在Pycharm下为你的Python项目配置Python解释器 (1).Setting>Project Interpreter>源码资料电子书:点击此处跳转文末名片获取 二.在Pycharm下创建Python文件、Python模块 1.File>New>Python File2.File>New>P…

Mysql高级部分学习笔记(一)——底层及索引

0. 概述 我们的数据库一般都会并发执行多个事务,多个事务可能会并发的对相同的一批数据进行增删改查操作,可能 就会导致我们说的脏写、脏读、不可重复读、幻读这些问题。 这些问题的本质都是数据库的多事务并发问题,为了解决多事务并发问题…

使用windows电脑SSH客户端链接Iphone手机的sshd服务(免越狱)

最近有需求使用电脑导出手机中特定app的文件。 当然可以直接连上数据线将手机中的文件下载下来。 为了能做到代码自动化导出,将手机作为一台电脑使用,将手机中的文件导出来。 关键问题是如何将手机作为电脑使用,这里有几个步骤(我使用的是…

关于接口测试自动化的总结与思考

关于接口测试自动化的总结与思考 目录:导读 什么是服务端? 什么是接口? 什么是接口测试? 为什么要做接口测试? 如何做接口测试? 什么是接口测试自动化? 为什么要做接口测试自动化? 接口测试自动化的规范 文档准备 明确接口测试自动化需…

CRI 与 ShimV2:一种 Kubernetes 集成容器运行时的新思路

作者|张磊 CRI 与 ShimV2:一种 Kubernetes 集成容器运行时的新思路-阿里云开发者社区 Kubernetes 项目目前的重点发展方向,是为开发者和使用者暴露更多的接口和可扩展机制,将更多的用户需求下放到社区来完成。其中,发展最为成熟…

再探前端低代码的“野路子”

之前码过很多低代码的文章,发现大家口中的低代码挺不一样的,这次心血来潮想探探低代码的野路子。 只需要拖拽操作或者几行基础代码,就能完成以往需要程序员才能搭建的各类应用系统,对效率要求较高的企业而言,是不是很有…