Python采集某网站小sp内容, m3u8内容下载

news2024/11/17 16:21:19

前言

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

环境使用:

  • Python 3.8

  • Pycharm

模块使用:

  • import requests >>> pip install requests

  • import re 正则表达式 解析数据

  • import json

本次案例所用知识点:

python基础语法:

  • 字典创建/取值

  • print输出函数使用

  • 字符串创建

  • 列表取值

  • for循环遍历

  • open函数数据保存

  • 函数关键字传参

  • 数据类型转换 json

python爬:

  • 开发者工具使用

  • re正则简单使用 --> findall sub .*?

  • requests简单使用 --> get请求

数据来源分析

视频内容数据在什么地方

通过开发者工具进行抓包分析, 相应视频数据内容

普通视频: 完整视频数据 2:18

m3u8视频: 把 2:18 视频内容, 分割为N个视频片段 --> 每一个视频片段都有一个链接<ts结尾>
把整体视频内容, 分成N个ts文件 --> 包含在一个m3u8文件

找视频对应 m3u8文件链接 <所有视频片段都在这个文件链接>

代码展示

import requests
import re
import json
from pprint import pprint

link = 'https://****/u/29946310'
data = {
    'quickViewId': 'ac-space-video-list',
    'reqID': '8',
    'ajaxpipe': '1',
    'type': 'video',
    'order': 'newest',
    'page': '2',
    'pageSize': '20',
    't': '1678106764506',
}
headers = {
    # 浏览器基本信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
list_data = requests.get(url=link,params=data, headers=headers).text
video_id_list = re.findall('"atomid.*?":.*?"(\d+).*?",', list_data)
for video_id in video_id_list:
    print(video_id)
    url = 'https://*****/v/ac35510357'
    # 模拟浏览器
    源码、解答、教程可+V:qian97378
    headers = {
        # 浏览器基本信息
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    print(response)
    title = re.findall('"title":"(.*?)",', response.text)[1]
    html_data = re.findall('window.videoInfo = (.*?);', response.text)[0]
    json_data = json.loads(html_data)
    m3u8_url = json.loads(json_data['currentVideoInfo']['ksPlayJson'])['adaptationSet'][0]['representation'][0]['backupUrl'][0]
    m3u8_data = requests.get(url=m3u8_url, headers=headers).text
    m3u8_data = re.sub('#E.*', '', m3u8_data).split()
    print(title)
    print(m3u8_url)
    print(m3u8_data)
    for ts in m3u8_data:
        ts_url ='https://*****' + ts
        ts_content = requests.get(url=ts_url, headers=headers).content
        with open('video\\' + title + '.mp4', mode='ab') as f:
            f.write(ts_content)
        print(ts_url)

尾语 💝

要成功,先发疯,下定决心往前冲!

学习是需要长期坚持的,一步一个脚印地走向未来!

未来的你一定会感谢今天学习的你。

—— 心灵鸡汤

本文章到这里就结束啦~感兴趣的小伙伴可以复制代码去试试哦 😝

👇问题解答 · 源码获取 · 技术交流 · 抱团学习请联系👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/455635.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【人工智能概论】 RNN、LSTM、GRU简单入门与应用举例、代码耗时计算

【人工智能概论】 RNN、LSTM、GRU简单入门与应用举例、代码耗时计算 文章目录 【人工智能概论】 RNN、LSTM、GRU简单入门与应用举例、代码耗时计算一. RNN简介1.1 概念简介1.2 方法使用简介 二. 编码层embedding2.1 embedding的参数2.2 embedding的理解 三. Linear层与CrossEnt…

全景图像算法简述

全景图像拼接是一种将多个图像合成为一个大型全景图像的技术。这种技术广泛应用于虚拟现实、游戏开发、文化遗产保护等领域。本文将介绍三种主流的全景图像拼接算法&#xff0c;并对它们进行综合比较。 一、基于特征点匹配的拼接算法 特征点匹配是全景图像拼接中最常用的一种算…

深入讲解ARMv8 异常处理简介

内核稳定性问题复杂多样&#xff0c;最常见的莫过于“kernel panic”&#xff0c;意为“内核恐慌&#xff0c;不知所措”。这种情况下系统自然无法正常运转&#xff0c;只能自我结束生命&#xff0c;留下死亡信息。诸如&#xff1a; “Unable to handle kernel XXX at virtual …

直播系统开发中哪些技术架构是必不可少的

在当今数字化时代&#xff0c;直播已成为一种极其受欢迎的娱乐和营销方式。由于直播应用的复杂性&#xff0c;架构师在直播系统的开发和设计中扮演着至关重要的角色。本文将介绍直播系统开发中技术架构师所必不可少的技术和工具。 什么是直播系统&#xff1f; 直播系统是一种通…

uni-app入门到实战

&#x1f37f;*★,*:.☆(&#xffe3;▽&#xffe3;)/$:*.★* &#x1f37f; &#x1f35f;欢迎来到前端初见的博文&#xff0c;本文主要讲解uni-app入门到实战&#x1f35f; &#x1f468;‍&#x1f527; 个人主页 : 前端初见 &#x1f95e;喜欢的朋友可以关注一下&#xff…

【Linux】浏览器写代码!部署code-server远程vscode网页

部署code-server远程vscode网页&#xff0c;在浏览器上写代码&#xff01; 参考文档 https://developer.aliyun.com/article/876967#slide-7 本文首发于 慕雪的寒舍 1.什么是code-server&#xff1f; 注意&#xff0c;这不是在linux系统上安装vscode软件&#xff08;和windo…

虹科分享 | 如何主动保护个人信息 | 网络安全评级

网上报税和支付越来越流行&#xff0c;针对毫无防备的纳税人的税务欺诈也越来越频繁。以下是一些需要避免的常见网上税务骗局&#xff1a; 网络钓鱼诈骗 骗子利用电子邮件、短信或电话伪装成相关机构或报税软件提供商&#xff0c;诱骗人们提供他们的个人信息&#xff0c;或点击…

走进梦龙冰淇淋的生产线 揭晓“灯塔工厂”背后的秘密

作为一家积极履行社会责任的公司&#xff0c;联合利华和路雪在今年3月携手京东“青绿计划”&#xff0c;推出了包含梦龙、可爱多、千层雪、和路雪等多款可持续组合装产品&#xff0c;这一助力实现双碳目标的举措也引发了消费者的关注。其实&#xff0c;自联合利华太仓食品生产基…

我们都被 ChatGPT 给骗了?

引言&#xff1a; 用过 ChatGPT 的人都知道&#xff0c;当你与 chatgpt 对话的时候&#xff0c;它是“逐字输出”的&#xff0c;就像真的有个人在跟你打字一样。其实&#xff0c;这种技术并没有那么神奇&#xff0c;这种技术叫做“实时文本生成”或“逐字输出”技术&#xff0…

分布式事务Seata-AT模式

承接上文分布式事务-二阶段提交 Seata是开源的分布式事务解决方案&#xff0c;提供高性能和简单易用的分布式事务服务&#xff0c;包含AT、TCC、 SAGA、XA四种事务模式&#xff0c;为用户打造一站式的分布式解决方案。 Seata提供的4种事务模式都是由2PC&#xff08;二阶段提交…

【C++的内联函数】

文章目录 一、什么是内联函数二、内联函数的优缺点三、使用内联函数的注意事项 一、什么是内联函数 用关键字inline修饰的函数叫做内联函数。 C编译器编译时会自动在被调用的地方展开。 二、内联函数的优缺点 内联函数的优点&#xff1a; 没有函数栈帧创建&#xff0c;提升…

干货分享 | 如何在业余时间学习数据分析?

从社会学背景的数分小白到独揽公司市场部的数据分析&#xff0c;和大家简单分享我的数据分析升级打怪之路。 简单说就是两点【培养数据分析思维】【提升数据分析技能】 思维的培养主要靠书籍和课程 以下是一些对我影响较大的书籍&#xff0c;按照【入门、进阶、高阶】简单做了…

torch.nn.Multiheadattention介绍

初始化参数&#xff1a; class torch.nn.MultiheadAttention(embed_dim, num_heads, dropout0.0, biasTrue, add_bias_kvFalse, add_zero_attnFalse, kdimNone, vdimNone, batch_firstFalse, deviceNone, dtypeNone) 允许模型共同关注来自不同表示子空间的信息。 多头注意力…

C#连接数据库失败,ORA-28040: No matching authentication protocol

C#连接数据库失败 1.原先使用的是oracle11&#xff0c;后来升级数据库到oracle19c&#xff0c;启动程序&#xff0c;数据库连接时报错"ORA-28040: No matching authentication protocol" 2.原因分析&#xff1a;最近服务器数据库版本升级到了19c&#xff0c;网上查了…

【技巧】如何以“只读方式”打开PPT文稿?附两个方法

以“只读方式”打开PPT文稿&#xff0c;可以防止意外修改文稿。今天小编就来介绍一下以“只读方式”打开PPT的两种方法。 方法一&#xff1a;无密码的“只读”模式 1、打开PowerPoint程序&#xff0c;点击菜单中的【文件】选项&#xff0c;再依次点击【打开】-【浏览】。接着在…

FL Studio水果萝卜编曲中文版软件V21版本详细功能介绍

FL Studio十分出色的数字音乐工作软件&#xff0c;其功能大致和Cubase相仿&#xff0c;FL Studio拥有自带的音频插件&#xff0c;并且随着软件的不断更新&#xff0c;使得FL studio不仅仅能够制作电子音乐&#xff0c;同时也能够承担古典、流行等风格的音乐。同时&#xff0c;F…

MySQL:创建数据库,数据表,主键和外键

目录 前言&#xff1a; 安装MySQL&#xff1a; 打开MySQL&#xff1a; 创建数据库&#xff1a; 查看已建数据库&#xff1a; 查看数据库引擎&#xff1a; 创建数据表&#xff1a; 主键约束&#xff1a; 单字段主键&#xff1a; 多字段联合主键&#xff1a; 外键约束&…

《编码——隐藏在计算机软硬件背后的语言》精炼——第11章(门)

“The only source of knowledge is experience.” - Albert Einstein 引言 编码是一种处理并表达信息的方式&#xff0c;它包括摩斯电码、盲文、二进制语言等等&#xff0c;当然作为计算机类的经典书籍&#xff0c;这本书简述了计算机中以二进制数为基础的编码方式&#xff0…

5自由度并联机械臂实现搬运功能

1. 功能说明 本文示例将实现R306样机5自由度并联机械臂搬运牛奶到指定地点的功能。该机械臂由1个5自由度并联机械臂和1个单轴丝杠平台构成&#xff0c;机械臂通过并联的方式同时控制同一个端点的运动。其驱动系统采用大扭矩舵机和小扭矩舵机、执行末端为夹持机构。 2. 并联机械…

SEO优化中的外链与反链是什么意思?它们之间有什么区别?

在SEO优化中&#xff0c;外链和反链是两个非常重要的概念。虽然它们听起来很相似&#xff0c;但实际上却有着很大的区别。那么&#xff0c;什么是外链和反链&#xff1f;它们之间有什么区别呢&#xff1f;本文将为您详细介绍。 一、什么是外链 外链&#xff0c;也被称为入站链…