Python爬虫实战案例——第七例

news2024/9/24 5:31:12

文章中所有内容仅供学习交流使用,不用于其他任何目的!严禁将文中内容用于任何商业与非法用途,由此产生的一切后果与作者无关。若有侵权,请联系删除。

目标:LI视频采集

地址:aHR0cHM6Ly93d3cucGVhcnZpZGVvLmNvbS8=

在这里插入图片描述

主页分析

首先要明白我们本次任务的目标——下载页面中的视频(以人物为例),那么也就意味着我们最终的目的就是要找到视频的下载地址。

所以,在进入主页之后我们先来到人物板块这个页面。

在这里插入图片描述

在这里我们想要采集最新的数据,所以就需要定位到最新视频的标签。这里就可以直接打开开发者工具进行分析了。

在这里插入图片描述

可以看到最新视频是位于idcategoryListul标签之中。同时每一个视频就是一个li标签,那么到这里我们只需要确定这些数据是静态化存在于html结构中就能够使用xpath将其解析出来。直接刷新页面然后来到document

在这里插入图片描述

从这里来看可以确定我们能够直接使用xpath去解析这第一页的视频的详情页地址了(解析到但是不一定要去访问,这里我先写代码的时候就按照常规思路去访问了详情页然后找视频地址,但写过去之后发现视频地址是做了反爬处理的,从详情页也无法直接获取到)。

详情页分析

根据普遍的思路,我们访问详情页的目的就是要找视频的播放下载地址,所以我们来到主页之后一样先打开开发者工具,然后点击播放按钮进行抓包分析。

在这里插入图片描述

刷新播放之后抓到一个mp4文件,将url复制到浏览器访问会发现这就是视频的下载地址。那么问题就是这个地址从哪里来的呢,我们可以通过搜索url中 的一些特殊的字符查看,例如这些数字组合,根据以往的经验判断这些数字串必然是这个视频的id,而id必然就是唯一的存在。

在这里插入图片描述

但是如上图所示,我们从响应页面去搜索的话,是没有这个串的,那么也就意味着我们代码去访问详情页的话是无法获取到这个视频的播放地址的。所以这里就需要我们好好想想这个请求的流程了。首先对于浏览器来说,需要播放视频的时候,那么浏览器肯定是要对视频地址请求的,那请求的时候这个视频的播放地址必然在请求前已经是拿到了浏览器中,所以,播放前的播放地址,必然是位于动态加载或者静态的某一个文件当中。那么我们就来进行全局搜索查看一下。

在这里插入图片描述

动态静态两边的文件都搜索一下,最后在动态加载的包中找到了一个名为videoStatus.jsp的包,在这里面我们发现了一个MP4的播放地址(这个地址是有坑的,前面提过,但是大家可以先不看后面的内容,自己往后先写一下代码看看是否能够自己将这个坑填上)

所以,就是说我们在下载之前需要先访问这个videoStatus.jsp来获取视频地址,但是呢,在访问这个videoStatus.jsp的时候会发现如下问题。

在这里插入图片描述

这个呢明显就是网站的一个小反爬手段了,但是都不用去实践就知道问题必然是出在头信息里面,同一个浏览器(浏览器本案例中没有清理过也没有重新打开过)从网站访问的时候是正常的,但是复制url到新标签页访问就无法访问了,这明显和防盗链就算没有100%的关系那也有个99%了,所以这里将referer添加到请求头之后访问就能够成功了。

接下来说一下这个包中的播放地址的坑。

直接上对比,请看下方两个url,其中一个是访问videoStatus.jsp获取到的播放地址,一个是我们从media中找到的播放地址。

https://video.pearvideo.com/mp4/adshort/20200909/1698642033243-1427-203145_adpkg-ad_hd.mp4

https://video.pearvideo.com/mp4/adshort/20200909/cont-1696358-1427-203145_adpkg-ad_hd.mp4

上面一个url是响应来的播放地址,下面一个url是抓包分析是media中的地址,将两个地址分别进行访问会发现上面个是无法访问的。

所以就需要我们手动将url进行修改才能够通过代码进行视频下载了。

这里处理起来也是比较容易得,我们很容易发现不同点就在**/**分割后的最后一部分,所以我们只需要将1698642033243改成cont-1696358就能够下载视频了

最后,关于翻页,翻页在本站中是动态页面加载的,当我们往下翻翻到最底部的时候就会加载出新的页面,所以我们就找到对应的参数进行修改即可。在本站中控制翻页的参数为start,跨度为24,只需要修改这个参数就OK,老生常谈的东西就不在浪费字数浪费时间了。

完整代码请移步:https://gitee.com/shuailiuquan/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1152358.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023最新最全Web自动化测试面试题

1、Selenium 中 hidden 或者是 display none 的元素是否可以定位到? 不可以。可以写 JavaScript 将标签中的 hidden 先改为 0,再进行定位元素。 2、Selenium 中如何保证操作元素的成功率?也就是说如何保证我点击的元素一 定是可以点击的&am…

Redis的特性和应用场景

目录 Redis的特性 内存存储数据 可编程性 可扩展性 持久化 水平扩展性 高可用性 为什么redis是快的 Redis的应用场景 数据库 缓存和会话存储 消息队列 redis是一个客户端服务器结构的程序 Redis是一个在内存中存储数据的中间件,能够用于作为数据库,数据缓存等,能在…

leetcode-字符串

1.反转字符串LeetCode344. 20230911 难度为0,此处就不放代码了 注意reverse和swap等一系列字符串函数什么时候该用,记一记库函数 swap可以有两种实现,涨知识了,除了temp存值还可以通过位运算:s[i] ^ s[j]; s[j] ^ s[i…

使用electron创建桌面应用及常见打包错误解决

一、基本要求 在使用Electron进行开发之前,您需要安装 Node.js。 要检查 Node.js 是否正确安装,请在您的终端输入以下命令: node -v npm -v这两个命令应输出了 Node.js 和 npm 的版本信息。 二、创建应用 1、首先创建一个文件夹 mkdir …

C++项目——云备份-⑨-服务端与客户端功能联调

文章目录 专栏导读1.服务端源代码2.客户端源代码3.浏览器访问测试//listshow 4.上传文件测试5.文件下载测试 专栏导读 🌸作者简介:花想云 ,在读本科生一枚,C/C领域新星创作者,新星计划导师,阿里云专家博主&…

基于黄金正弦算法的无人机航迹规划-附代码

基于黄金正弦算法的无人机航迹规划 文章目录 基于黄金正弦算法的无人机航迹规划1.黄金正弦搜索算法2.无人机飞行环境建模3.无人机航迹规划建模4.实验结果4.1地图创建4.2 航迹规划 5.参考文献6.Matlab代码 摘要:本文主要介绍利用黄金正弦算法来优化无人机航迹规划。 …

NumPy教程(快速入门版)

NumPy 是基于Python的数学计算库,擅长处理数组/矩阵。 NumPy 是 Numerical Python 的缩写,它是一个由多维数组对象(ndarray)和处理这些数组的函数(function)集合组成的库。使用 NumPy 库,可以对…

修仙路上的基石->java内置的占位符

java内的占位符 System.out.println(String.format("牛逼logger记录:%s",message)); 在 Java 中,%s 是一个格式化字符串的占位符,用于表示后续参数中的字符串值。在 String.format() 方法中,%s 会被替换为相应的参数值。在给定的例…

Ubuntu 搭建 DHCP ivp6 server 步骤

Ubuntu 搭建 DHCP ivp6 server 步骤 安装 DHCP server安装 radvd(实现局域网路由功能)测试运行 安装 DHCP server apt 安装 isc-dhcp-server sudo apt-get install isc-dhcp-server修改配置文件 /etc/dhcp/dhcpd6.conf 内容如下: lease-time 7200; lo…

chatgpt生成文本的底层工作原理是什么?

文章目录 🌟 ChatGPT生成文本的底层工作原理🍊 一、数据预处理🍊 二、模型结构🍊 三、模型训练🍊 四、文本生成🍊 总结 📕我是廖志伟,一名Java开发工程师、Java领域优质创作者、CSDN…

四十一、【进阶】索引使用SQL提示

1、SQL提示使用情景 在使用MySQL时,当一个字段参在于多个索引中时,默认情况下,MySQL会自动选择一个索引,但我们可以指定索引吗?可以忽略某一种索引吗? 答案是可以的。 前提:profession字段已经…

算法通关村第四关-黄金挑战栈的经典问题

括号匹配问题 描述 : 给定一个只包括 (,),{,},[,] 的字符串 s ,判断字符串是否有效。 有效字符串需满足: 左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。每个右括号都有…

【Linux】内存精讲

TOC 目录 程序在计算机中的运行方式 CPU的指令 虚拟内存是什么? CPU的数据处理能力 (1)16位CPU (2)32位CPU (3)64位CPU 编译模式 32位编译模式 64位编译模式 C语言内存对齐 内存分…

终于有人把腾讯云轻量服务器“月流量”说明白了

腾讯云轻量服务器月流量什么意思?月流量是指轻量服务器限制每月流量的意思,不能肆无忌惮地使用公网,流量超额需要另外支付流量费,上海/广州/北京等地域的轻量服务器月流量不够用超额部分按照0.8元/GB的价格支付流量费。阿腾云aten…

2011-2021年上市公司百度指数数据

2011-2021年上市公司百度指数数据 1、时间:2011-2021年 2、指标:股票代码、股票名称、年份、类型、PC移动、PC端、移动端 3、来源:百度指数 4、范围:上市公司 5、样本量:7.4W 6、指标解释:百度指数&a…

为什么要进行兼容性测试? 常见方法有哪些?

在当今数字化的世界中,用户通过各种设备和平台访问应用程序和网站。为了确保用户体验的一致性和质量,兼容性测试成为了软件开发周期中不可或缺的一环。本文将深入探讨什么是兼容性测试,为什么它是如此重要,以及一些常见的兼容性测…

各传输介质详细知识点

一.百兆网传输介质 快速以太网(802.3u) 100Base-T2 电缆:2对3类UTP 最大段长:100m 特性阻抗:100 100Base-T4 电缆:4对3类UTP 最大段长:100m 特点:8B/6T,NRZ编码 特性阻抗:1…

【多线程面试题十九】、 公平锁与非公平锁是怎么实现的?

文章底部有个人公众号:热爱技术的小郑。主要分享开发知识、学习资料、毕业设计指导等。有兴趣的可以关注一下。为何分享? 踩过的坑没必要让别人在再踩,自己复盘也能加深记忆。利己利人、所谓双赢。 面试官: 公平锁与非公平锁是怎么…

安装OPENCMS过程记录

今天尝试安装个人网站,或者说是内容管理系统,wordpress 是PHP的,所以上网找了一个免费的,在知乎上基于Java的开源CMS有哪些推荐,各自特点是什么 - 知乎 (zhihu.com) 找了这个opencms,据说是免费&#xff0…