影刀RPA实战:网页爬虫之电影数据

news2024/11/14 11:28:43

1.实战目标

电影自媒体是指个人或团队通过互联网平台,如微博、微信公众号、抖音、B站等,发布与电影相关的内容,包括但不限于电影评论、推荐、幕后制作揭秘、明星访谈等。这些内容旨在吸引电影爱好者,并与之互动,构建起一定的观众群体。

那么做电影自媒体的伙伴们,不免经常需要在网站上查询获取电影数据,手动下载图片,预告片,摘录影片信息,今天给大家带来一个影刀机器人工具,能自动爬取猫眼电影网的数据。

猫眼电影是中国知名的电影票务平台,提供包括电影票预订、电影资讯、影迷互动等服务。它通过收集和分析大量的用户数据和市场数据,为电影行业提供多种服务和功能。是做自媒体伙伴们的一个很好的资料网站

今天我们主要获取即将上映的电影信息

我们需要获取电影名称,类型,区域,上映日期,剧情,主要演职人员,预告片,图集等

爬取猫眼电影数据时,必须遵守相关法律法规,尊重数据所有权和隐私权,合法合规地使用数据。

2.实战结果展示

电影数据,我们使用excel存放。

每个电影依据名称创建一个文件夹保存

每个文件夹中有图集与预告片

当我们有这些资料在手,那么做视频剪辑,配音也就容易多了。

3.实战步骤

3.1 打开猫眼网站 进入目标网址

进入猫眼网站,我们选择电影,即将上映电影,然后按照时间排序,查询出未上映的电影列表信息,这里一定要选择按照时间排序,否则不会获取到即将上映的电影,当然你要获取热门电影也是可以的,依据需求

3.2 循环电影列表页

使用网页批量抓取功能,将数据缓存到数据列表中,然后我们循环数据列表,打开每一步电影的详情页面,采集电影数据。

实战仅展示当前页数据,没有设置多页采集,通过之前的影刀实战,我相信大家都能设置。

3.3 详情页获取影片信息

数据主要集中在这两块。这里我们循环相似元素来循环获取各个元素信息,对于剧情,我们单独获取文字信息。

当采集数据时,我们首先是需要观察他,看他符合那种特征,再寻找合适的指令去操作。能批量操作的尽量批量操作,可以节省时间和复杂性。

相应代码

在详情页面 我们创建一个文件夹,来保存图集与预告片,这个文件夹参数需要传递到子流程图集与预告片中

3.4 获取图集

将电影图片下载到本地保存,我们使用图片的索引来命名图片名称,从零开始。

图片宽高设置:网页展示的图片是小图,如果直接下载,那么是不能使用,我们需要替换图片地址的宽与高,将106替换长600

https://p0.pipi.cn/mmdb/fb7386929ab5bfb12d3139c99931c1fd4c1fd.jpg?imageView2/1/w/106/h/106

当图片特别多时,我们需要下滑网页,才能获取到全部图片,我们使用鼠标滚动网页,一屏的一屏获取

3.5 获取预告片

预告片页面

循环获取预告片,将每一个都保存到本地

4.指令解析

http下载:通过 HTTP 下载文件,主要是下载网络资料,图片,文件都可以使用这个指令操作。

下载地址:输入或选择下载请求地址

文件保存目标:设置下载文件保存本地目录,若不存在则自动创建

指定文件名:默认会自动从下载地址上解析文件名,若勾选则自定义文件名

超时时间(秒):最大等待的下载时间,默认300秒

保存下载文件名称到:保存获取到的完整的文件名为变量

 

5.最后

感谢大家,请大家多多支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2185508.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

十六字心传

中国文化传统中著名的“十六字心传”:“人心惟危,道心惟微;惟精惟一,允执厥中。 ”语出于《虞书大禹谟》。 人心与道心:人的人欲与天理的区别;所谓“人心惟危”,即是说人们的那种物欲情欲&…

【FPGA开发】Xilinx FPGA差分输入时钟的使用方法

正文 以前在使用ZYNQ的领航者ZYNQ7020进行FPGA学习时,它们使用的单端50M的输入时钟,在verlog代码编写上比较简单,而现在使用Alinx的AXU3EG开发板时,发现它使用的是200M的差分输入时钟,哪这个时候,输入时钟要…

pyecharts-快速入门

pyecharts文档:渲染图表 - pyecharts - A Python Echarts Plotting Library built with love. pyecharts-gallery文档:中文简介 - Document (pyecharts.org) 一、快速入门案例 from pyecharts.charts import Barbar Bar() bar.add_xaxis(["衬衫…

7-3 集合的运算-并、交、对称差

顺序表&#xff1a; #include <bits/stdc.h> using namespace std; int main() {int n;cin>>n;int *pnew int[n];for(int i0;i<n;i)cin>>p[i];int m;cin>>m;int *qnew int [m];for(int j0;j<m;j)cin>>q[j];int *bingnew int[nm];int *jia…

详细介绍:API 和 SPI 的区别

文章目录 Java SPI (Service Provider Interface) 和 API (Application Programming Interface) 的区别详解目录1. 定义和目的1.1 API (Application Programming Interface)1.2 SPI (Service Provider Interface) 2. 使用场景2.1 API 的应用场景2.2 SPI 的应用场景 3. 加载和调…

Elasticsearch基础_5.ES聚合功能

文章目录 一、数据聚合1.1、桶聚合1.1.1、单维度桶聚合1.1.2、聚合结果排序1.1.3、限定聚合范围 本文只记录ES聚合基本用法&#xff0c;后续有更复杂的需求可以查看相关书籍&#xff0c;如《Elasticsearch搜索引擎构建入门与实战》 一、数据聚合 聚合可以让我们极其方便的实现…

进程和线程之间的通用方式

进程之间的通信方式有哪些 进程间通信&#xff08;Inter-Process Communication, IPC&#xff09;是指不同进程之间传递信息和数据的机制。由于进程之间的内存空间是相互独立的&#xff0c;因此必须使用特定的通信方式来实现数据共享。 以下是常见的进程间通信方式&#xff1…

【前端开发入门】css快速入门

目录 引言一、css盒模型1. 盒模型概念2. 盒模型案例 二、css编写1. html文件内部编写1.1 标签style属性编写1.2 css选择器关联1.2.1 id选择器1.2.2 class选择器1.2.3 标签选择器1.2.4 css选择器作用域1.2.5 其他选择器1.2.6 各css选择器优先级 2. 单独维护css文件2.1 创建css文…

【韩顺平Java笔记】第6章:数组、排序和查找

文章目录 153. 回顾上节课内容154. 听懂和会做155. 数组的必要性156. 数组快速入门157. 数组使用1158. 数组使用2160. 数组使用3161. 数组注意事项161. 数组练习1162. 数组练习2163. 数组赋值机制1164. 数组赋值机制2165. 数组拷贝166. 数组翻转1168. 169. 数组扩容1,2170. 数组…

解决银河麒麟服务器操作系统中`/etc/bashrc`环境变量不生效的问题

解决银河麒麟服务器操作系统中/etc/bashrc环境变量不生效的问题 1、问题描述2、问题原因3、解决方法 &#x1f490;The Begin&#x1f490;点点关注&#xff0c;收藏不迷路&#x1f490; 在银河麒麟服务器操作系统中&#xff0c;有时你可能会遇到在/etc/bashrc文件中配置的环境…

VMware 设置静态IP

环境 os: centos 7vmware: 16.2.0 build-18760230 设置静态IP 不知道桥接模式和nat模式抽什么疯&#xff0c;忽然用不了了&#xff0c;虚拟机开机之后&#xff0c;本地ssh连接不上&#xff0c;ping 了一下&#xff0c;本机ping不通虚拟机。干脆参考网上的方法&#xff0c;直…

【网络安全 | Java代码审计】某Blog系统

未经许可,不得转载。 文章目录 公告处XSS评论处XSS添加友链处XSS文件上传处XSS公告处XSS 编辑公告处后端代码: 跟进updateNotice()方法: 继续跟进: 公告内容直接插入数据库,看看前端从数据库获取数据时有没有对数据做处理: noticeService 是一个服务层组件,负责业务逻辑…

【Verilog学习日常】—牛客网刷题—Verilog企业真题—VL74

异步复位同步释放 描述 题目描述&#xff1a; 请使用异步复位同步释放来将输入数据a存储到寄存器中&#xff0c;并画图说明异步复位同步释放的机制原理 信号示意图&#xff1a; clk为时钟 rst_n为低电平复位 d信号输入 dout信号输出 波形示意图&#xff1a; 输入描…

在线翻译界的4大宝藏,一站式解决语言难题!

现在全球化越来越厉害&#xff0c;语言根本就不是啥沟通的阻碍了。不管是搞学术研究、商务交流&#xff0c;还是平常学习&#xff0c;翻译工具都成了咱少不了的帮手。今天呢&#xff0c;我给大家推荐四款在 2024 年特别受推崇的邮件翻译神器&#xff0c;像百度在线翻译啥的。这…

Suricata:开源网络分析和威胁检测

Suricata 是一款高性能、开源网络分析和威胁检测软件&#xff0c;被大多数私人和公共组织使用&#xff0c;并被主要供应商嵌入以保护他们的资产。 Suricata 功能 Suricata 提供全面的网络安全监控 (NSM) 功能&#xff0c;包括记录 HTTP 请求、捕获和存储 TLS 证书以及从网络流…

带你深入浅出设计模式:一、单例模式,正确理解懒汉式和饿汉式

此为设计模式第一谈&#xff01; 用总-分-总的结构和生活化的例子给你讲解设计模式&#xff01; 码农不易&#xff0c;各位学者学到东西请点赞收藏支持支持&#xff01; 开始部分&#xff1a; 总&#xff1a;对于单例模式&#xff0c;在开发中通常用于设计配置信息类、数据库…

A/D转换器的基本概念(分辨率+转换时间+采样定律+量化误差)+A/D转换方法(Flash(同步)型A/D转换器+计数型转换器)

2024-10-02&#xff0c;星期三&#xff0c;21:41&#xff0c;天气&#xff1a;晴&#xff0c;心情&#xff1a;晴。Hello&#xff0c;大家好啊&#xff0c;真的是好久没见了&#xff0c;上次更新还是在九月份&#xff0c;九月的最后一周出了一周的差&#xff0c;然后继续上了两…

代码随想录训练营Day19 | 235. 二叉搜索树的最近公共祖先 | 701.二叉搜索树中的插入操作 | 450.删除二叉搜索树中的节点

Leetcode 235. 二叉搜索树的最近公共祖先 题目描述 给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为&#xff1a;“对于有根树 T 的两个结点 p、q&#xff0c;最近公共祖先表示为一个结点 x&#xff0c;满足 x 是 p、q 的祖先且…

【Nacos入门到实战三】安装Nacos Server:从零开始搭建配置中心

个人名片 &#x1f393;作者简介&#xff1a;java领域优质创作者 &#x1f310;个人主页&#xff1a;码农阿豪 &#x1f4de;工作室&#xff1a;新空间代码工作室&#xff08;提供各种软件服务&#xff09; &#x1f48c;个人邮箱&#xff1a;[2435024119qq.com] &#x1f4f1…

vue3项目如何添加属于自己的 live2d 看板娘 (支持换模型)

一、效果如下&#xff0c;想要更加效果前往我的博客 snows_ls BLOGhttp://124.223.41.220/ 资源我放这个仓库咯&#xff0c; 直接拉取即可 snows_l/live2d-sourcehttps://gitee.com/snows_l/live2d-source 二、引入&#xff08;看板娘出来了&#xff09; 直接在vue项目html中…