狂雨CMS-采集规则(novelfull.com)

news2024/10/2 17:17:26
1. 填写采集规则的基本信息

首先点击采集管理中的添加按钮来新建规则:

然后进入到信息页面填写,包括:

    规则名称:一般以要采集的源站名命名。

    网站编码:默认自动检测即可。

    类型:根据网站类型来选择,一般选小说

    网址补全:默认选是即可

    倒叙采集:一般否即可

    图片本地化:一般选否,如果原网站做了反爬虫机制,就要选是;另外根据自己服务器硬盘大小选择,不要因为图片占用太多内存。

    重复数据处理:一般选择不处理,这样碰到重复小说时,你采集就会告诉你已存在,不会重复采集。但这个要看是否多次采集,如果一个站点之前有使用其它采集规则有了数据,那么再使用新的采集规则很有可能会采集到与之前重复的数据,所以这时候需要判断是否把重复的数据替换成当前采集规则采集的数据。

重复数据处理:若选择不处理,采集同本小说时则告知已存在

重复数据处理:若选择处理,采集同本小说时则告知替换成功

2. 填写列表网址

首先用浏览器访问要采集的网页,然后网页对应的网址就是采集网址,page后面对应的参数用通配符【内容】替换,总页数只需要点击网页中的last按钮就知道多少页。图片中的网址总页数是19.

根据上述网址信息来编辑列表网址信息:

3. 填写列表网址(小说列表网址)

接下来我们要获取所有小说名称及其对应的网址连接,首先我们把鼠标放到某个小说上,然后点击鼠标右键,点击检查:

这样就得到了网页源代码,然后我们把鼠标放到箭头位置,就可以看到左边蓝色部分框住的就是对应小说的网页位置。

但我们想要找到框住所有小说的源代码,很简单,用鼠标继续放到更大的div范围。可以看到,图片中的箭头位置就是框住所有小说的div。显然它是唯一的,所以需要填写的获取区间为:

<div class="list list-truyen col-xs-12">[内容]</div></div></div></div>

然后对应的小说链接只要找到框住href的位置即可,显然h3包住的部分是唯一的,所以需要填写的网址规则为:

<h3 class="truyen-title"><a href="[内容1]" title="(*)">(*)</a></h3>

注意了,这里为什么用h3而不直接用a href;其实展开了可以看到,后面还有一个链接是对应最新章节的,导致a href并不是唯一的,所以必须用h3来保证唯一性。

最终的列表规则完整填写如下:

4. 填写关联网址(章节列表网址)

单击某一本小说后进入到小说详情页面

进入到小说详情页后可以看到所有章节列表:

那我们和获取到所有章节名称和对应链接呢?其实和前面获取小说名称和链接完全类似,首先鼠标移到某一章上鼠标右键,然后点击检查获取网页源代码:

同样我们先要找到框住所有章节的源代码,用鼠标继续放到更大的div范围。可以看到,图片中的箭头位置就是框住所有章节的div。显然它是唯一的,所以需要填写的获取区间为:

<div class="row"><div class="col-xs-12 col-sm-6 col-md-6">[内容]</ul></div></div>

然后对应的章节链接只要找到框住href的位置即可,这里可以看到,每个章节只有一个对应的href链接,所以href是唯一的,只需要填写href这段内容即可,所以网址规则为:

<a href="[内容1]" title="[章节标题]">(*)</span></a>

最终的关联网址规则完整填写如下:

4. 填写内容规则

栏目规则

我直接用的固定规则,因为狂雨采集时不支持同时并入多个分类。

假如你用对应分类会报匹配错误,原因很简单:内容是读取出来的整个大字符串,并没有按照预想的去根据逗号拆分多分类(规则不支持)。

名称规则:<h3 class="title">[内容1]</h3>

作者规则:<div><h3>Author:</h3>[内容1]</div>

连载规则:<div><h3>Status:</h3><a href="(*)">[内容1]</a></div>

图片规则:<meta name="image" content="[内容1]">

介绍规则:<div class="desc-text"><p>[内容1]</p></div>

标签规则:<div><h3>Genre:</h3>[内容1]</div>

章节名称规则:<span class="chapter-text">[内容1]<span>

注意:这里的目标页换成章节列表,即去某一章节页面获取

点击测试规则后可以看到获取到了章节名称

这里注意一点,如果直接复制原始源代码标签,这里应该是:<span class="chapter-text">[内容1]<span></span></span>,但是你测试规则会发现查不到结果。

所以我们在做规则匹配的时候一定要保证唯一性的前提下尽量简洁,去掉不必要的标签。

章节内容规则:<div id="chapter-content" class="(*)" style="(*)">[内容1]<div  align(*)>

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1505064.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

遗传算法(GA)求解基于栅格地图的机器人最优路径规划,可以自行修改地图(提供MATLAB代码)

通过栅格法建立栅格地图作为机器人路径规划的工作环境,采用遗传算法作为机器人路径搜索的规则.将所有机器人放置于初始位置.经过NC次无碰撞迭代运动找到最优路径.到达目标位置.为防止机器人在路径搜索过程中没有达到最大迭代次数时路径大小已不发生变化而陷入局部最优。 一、部…

个人博客系列-后端项目-RBAC角色管理(6)

修改上一篇文章创建的用户表 ## 用户表 from django.contrib.auth.hashers import make_password, check_password from django.contrib.auth.models import AbstractBaseUserclass User(AbstractBaseUser):username models.CharField(max_length255, uniqueTrue, verbose_na…

day-18 猜数字游戏

1.由于两个数字位数相同&#xff0c;所以可以遍历字符串吧&#xff0c;找出公牛个数 2.在通过两个数组分别统计两个数字0-9的个数 3.Math.min(arr1[i],arr2[i])即为对应数字的奶牛个数 code class Solution {public String getHint(String secret, String guess) {int arr1[]n…

C++进阶:详细讲解继承

现在也是结束了初阶部分的内容&#xff0c;今天开始就进入进阶部分了。一刻也没有为初阶的结束而哀悼&#xff0c;立刻赶来“战场”的是进阶部分里的继承 文章目录 1.继承的概念和定义1.1继承的概念1.2继承的定义1.2.1继承的格式1.2.2再讲访问限定符(详讲protected)1.2.3**继承…

Android14之解决报错:No module named selinux(一百九十三)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

HTML静态网页成品作业(HTML+CSS)——花主题介绍网页设计制作(1个页面)

&#x1f389;不定期分享源码&#xff0c;关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 &#x1f3f7;️本套采用HTMLCSS&#xff0c;未使用Javacsript代码&#xff0c;共有1个页面。 二、作品演示 三、代…

数据科学中的Python:NumPy和Pandas入门指南【第121篇—NumPy和Pandas】

数据科学中的Python&#xff1a;NumPy和Pandas入门指南 数据科学是当今数字时代中的一个重要领域&#xff0c;而Python是数据科学家们最喜爱的编程语言之一。在这篇博客中&#xff0c;我们将介绍Python中两个强大的库——NumPy和Pandas&#xff0c;它们在数据处理和分析中发挥…

mysql | 查询数据的过程|优化-->索引 |存储引擎

查询的过程 首先确认mysql 服务器是否启动 systemctl mysqld status 登录连接 mysql -h i p − u ip -u ip−uuser -p (-h 指定服务器ip -u 指定用户名 -p 指定密码) mysql 数据包 经过抓包分析&#xff08;mysql包其实就是基于tcp协议 3306端口) 传输采用mysql 协议&#xff0…

【探索C++容器:set和map的使用】

[本节目标] 1. 关联式容器 2. 键值对 3. 树形结构的关联式容器 1. 关联式容器 在初阶阶段&#xff0c;我们已经接触过STL中的部分容器&#xff0c;比如&#xff1a;vector、list、deque、forward_list(C11)等&#xff0c;这些容器统称为序列式容器&#xff0c;因为其底层为…

【Tauri】(4):整合Tauri和actix-web做本地大模型应用开发,可以实现session 登陆接口,完成页面展示,进入聊天界面

1&#xff0c;视频地址 https://www.bilibili.com/video/BV1GJ4m1Y7Aj/ 【Tauri】&#xff08;4&#xff09;&#xff1a;整合Tauri和actix-web做本地大模型应用开发&#xff0c;可以实现session 登陆接口&#xff0c;完成页面展示&#xff0c;进入聊天界面 使用国内代理进行加…

农场管理小程序|基于微信小程序的农场管理系统设计与实现(源码+数据库+文档)

农场管理小程序目录 目录 基于微信小程序的农场管理系统设计与实现 一、前言 二、系统设计 三、系统功能设计 1、用户信息管理 2、农场信息管理 3、公告信息管理 4、论坛信息管理 四、数据库设计 五、核心代码 七、最新计算机毕设选题推荐 八、源码获取&#x…

族群争霸休闲养成小游戏

​游戏概述&#xff1a; 在一个由自然力量支配的幻想世界中&#xff0c;狼族与羊族的战争永无止境。 人族在两者之间寻求和平&#xff0c;建立起坚固的城墙&#xff0c;同时捕捉狼与羊来增强自身实力。 神族则在幕后观察&#xff0c;偶尔以神技介入战场&#xff0c;影响战局…

如何通过隐藏服务器真实IP来防御DDOS攻击

我们知道&#xff0c;服务器对外提供服务&#xff0c;基本上都是放置在公网上的。所以说服务器放置在公网上会面临很多攻击&#xff0c;如果不做好必要的防护措施&#xff0c;服务器被人攻击只是时间上的问题。 而我们面临的众多攻击中&#xff0c;DDoS攻击是最常见同时也是影响…

CSS顶部与JS后写:网页渲染的奥秘

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

【linux】01 :虚拟机,Linux系统,远程连接Linux系统

导入&#xff1a;常见操作系统有哪些&#xff1f; PC端&#xff1a;Windows,Linux,MacOS 移动端&#xff1a;Android、IOS、鸿蒙系统 一、Linux 系统的组成 由Linux 系统内核和系统级应用程序两部分组成。 内核提供系统最核心的功能&#xff0c;如&#xff1a;调度 CPU 、调度…

Android Studio在导入项目后编译出现java版本错误解决方法

打开新项目时出现一下错误&#xff1a; Unsupported Java&#xff0c;Your build is currently configured to use Java 17.0.9 and Gradle 5.6.4. 这说明使用的java版本过高&#xff0c;而 gradle5.6.4对应的是java8&#xff0c;最新安装的编译器java版本是17 解决方法是为项…

C语言————字符函数与字符串函数

在编程的过程中&#xff0c;我们经常要处理字符和字符串&#xff0c;为了⽅便操作字符和字符串&#xff0c;C语⾔标准库中提供了⼀系列库函数&#xff0c;如追加&#xff0c;拷贝&#xff0c;替换等等接下来我们就学习⼀下这些函数&#xff0c;并且自实现。 gets 这个指令大家…

IntelliJ IDEA 2020.2.4试用方法

打开idea&#xff0c;准备好ide-eval-resetter压缩包。 将准备好的压缩包拖入idea中 选中弹窗中的自动重置选项&#xff0c;并点击重置 查看免费试用时长

【Docker安装教程】Docker安装Redis详解

安装Redis前我们必须要保证Docker运行OK&#xff0c;如何安装Docker参考《CentOS 7 上的 Docker 安装与配置》 步骤 1: 拉取 Redis 镜像 首先&#xff0c;确保你已经安装了 Docker。然后&#xff0c;使用以下命令拉取最新的 Redis 镜像&#xff1a; docker pull redis](http…

【Pytorch】进阶学习:深入解析 sklearn.metrics 中的 classification_report 函数---分类性能评估的利器

【Pytorch】进阶学习&#xff1a;深入解析 sklearn.metrics 中的 classification_report 函数—分类性能评估的利器 &#x1f308; 个人主页&#xff1a;高斯小哥 &#x1f525; 高质量专栏&#xff1a;Matplotlib之旅&#xff1a;零基础精通数据可视化、Python基础【高质量合…