附录1-爬虫的一些技巧

news2024/10/6 2:26:26

目录

1  寻找url与显示内容的关系

2  修改请求头

3  局部刷新

4  阅读返回信息

5  多尝试页面其他的使用方式

6  尝试不同类型参数

7  表单类型的post多用data发,接口类型的post多用json发

8  消除degger

9  你在浏览器上看到的html与你下载下来的html不一定一样


1  寻找url与显示内容的关系

比如在百度中,查询字符串wd与你搜索的内容一致

再比如 起点中文网,我随便找了一本小说,它的第一章对应的是 759237818

它的第二章是759237819

我们不难猜出它的第三章就是 759237820 ,但它并不是,不过也八九不离十

2  修改请求头

可以在web调试工具中查看你当前的请求头,然后把请求头尽量贴近你当前的请求头

修改User-Agent的时候不要只使用一个,你就爬的时候近network看一下,有时候你用老的User-Agent是不行的

3  局部刷新

我们以百度翻译为例,首先点击这里清楚所有network记录

然后输入内容,输入内容后发现多了15条新内容,这些内容不是一开始就有的,而是我们做出了一些动作搞出来的

我们筛选出XHR的请求,XHR是ajax请求,这些请求通常会携带内容

我们可以通过请求大致看出来业务逻辑,比如langdetect就是检测你是什么语言,v2transapi就是翻译

我们想获取翻译就点开这个ajax请求,我们从Headers中看到了路由和方法

再看它的参数

再看它的响应,我们找到了翻译的结果

使用Preview看的更清楚些

4  阅读返回信息

于是我们尝试发起依次请求

结果是200,给了一些信息,但是看不懂

我们可以通过在线转换utf-8的网站看一下是什么意思 在线UTF-8编码转换工具-UTF8编码解码在线转换工具

我们不难看出,这个query大致对应的是字符 我,于是我们先翻译一下,发现确实如此

那么我们就可以按照格式翻译errmsg中的内容了,翻译结果没有给出我们任何有用的信息,所以如果遇到这种情况我们需要考虑别的可能

5  多尝试页面其他的使用方式

上面我们搞的是汉译英,我们此时再尝试英译汉,使用相同的方式我们可以看到路由与方法

传入的参数,这个参数相较于汉译英的参数是简明许多的

请求的结果

我们不妨再用这种方式发送请求试一试

这一次尝试我们拿到了我们想要的信息

6  尝试不同类型参数

我们最初的目的是要搞 汉译英,现在我们搞到了英译汉,我们不妨尝试将 英文参数 换位中文参数

我们可以在响应信息中得到想要的结果

7  表单类型的post多用data发,接口类型的post多用json发

表单类型的post有前端的交互,比如这种

接口类型的post就比如刷新了一下,或者是下拉触底了这种,多用json

8  消除degger

比如 这个网址 https://www.nmpa.gov.cn/ 它搞了很多debugger不让你看调试工具

如果数量小的话,我们可以手动禁止 debugger

之后就没有debugger的问题了

在这个网站上,debugger就好像防水的堤坝,如果把堤坝拔掉,那么水就会灌进来。这里如果给debugger搞掉,那么它就会给你一顿整,像是什么79,67就是用你的机器做一些无意义的运算

最终的结果会导致你CPU使用率飙升

这个时候把有debugger的页签关闭就行了

这种情况如果还想看F12中的network的话,你就需要用快一点的速度看,看完赶紧关。这种爬的难度就高了很多,因为你CPU高会导致你看network的速度变慢。所以这种情况F12的network就用不了了

9  你在浏览器上看到的html与你下载下来的html不一定一样

比如 整套简历-整套简历模板下载

浏览器上的html是

下载下来的html是

你解析的时候按下载下来的html走

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/974382.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LeetCode每日一题合集】2023.8.21-2023.8.27(统计点对的数目)

文章目录 2337. 移动片段得到字符串⭐解法——脑筋急转弯 849. 到最近的人的最大距离1782. 统计点对的数目🚹🚹🚹🚹🚹解法——从双指针到终极优化单独处理每个询问终极优化TODO 技巧总结用一个int存储两个不超过 65535…

最全数据脱敏标准汇编,有必要了解一下!(附下载)

《网络安全法》第四十二条:网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。 《数据安全法》第二十七条:开展数据处理活动…

W5100S_EVB_PICO 做MQTT测试(十二)

前言 上一章我们用W5100S_EVB_PICO 开发板做Ping测试,那么本章我们进行W5100S_EVB_PICO MQTT的测试。 什么是mqtt? MQTT(Message Queuing Telemetry Transport,消息队列遥测传输协议),是一种基于发布/订…

Linux xargs命令继续学习

之前学习过Linux xargs,对此非常的不熟悉,下面继续学习一下; xargs 可以将管道或标准输入(stdin)数据转换成命令行参数,也能够从文件的输出中读取数据; xargs也可以给命令传递参数;…

【Linux】地址空间概念

目录 前言: 地址空间回顾 验证:一个变量是否会有两个值? 一. 什么是地址空间 虚拟地址与物理地址之间的关系 二. 地址空间是如何设计的 1. 回答一个变量两个值 2.扩展 继续深入理解 三. 为什么要有地址空间 原因: 1. 使…

触摸屏与多台 PLC之间无线Ethernet通信

在实际系统中,同一个车间里分布多台PLC,由触摸屏集中控制。通常所有设备距离在几十米到上百米不等。在有通讯需求的时候,如果布线的话,工程量较大且不美观,这种情况下比较适合采用无线通信方式。本方案以威纶通触摸屏和…

解决解析maven依赖加载卡住问题

首先找到用户设置文件的位置&#xff1a; 根据位置查找文件&#xff0c;没有则创建。 修改maven的默认镜像为阿里云镜像。 <mirror><id>alimaven</id><name>aliyun maven</name><url>http://maven.aliyun.com/nexus/content/groups/pub…

直播进入新风口:XR虚拟直播市场火爆,未来发展势不可挡

&#xfeff; 近年来&#xff0c;直播行业随着技术的不断发展&#xff0c;呈现出了蓬勃的发展态势。在这个竞争日益激烈的直播行业中&#xff0c;XR虚拟直播成为了最新的风口。XR虚拟直播是一种新型的直播形式&#xff0c;通过虚拟现实技术&#xff0c;让用户置身于直播现场&a…

使用生成式 AI 增强亚马逊云科技智能文档处理

数据分类、提取和分析对于处理大量文档的组织来说可能具有挑战性。传统的文档处理解决方案是手动的、昂贵的、容易出错的,并且难以扩展。利用 Amazon Textract 等 AI 服务,亚马逊云科技智能文档处理(IDP)允许您利用业界领先的机器学习(ML)技术来快速准确地处理任何扫描文档或图…

MySQL 枚举类型如何定义比较好 tinyint?enum?varchar?

enum介绍 先来介绍一下enum类型吧。 ENUM 是一个字符串对象&#xff0c;其值通常选自一个允许值列表中&#xff0c;该列表在表创建时的列规格说明中被明确地列举。&#xff08;建表的时候写到建表语句里&#xff09; 虽然表面是字符串值&#xff0c;但其内部是数字索引&…

Nvidia vpi2 不是最新版本问题

问题&#xff1a; 根据官方手册&#xff1a;VPI - Vision Programming Interface: Installation安装的vpi2有可能不是最新版本&#xff0c;主要原因是手册中的添加的源不是最新的。 解决方法&#xff1a; 在 Index网址中搜索 vpi&#xff0c;如下 可以看到&#xff0c;最新的…

【数字通信原理】笔记(持续更新ing)

通信原理学习笔记&#xff0c;课程见b站: 由于教材不同&#xff0c;我们的课程使用的是《数字通信原理》主编:李白萍 版本&#xff0c;因此此笔记以我们的教材为主整理up主的笔记。 详情见:通信原理 文章目录 第一章 绪论1. 通信的基本概念2. 信息的量度3. 通信系统的性能指标 …

Mars3d图层树//图层管理加载时设置默认折叠的状态

问题&#xff1a;Mars3d图层树//图层管理加载时设置默认折叠的状态。 设置参考&#xff1a; 有个参数 open:false&#xff0c;写在对应的图层配置下&#xff0c;比如某个节点不展示&#xff0c;就对这个节点配置下。 如果全局&#xff0c;可以搜下这个widget内的代码&#xff…

YOLO目标检测——赛马数据集下载分享

目标检测赛马数据集在马匹竞赛、马匹健康监测、马匹行为研究、马匹安全监控和马匹图像检索等应用场景中具有广泛的应用潜力&#xff0c;可以为马匹产业的发展和管理提供有力支持 数据集点击下载&#xff1a;YOLO赛马数据集640图片标框.rar 更多数据集下载和效果展示&#x…

Nature Medicine:GWAS揭示抑郁症与其他精神疾病风险之间的关联

几乎五分之一的丹麦人在一生中经历过抑郁症。奥尔胡斯大学的一项新研究现在表明&#xff0c;抑郁症的遗传风险与其他精神病诊断的遗传风险增加相关。这项研究于2023年7月18日发表在《Nature Medicine》&#xff08;IF202282.9&#xff09;杂志上。 研究人员分析了130万人&#…

高光谱图像超分辨率-总

高光谱图像超分辨率 高光谱图像超分辨率 高光谱图像超分辨率一、基础内容1.1 高光谱图像特点1.2 研究现状1.3 高光谱图像数据集1.4 评价指标1.5 Wald**协议**二、文献阅读清单2.1 综述+先锋工作1.提出解混的思想。2.随机混合模型在高光谱分辨率增强中的应用。3.遥感中的多光谱和…

MySQL基础(六)流程控制、游标、触发器、窗口函数

目录 定义条件与处理程序 定义条件 定义处理程序 流程控制 IF 分支结构之 CASE 循环结构之LOOP 循环结构之WHILE 循环结构之REPEAT 跳转语句leave和iterate 游标 使用游标步骤 全局变量的持久化 触发器 触发器的使用 查看触发器 删除触发器 定义条件与处理程序 …

基于 LLM 的知识图谱另类实践

本文整理自社区用户陈卓见在「夜谈 LLM」主题分享上的演讲&#xff0c;主要包括以下内容&#xff1a; 利用大模型构建知识图谱利用大模型操作结构化数据利用大模型使用工具 利用大模型构建知识图谱 上图是之前&#xff0c;我基于大语言模型构建知识图谱的成品图&#xff0c;主…

【Java从0到1学习】14 Java多线程

1. 多线程概述 人们在日常生活中&#xff0c;很多事情都是可以同时进行的。例如&#xff0c;一个人可以一边听音乐&#xff0c;一边打扫房间&#xff0c;可以一边吃饭&#xff0c;一边看电视。在使用计算机时&#xff0c;很多任务也是可以同时进行的。例如&#xff0c;可以一边…

Android逆向学习(番外一)smali2java部分文件无法反编译的bug与修复方法

Android逆向学习&#xff08;番外一&#xff09;smali2java部分文件无法反编译的bug与修复方法 一、前言 昨天我和往常一样准备着android逆向&#xff08;四&#xff09;的博客&#xff0c;结果发现smali2java对某些文件无法进行逆向&#xff0c;我不知道windows会不会产生这…