爬虫案例-亚马逊反爬流程分析梳理（验证码突破）（x-amz-captcha）

爬虫案例-亚马逊反爬流程分析梳理（验证码突破）（x-amz-captcha）

news2026/2/14 15:15:45

总体概览：核心主要是需要突破该网站的验证码，成功后会返回我们需要的参数后再去请求一个中间页（类似在后台注册一个session），最后需要注意一下 IP 是不能随意切换的

主要难点：

1、梳理整体反爬流程

2、验证码识别

3、IP识别

难度：三颗星（适合小白、初级跟中级学习）

目标网址：aHR0cHM6Ly93d3cuYW1hem9uLmNvbS9kcC9CMENTMjhaTFdT

备注：目前是有两套方案的（1、直接正面突破验证码 2、通过修改指纹来绕过验证码），本文先讲如何直接正面突破验证码，方案2后面有机会再讲

废话不多说，先上流程图

======= 正文开始 =======

首先打开浏览器自带的无痕模式，输入网址发现直接就弹出验证码了

打开抓包软件，尝试随机输入一个数字，我这里输入的是1，发现是明文，这就简单多了

搜索一下 amzn 与 amzn-r 发现这 amzn 很明显的是验证码的标识，field-keywords是我们输入验证码的结果

这次我们再输入正确的验证码：

发现对接口https://www.amazon.com/errors/validateCaptcha 进行请求，得到了

x-amz-captcha-1 与 x-amz-captcha-2 两个参数，同时会自动条状到我们最开始输入的那个产品详情页中。

在这个时候发现此时已经生成了大部分的参数了，但经过测试发现缺少 session-token 时，这几个ID很快就会被封掉不能继续使用。

接下来继续观察发现 session-token 在这个位置生成了出来，不难看出这个接口是疑似用来注册session-token 的，这里就是在开头说的请求一个中间页来注册一个session

携带这些参数再次请求的时候发现response已经没有cookie返回了，这个时候说明cookie的状态是比较好的，该网站有一个类似Cookie纠错的功能，当cookie没有特别满足他的要求的时候就会返回一些新的参数过来，此时我们只需要更新一下请求就可以了

最后需要注意一点就是 IP 是不能随意更换的，在生成x-amz-captcha-1 与 x-amz-captcha-2 这两个参数时的 IP 是绑定的，当IP更换了去请求就会失败，对比一下

同时，当再次使用那个IP时就会出现请求被拒绝，也就是被识别到为爬虫程序，被封禁

验证码识别部分：

最后还有一个 OE 文件，很明显的鼠标轨迹识别，非常有可能在后续会被用于反爬的识别

整体的思路到这基本上就结束了，后续可能会再写一遍如何实现同时实现高并发的稳定爬取该网站

有兴趣，需要源码的可以私聊我

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1695850.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

家政预约小程序01用户注册

家政预约小程序01用户注册

目录 1 创建数据源2 创建应用3 创建页面4 用户注册5 角色选择6 设置首页总结学习低代码的时候，使用官方模板搭建无疑是一个很好的途径。但是低代码工具更新比较频繁，基本每两周就要迭代一个版本。随着官方版本的迭代，官方模板安装好之后会有…

阅读更多...

联想端游联运SDK接入指南

联想端游联运SDK接入指南

1. 接入流程本文档主要介绍了联想PC游戏SDK接入流程、联想游戏提供的功能、接入注意事项等。 1.1. 接入方式 1. 联想游戏SDK2.1版本支持“账号防沉迷支付”接入方式； a. 联想提供账号注册、登录等能力 b. 联想提供防沉迷服务 c. 联想提供游戏内支付 1.2. 对…

阅读更多...

使用LoRA进行高效微调：基本原理

使用LoRA进行高效微调：基本原理

Using LoRA for efficient fine-tuning: Fundamental principles — ROCm Blogs (amd.com) [2106.09685] LoRA: Low-Rank Adaptation of Large Language Models (arxiv.org) Parametrizations Tutorial — PyTorch Tutorials 2.3.0cu121 documentation 大型语言模型&#xf…

阅读更多...

Boyer-Moore投票算法

Boyer-Moore投票算法

摩尔投票法，又称为博耶-摩尔多数投票算法，是一种用于在一组数据中寻找多数元素(出现次数超过一半的元素)的算法。该算法的效率非常高，时间复杂度为O(n)，空间复杂度为O(1)，适合处理大数据量的情况。步骤首先定义两个…

阅读更多...

JSONP原理及应用实例

JSONP原理及应用实例

JSONP是什么 JSONP（JSON with Padding）是一种跨域数据请求技术，它允许网页在不受同源策略限制的情况下从其他域中请求数据。JSONP的原理是利用 <script> 标签的跨域特性，通过 <script> 标签，指向包含 JSO…

阅读更多...

通过继承React.Component创建React组件-5

通过继承React.Component创建React组件-5

在React中，V16版本之前有三种方式创建组件（createClass() 被删除了)，之后只有两种方式创建组件。这两种方式的组件创建方式效果基本相同，但还是有一些区别，这两种方法在体如下： 本节先了解下用extnds Reac…

阅读更多...

vue+elemntui 加减表单框功能样式

vue+elemntui 加减表单框功能样式

<el-form ref"form" :model"form" :rules"rules" label-width"80px"><el-form-item label"配置时间" prop"currentAllocationDate"><div v-for"(item,key) in timeList"><el-date…

阅读更多...

ROCm上来自Transformers的双向编码器表示（BERT）

ROCm上来自Transformers的双向编码器表示（BERT）

14.8. 来自Transformers的双向编码器表示（BERT） — 动手学深度学习 2.0.0 documentation (d2l.ai) 代码 import torch from torch import nn from d2l import torch as d2l#save def get_tokens_and_segments(tokens_a, tokens_bNone):""&qu…

阅读更多...

Cortex-M3的SysTick 定时器

Cortex-M3的SysTick 定时器

目录概述 1 SysTick 定时器 1.1 SysTick 定时器功能介绍 1.2 SysTick 定时器功能实现 1.3 SysTick在系统中的作用 2 SysTick应用的实例 2.1 建立异常服务例程 2.2 使能异常 2.3 闹钟功能 2.4 重定位向量表 2.5 消灭二次触发 3 SysTick在FreeRTOS中的应用 3.1 STM…

阅读更多...

（完全解决）Python字典dict如何由键key索引转化为点.dot索引

（完全解决）Python字典dict如何由键key索引转化为点.dot索引

文章目录背景解决方案基础版升级版背景 For example, instead of writing mydict[‘val’], I’d like to write mydict.val. 解决方案基础版 I’ve always kept this around in a util file. You can use it as a mixin on your own classes too. class dotdict(dict)…

阅读更多...

如何进行异地多地兼容组网设置？

如何进行异地多地兼容组网设置？

跨地区工作、远程办公和异地合作已成为常态。由于网络限制和安全性要求，远程连接仍然是一个具有挑战性的问题。为了解决这一难题，各行各业都在寻找一种能在异地多地兼容的组网设置方案。本文将着重介绍基于【天联】的组网解决方案，探讨其操作…

阅读更多...

SpringBoot——整合Thymeleaf模板

SpringBoot——整合Thymeleaf模板

目录模板引擎新建一个SpringBoot项目 pom.xml application.properties Book BookController bookList.html 编辑项目总结模板引擎模板引擎是为了用户界面与业务数据分离而产生的，可以生成特定格式的页面在Java中，主要的模板引擎有JSP&…

阅读更多...

如何评价刘强东说“业绩不好的人不是我兄弟”

如何评价刘强东说“业绩不好的人不是我兄弟”

在近日的一次京东管理层会议上，创始人刘强东以不容置疑的口吻表明了对公司文化的坚定态度：“凡是长期业绩不好，从来不拼搏的人，不是我的兄弟。”这句话不仅是对那些工作表现不佳的员工的直接警告，也透露出京东在追求业…

阅读更多...

C++语法｜多重继承详解（一）｜理解虚基类和虚继承

C++语法｜多重继承详解（一）｜理解虚基类和虚继承

系列汇总讲解，请移步： C语法｜虚函数与多态详细讲解系列（包含多重继承内容） 虚基类是多重继承知识上的铺垫。首先我们需要明确抽象类和虚基类的区别： 抽象类：有纯虚函数的类虚基类是什么呢&a…

阅读更多...

阿里云的域名购买和备案（一）

阿里云的域名购买和备案（一）

前言本篇文章主要讲阿里云的域名购买和备案。大家好，我是小荣，我又开始做自己的产品迷途dev了。这里详细记录一下域名购买的流程和备案流程。视频教学购买流程 1.阿里云官网搜索域名注册 2.搜索你想注册的域名 3.将想要注册的域名加入域名清单 4.点…

阅读更多...

[Linux]网络原理与配置

[Linux]网络原理与配置

一.NAT模式网路配置虚拟系统的IP地址处于随机网段，同时在母机上会额外有一个与虚拟IP地址网段相同的IP地址，可以实现母机与虚拟机的通信。虚拟系统的IP地址可以通过主机实际的IP地址作为代理IP，与外部系统进行通信。优点：不造…

阅读更多...

2024.05.25学习记录

2024.05.25学习记录

1、面经复习： JS异步进阶、vue-react-diff、vue-router模式、requestldleCallback、React Fiber 2、代码随想录刷题、动态规划 3、组件库使用storybook

阅读更多...

【C++】牛客——JZ38 字符串的排列

【C++】牛客——JZ38 字符串的排列

✨题目链接： JZ38 字符串的排列 ✨题目描述输入一个长度为 n 字符串，打印出该字符串中字符的所有排列，你可以以任意顺序返回这个字符串数组。例如输入字符串ABC,则输出由字符A,B,C所能排列出来的所有字符串ABC,ACB,BAC,BCA,CBA和CAB。数…

阅读更多...

结合时间复杂度浅谈二分法的好处(将持续更新,绝对值你一个收藏)

结合时间复杂度浅谈二分法的好处(将持续更新,绝对值你一个收藏)

前言笔者虽然刷的算法题不多,但是笔者也敢说,二分法真的是一种很优越的算法,使用上限极高的那种,正因如此,笔者才想浅谈一下二分法. 封面是我很喜欢的一个游戏角色,不知道有没有老gal玩家知道! 什么是二分法? 枚举查找即顺序查找，实现原理是逐个比较数组 a[0:…

阅读更多...

【C++】详解二叉搜索树

【C++】详解二叉搜索树

目录树概述二叉搜索树概述概念特性元素操作插入删除模拟实现框架查找插入删除树概述树——在计算机中是一种很常见的数据结构。树是一种很强大的数据结构，数据库，linux操作系统管理和windows操作系统管理所有文件的结构就是…

阅读更多...

推荐文章

最新文章