深入探讨 Puppeteer 如何使用 X 和 Y 坐标实现鼠标移动

news2024/11/25 21:36:19

爬虫代理

背景介绍

现代爬虫技术中,模拟人类行为已成为绕过反爬虫系统的关键策略之一。无论是模拟用户点击、滚动,还是鼠标的轨迹移动,都可以为爬虫脚本带来更高的“伪装性”。在众多的自动化工具中,Puppeteer作为一个无头浏览器控制库,以其强大的功能和灵活的 API 赢得了开发者的青睐。

本文将深入探讨 Puppeteer 如何通过X 和 Y 坐标精准实现鼠标移动,并结合实际案例展示如何采集小红书网站的内容。在此过程中,我们还将运用代理 IP 技术、设置 cookie 和 user-agent,模拟一个更加“真实”的用户环境。


问题陈述

在爬取小红书等具备强大反爬能力的网站时,仅简单发送 HTTP 请求已不足以满足需求。网站可能会通过以下方式检测爬虫:

  • 缺乏真实用户行为(鼠标移动、点击、键盘输入等)。
  • 请求 IP 地址异常频繁,导致触发封禁机制。
  • 浏览器指纹(如 User-Agent 或 Cookie)不符合常规。

这就要求我们在代码中实现:

  1. 模拟人类鼠标移动:基于 X 和 Y 坐标的动态轨迹。
  2. 代理 IP 技术:隐藏爬虫的真实 IP。
  3. 自定义请求头:包括 User-Agent 和 Cookie。
  4. 完整采集流程:以小红书为例,成功抓取页面内容。

解决方案

Puppeteer 的鼠标移动 API

Puppeteer 提供了 page.mouse.move(x, y, options) 方法来实现鼠标移动。结合一定的随机性,我们可以模拟真实用户的鼠标行为,避免直线轨迹暴露爬虫的本质。

实现代理 IP

使用代理 IP 技术能够有效地绕过 IP 限制。本文将参考爬虫代理的服务,通过配置代理服务器的地址、端口、用户名和密码,让 Puppeteer 的请求看起来更真实。


案例分析:采集小红书

以下是完整的代码实现,包含代理 IP、Cookie、User-Agent 的设置,以及鼠标移动的模拟。

const puppeteer = require('puppeteer');

// 配置代理IP信息 亿牛云爬虫代理 www.16yun.cn
const proxy = {
    host: '代理服务器域名', // 替换为16yun爬虫代理提供的域名
    port: '代理服务器端口', // 替换为16yun爬虫代理提供的端口
    username: '用户名',      // 替换为16yun爬虫代理提供的用户名
    password: '密码',        // 替换为16yun爬虫代理提供的密码
};

// 自定义 Cookie 和 User-Agent
const cookies = [
    {
        name: 'test_cookie',
        value: 'test_value',
        domain: 'xiaohongshu.com',
        path: '/',
    },
];
const userAgent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36';

(async () => {
    // 启动 Puppeteer,并设置代理
    const browser = await puppeteer.launch({
        headless: false, // 可设置为 true 来启用无头模式
        args: [
            `--proxy-server=http://${proxy.host}:${proxy.port}`, // 配置代理
        ],
    });

    const page = await browser.newPage();

    // 设置认证代理
    await page.authenticate({
        username: proxy.username,
        password: proxy.password,
    });

    // 设置 User-Agent
    await page.setUserAgent(userAgent);

    // 设置 Cookie
    await page.setCookie(...cookies);

    // 打开小红书主页
    await page.goto('https://www.xiaohongshu.com', {
        waitUntil: 'networkidle2',
    });

    // 模拟鼠标移动
    console.log('模拟鼠标移动...');
    await page.mouse.move(100, 100); // 从点 (100, 100) 开始
    await page.waitForTimeout(500); // 等待 500 毫秒
    await page.mouse.move(200, 200, { steps: 20 }); // 平滑移动到点 (200, 200)

    // 获取页面内容
    const content = await page.evaluate(() => document.body.innerText);
    console.log('页面内容:', content);

    // 关闭浏览器
    await browser.close();
})();

代码解析

  1. 代理 IP 配置:通过 Puppeteer 的 --proxy-server 参数以及 page.authenticate 方法,完成代理 IP 的配置。
  2. Cookie 和 User-Agent:模拟浏览器的指纹数据,避免爬虫身份暴露。
  3. 鼠标移动模拟:采用 mouse.move 方法,通过动态坐标和步数实现平滑移动,模仿人类操作。
  4. 页面内容抓取:成功获取小红书页面的文本内容。

结论

通过结合 Puppeteer 的强大功能,我们不仅实现了对 X 和 Y 坐标的鼠标轨迹模拟,还在代码中整合了代理 IP 技术、Cookie 和 User-Agent 的设置。这些手段有效提升了爬虫的伪装性,使其能够成功应对小红书等具有强大反爬机制的网站。

下一步是什么? 你可以尝试进一步优化鼠标轨迹,使其更加随机,或结合键盘输入模拟,实现更加全面的行为伪装。技术无止境,挑战才刚刚开始!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2247505.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RabbitMQ2:介绍、安装、快速入门、数据隔离

欢迎来到“雪碧聊技术”CSDN博客! 在这里,您将踏入一个专注于Java开发技术的知识殿堂。无论您是Java编程的初学者,还是具有一定经验的开发者,相信我的博客都能为您提供宝贵的学习资源和实用技巧。作为您的技术向导,我将…

Linux 下进程基本概念与状态

文章目录 一、进程的定义二、 描述进程-PCBtask_ struct内容分类 三、 进程状态 一、进程的定义 狭义定义:进程是正在运行的程序的实例(an instance of a computer program that is being executed)。广义定义:进程是一个具有一定…

数据库MYSQL——表的设计

文章目录 前言三大范式:几种实体间的关系:一对一关系:一对多关系:多对多关系: 前言 之前的博客中我们讲解的是关于数据库的增删改查与约束的基本操作, 是在已经创建数据库,表之上的操作。 在实…

开源动态表单form-create-designer 扩展个性化配置的最佳实践教程

在开源低代码表单设计器 form-create-designer 的右侧配置面板里,field 映射规则为开发者提供了强大的工具去自定义和增强组件及表单配置的显示方式。通过这些规则,你可以简单而高效地调整配置项的展示,提升用户体验。 源码地址: Github | G…

面试:请阐述MySQL配置文件my.cnf中参数log-bin和binlog-do-db的作用

大家好,我是袁庭新。星球里的小伙伴去面试,面试官问:MySQL配置文件my.cnf中参数log-bin和binlog-do-db的作用?一脸懵逼~不知道该如何回答。 在MySQL的配置文件my.cnf中,log-bin和binlog-do-db是与二进制日志…

Java语言编程,通过阿里云mongo数据库监控实现数据库的连接池优化

一、背景 线上程序连接mongos超时,mongo监控显示连接数已使用100%。 java程序报错信息: org.mongodb.driver.connection: Closed connection [connectionId{localValue:1480}] to 192.168.10.16:3717 because there was a socket exception raised by…

Hive离线数仓结构分析

Hive离线数仓结构 首先,在数据源部分,包括源业务库、用户日志、爬虫数据和系统日志,这些都是数据的源头。这些数据通过Sqoop、DataX或 Flume 工具进行提取和导入操作。这些工具负责将不同来源的数据传输到基于 Hive 的离线数据仓库中。 在离线…

MySQL1——基本原理和基础操作

文章目录 Mysql数据库1——基本原理和基础操作1. 基本概念2. Mysql体系结构2.1 连接层2.2 服务层2.3 存储引擎层 3. 三级范式与反范式4. 完整性约束4.1 实体完整性约束4.2 参照完整性约束 5. CRUDDDLDMLDCLDQL 6. 高级查询基础查询条件查询分页查询查询结果排序分组聚合查询联表…

【Ubuntu24.04】服务部署(虚拟机)

目录 0 背景1 安装虚拟机1.1 下载虚拟机软件1.2 安装虚拟机软件1.2 安装虚拟电脑 2 配置虚拟机2.1 配置虚拟机网络及运行初始化脚本2.2 配置服务运行环境2.2.1 安装并配置JDK172.2.2 安装并配置MySQL8.42.2.3 安装并配置Redis 3 部署服务4 总结 0 背景 你的服务部署在了你的计算…

Redis 常用数据类型插入性能对比:循环插入 vs. 批量插入

Redis 是一款高性能的键值数据库,其支持多种数据类型(String、Hash、List、Set、ZSet、Geo)。在开发中,经常会遇到需要插入大量数据的场景。如果逐条插入,性能会显得较低,而采用 Pipeline 批量插入 能大幅提…

uniapp页面样式和布局和nvue教程详解

uniapp页面样式和布局和nvue教程 尺寸单位 uni-app 支持的通用 css 单位包括 px、rpx px 即屏幕像素。rpx 即响应式px,一种根据屏幕宽度自适应的动态单位。以750宽的屏幕为基准,750rpx恰好为屏幕宽度。屏幕变宽,rpx 实际显示效果会等比放大…

Spring AI 框架使用的核心概念

一、模型(Model) AI 模型是旨在处理和生成信息的算法,通常模仿人类的认知功能。通过从大型数据集中学习模式和见解,这些模型可以做出预测、文本、图像或其他输出,从而增强各个行业的各种应用。 AI 模型有很多种&…

(Keil)MDK-ARM各种优化选项详细说明、实际应用及拓展内容

参考 MDK-ARM各种优化选项详细说明、实际应用及拓展内容 本文围绕MDK-ARM优化选项,以及相关拓展知识(微库、实际应用、调试)进行讲述,希望对你今后开发项目有所帮助。 1 总述 我们所指的优化,主要两方面: 1.代码大小(Size) 2.代码性能(运行时间) 在MDK-ARM中,优…

python成绩分级 2024年6月python二级真题 青少年编程电子学会编程等级考试python二级真题解析

目录 python成绩分级 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序代码 四、程序说明 五、运行结果 六、考点分析 七、 推荐资料 1、蓝桥杯比赛 2、考级资料 3、其它资料 python成绩分级 2024年6月 python编程等级考试二级编程题 一、题目要求 …

苹果Siri将搭载大型语言模型,近屿智能抢占AIGC大模型人才培养高地

据媒体报道,苹果公司正在研发一款全新升级、更加智能且对话能力显著提升的Siri,意在超越OpenAI的ChatGPT及其他语音服务。 报道指出,新一代Siri将搭载更为先进的大型语言模型(LLM),苹果期望其能够进行连续…

Ubuntu,openEuler,MySql安装

文章目录 Ubuntu什么是Ubuntu概述Ubuntu版本简介桌面版服务器版 部署系统新建虚拟机安装系统部署后的设置设置root密码关闭防火墙启用允许root进行ssh安装所需软件制作快照 网络配置Netplan概述配置详解配置文件DHCP静态IP设置 软件安装方法apt安装软件作用常用命令配置apt源 d…

【C++动态规划】1411. 给 N x 3 网格图涂色的方案数|1844

本文涉及知识点 C动态规划 LeetCode1411. 给 N x 3 网格图涂色的方案数 提示 你有一个 n x 3 的网格图 grid ,你需要用 红,黄,绿 三种颜色之一给每一个格子上色,且确保相邻格子颜色不同(也就是有相同水平边或者垂直…

小鹏汽车智慧材料数据库系统项目总成数据同步

1、定时任务处理 2、提供了接口 小鹏方面提供的推送的数据表结构: 这几个表总数为100多万,经过条件筛选过滤后大概2万多条数据 小鹏的人给的示例图: 界面: SQL: -- 查询车型 select bmm.md_material_id, bmm.material_num, bm…

【解决方案】VITE 忽略指定路径的资源

前言 问题起因是因为项目需要引入服务器端的网络图片 而在编写配置时发现,Vite并不支持排除指定前缀的资源 唯一可以排外的只有 Rollup 的 external 选项可以排除外部依赖,但他只能排除外部依赖,不支持指定路径资源或指定前缀的资源&#…

自然语言处理: RAG优化之Embedding模型选型重要依据:mteb/leaderboard榜

本人项目地址大全:Victor94-king/NLP__ManVictor: CSDN of ManVictor git地址:https://github.com/opendatalab/MinerU 写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!! 写在前面: 笔者更新不易,希望走过路…