Puppeteer的高级用法:如何在Node.js中实现复杂的Web Scraping

news2024/11/15 18:13:58

爬虫代理.png

概述

随着互联网的发展,网页数据抓取(Web Scraping)已成为数据分析和市场调研的重要手段之一。Puppeteer作为一款强大的无头浏览器自动化工具,能够在Node.js环境中模拟用户行为,从而高效地抓取网页数据。然而,当面对复杂的网页结构和反爬虫机制时,基础的爬虫技术往往无法满足需求。本文将深入探讨如何在Node.js中利用Puppeteer的高级功能,实现复杂的Web Scraping任务,并通过代理IP、User-Agent、Cookies等技术提高爬虫的成功率。

细节
1. Puppeteer简介与安装

Puppeteer是由Google开发的一款无头浏览器工具,它可以控制Chromium或Chrome浏览器进行各种自动化操作。使用Puppeteer,开发者可以模拟浏览器的行为,例如点击、输入、导航等,甚至可以生成页面的PDF或截图。
安装Puppeteer非常简单,只需在Node.js环境中执行以下命令:

npm install puppeteer
2. 设置代理IP、User-Agent与Cookies

在进行Web Scraping时,使用代理IP可以有效避免被目标网站限制,尤其是在大量请求的情况下。此外,通过设置User-Agent和Cookies,爬虫可以伪装成真实用户的访问行为,从而进一步提高数据抓取的成功率。
以下是一个使用Puppeteer进行复杂Web Scraping的示例代码(BOSS直聘),代码中使用了亿牛云的爬虫代理,并设置了User-Agent与Cookies信息。

const puppeteer = require('puppeteer');

// 配置代理IP的信息 亿牛云爬虫代理 www.16yun.cn
const proxy = {
    host: 'proxy.16yun.cn', // 代理IP端口服务器
    port: 8000, // 代理IP端口
    username: '你的代理用户名', // 代理IP用户名
    password: '你的代理密码' // 代理IP密码
};

// 用户代理信息(User-Agent)
const userAgent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36';

// 预设的Cookies信息
const cookies = [
    {
        name: 'your_cookie_name', // 替换为实际的Cookie名称
        value: 'your_cookie_value', // 替换为实际的Cookie值
        domain: '.zhipin.com' // Boss直聘的域名
    }
];

(async () => {
    // 启动Puppeteer浏览器实例,并设置代理IP
    const browser = await puppeteer.launch({
        headless: true, // 无头模式
        args: [
            `--proxy-server=${proxy.host}:${proxy.port}` // 配置代理IP
        ]
    });

    // 创建一个新的浏览器页面
    const page = await browser.newPage();

    // 设置User-Agent
    await page.setUserAgent(userAgent);

    // 设置代理IP的认证
    await page.authenticate({
        username: proxy.username,
        password: proxy.password
    });

    // 设置Cookies
    await page.setCookie(...cookies);

    // 导航到Boss直聘的应聘简历页面
    await page.goto('https://www.zhipin.com/web/geek/job-recommend', { waitUntil: 'networkidle2' });

    // 等待页面中的简历列表加载完成
    await page.waitForSelector('.geek-item');

    // 抓取简历信息
    const resumes = await page.evaluate(() => {
        const resumeElements = document.querySelectorAll('.geek-item');
        const resumeData = [];

        resumeElements.forEach((element) => {
            const name = element.querySelector('.name').innerText; // 应聘者姓名
            const jobTitle = element.querySelector('.job-name').innerText; // 目标职位
            const experience = element.querySelector('.text').innerText; // 工作经验
            const location = element.querySelector('.address').innerText; // 所在城市
            const salary = element.querySelector('.salary').innerText; // 期望薪资

            resumeData.push({ name, jobTitle, experience, location, salary });
        });

        return resumeData;
    });

    // 打印抓取的简历数据
    console.log(resumes);

    // 在抓取完成后关闭浏览器
    await browser.close();
})();

3. 代码解析
  • 代理IP设置:通过--proxy-server参数设置代理IP,避免IP被封禁的风险。同时,使用page.authenticate()方法对代理IP进行认证。
  • User-Agent设置:通过page.setUserAgent()方法伪装请求的浏览器信息,模拟真实用户的访问行为。
  • Cookies设置:通过page.setCookie()方法预设Cookies信息,以维持会话状态或绕过登录验证。
  • 页面抓取:通过page.goto()方法导航到目标网页,并使用page.content()方法获取网页内容。
4. 代理IP与Puppeteer的配合

使用代理IP进行Web Scraping时,建议选择一个稳定、速度快的代理服务商,例如亿牛云爬虫代理。通过使用稳定的代理服务,可以大大提高爬虫的效率和成功率。此外,合理设置抓取频率和随机等待时间,也能有效避免触发目标网站的反爬虫机制。

5. 提高爬虫效率的其他技巧
  • 使用并发请求:在不影响目标网站的前提下,可以使用Puppeteer的并发功能,批量抓取多个页面的数据,以提高抓取效率。
  • 动态加载处理:对于动态加载的网页,可以使用page.waitForSelector()page.waitForTimeout()方法,确保所有数据加载完成后再进行抓取。
  • 错误处理与重试机制:在Web Scraping过程中,难免会遇到网络异常或抓取失败的情况。通过设置错误处理与重试机制,可以提高爬虫的鲁棒性。
结论

Puppeteer作为一款功能强大的无头浏览器自动化工具,在Web Scraping领域具有广泛的应用前景。通过合理配置代理IP、User-Agent与Cookies,开发者可以有效提升爬虫的成功率,并规避目标网站的反爬虫机制。希望本文的内容能够帮助你在Node.js环境中更好地掌握Puppeteer的高级用法,并在实际项目中成功实现复杂的Web Scraping任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2097473.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java基于微信小程序的实习管理系统

简介 本次开发的实习生管理系统实现了字典管理、公告管理、公司管理、简历管理、老师管理、实习管理、实习日志管理、通知管理、学生管理、职位招聘管理、职位收藏管理、职位留言管理、简历投递管理、管理员管理等功能。系统用到了关系型数据库中王者MySql作为系统的数据库&am…

点云配准之ICP和NDT算法的高斯牛顿法求解

ICP算法 NDT算法 代码:https://github.com/taifyang/pointcloud-registration 参考:高翔《自动驾驶与机器人中的SLAM技术》

打造灵动空间,流动会场的声学优势—轻空间

在现代社会中,各类会议、展览、演出、培训等活动越来越多,对场地的需求也越来越多样化。传统的固定场地往往难以满足不同活动的需求,而“流动会场”凭借其灵活多变的特点,迅速成为各类活动的新宠。特别是其独特的声学优势&#xf…

【数据结构】二叉树的链式结构,二叉树的遍历,求节点个数以及高度

目录 1. 二叉树链式结构的概念 2. 二叉树的遍历 2.1 前序遍历 2.2 中序遍历 2.3 后序遍历 2.4 层序遍历 3. 二叉树的节点个数以及高度 3.1 二叉树节点个数 3.2 二叉树叶子节点个数 3.3 二叉树的高度 3.4 二叉树第k层节点个数 3.5 二叉树查找值为x的节点 4. 二叉树…

数造科技荣登“科创杯”领奖台,开启数据驱动新篇章!

8月27日,第十三届中国创新创业大赛(海南赛区)暨海南省第十届“科创杯”创新创业大赛决赛在海口圆满落幕。数造科技凭其在大数据管理领域的专业技术实力,荣获成长企业组三等奖。 突出重围,崭露头角 海南省“科创杯”创新创业大赛是在中国科技…

安科瑞ADL系列导轨式多功能电能表 带外置互感器 CE认证

产品概述: ‌安科瑞ADL系列导轨式多功能电能表‌是安科瑞企业微电网能效管理事业部推出的一款智能仪表,主要针对光伏并网系统、微逆系统、储能系统、交流耦合系统等新能源发电系统设计。这款电能表具有高精度、体积小、响应速度达100ms,以及…

噪音消除模块调研

一.原理 1.1降噪 noisereduce 库的 reduce_noise 函数使用的是一种基于频谱减法的噪声消除算法。它通过分析音频的频谱,识别出噪声成分,并尝试将这些噪声成分从音频信号中去除,从而提升信号的清晰度。 1.2 动态范围压缩(预加重&am…

Ollama:本地大语言模型解决方案

在人工智能领域,大语言模型(LLM)因其在自然语言处理上的强大能力而备受瞩目。然而,这些模型往往需要大量的计算资源和网络连接,限制了它们在本地环境的应用。Ollama 的推出,为这一问题提供了解决方案。作为…

基于C语言实现文件压缩与解压缩算法

引言 随着互联网的发展,数据传输和存储的需求日益增长,文件压缩技术成为提高数据处理效率的关键技术之一。压缩技术不仅可以减少存储空间的需求,还能加快数据在网络中的传输速度。霍夫曼编码作为一种有效的无损数据压缩算法,广泛…

如何为你的 LLM 应用选择最合适的 Embedding 模型

如果你正在构建 2024 年的生成式人工智能(GenAI)应用,你现在可能已经听过几次 "嵌入(embedding) "这个词了,而且每周都能看到新的嵌入模型上架。 那么,为什么会有这么多人突然关心起嵌…

ElasticSearch 集群索引和分片的CURD

一、ES集群的索引 背景:Elasticsearch会对所有输入的文本进行处理,建立索引放入内存中,从而提高搜索效率。在这一点上ES优于MYSQL的B树的结构,MYSQL需要将索引放入磁盘,每次读取需要先从磁盘读取索引然后寻找对应的数据…

OpenAI Gym custom environment: Discrete observation space with real values

题意:OpenAI Gym 自定义环境:具有实数值的离散观测空间 问题背景: I would like to create custom openai gym environment that has discrete state space, but with float values. To be more precise, it should be a range of values wi…

翻译软件 Fastrans 开发日志 #2

就过了几天,我的 Fastrans 项目( https://github.com/YaoqxCN/Fastrans )又更新了两个版本,现在是 v1.1.1。(求个 star 谢谢!) 上次我初步实现了 Fastrans 的翻译功能以及 UI,可以看…

【C++ Primer Plus习题】8.1

问题: 解答: #include <iostream> using namespace std;void print(const char* str) {cout << str << endl; }void print(const char* str,int size) {static int count 0;count;for (int i 0; i < count; i){cout << str << endl;} }int…

机器学习数学公式推导之线性回归

文章目录 线性回归一、最小二乘法1.1 范数的概念1.2 最小二乘法的推导1.3 几何意义 二、噪声为高斯分布的 MLE2.1 LSE&#xff08;最小二乘估计&#xff09;2.2 MLE&#xff08;极大似然估计&#xff09;2.3 LSE与MLE的联系与区别 三、权重先验也为高斯分布的 MAP四、正则化4.1…

APO的接口级拓扑 VS Dynatrace ServiceFlow

在可观测性系统中&#xff0c;几乎所有的产品都会提供拓扑功能。大部分用户在初看这个拓扑之时都会觉得非常有用&#xff0c;但是一旦真实落地使用&#xff0c;就感觉这个拓扑比较鸡肋。这篇文章重点探讨APO团队是如何考虑让用户能够更好的使用拓扑&#xff0c;真正发挥出拓扑的…

OpenCV绘图函数(14)图像上绘制文字的函数putText()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 在图像上绘制指定的文本字符串。 cv::putText 函数在图像上绘制指定的文本字符串。无法使用指定字体渲染的符号会被问号&#xff08;?&#xff…

从理论层面设计简单的电池管理系统(BMS)

前言 最近阅读了《便携式设备的电池电源管理》和《大规模锂离子电池管理系统》这两本书&#xff0c;都是比较容易入门的BMS书籍&#xff0c;书中作者做了很多深层次的思考&#xff0c;所以我摘抄了一些部分&#xff1b;同时结合我个人的项目经验及一些理解&#xff0c;整理成这…

中核武汉首位“数字员工”报到,实在智能提供RPA技术解决方案

近期新员工入职季&#xff0c;中核武汉核电运行技术股份有限公司&#xff08;以下简称“中核武汉”&#xff09;迎来了一位“看不见的新同事”——公司首位数字员工“武小数”。“武小数”基于先进的机器人流程自动化技术&#xff08;RPA&#xff09;诞生&#xff0c;结合OCR图…

c++线程库操作

一、函数介绍 1、构造函数 无参构造函数&#xff1a; thread thd thread(); 有参构造函数&#xff1a; template<class Fn, class... Arg> Fn&#xff1a;可调用对象&#xff08;函数指针&#xff0c;仿函数&#xff0c;lambda表达式&#xff0c;包装器&#xff09…