Puppeteer动态代理实战:提升数据抓取效率

news2024/12/22 22:02:32

亿牛云爬虫代理.png

引言

Puppeteer是由Google Chrome团队开发的一个Node.js库,用于控制Chrome或Chromium浏览器。它提供了高级API,可以进行网页自动化操作,包括导航、屏幕截图、生成PDF、捕获网络活动等。在本文中,我们将重点介绍如何使用Puppeteer实现动态代理,以提高数据抓取效率。

正文

设置代理并启动浏览器

首先,我们需要准备一个可信赖的代理服务器。代理服务器可以是HTTP代理或SOCKS代理,确保代理IP可用,并且支持HTTP/HTTPS协议。我们将使用亿牛云爬虫代理作为示例。

const puppeteer = require('puppeteer');

(async () => {
  // 代理服务器信息 亿牛云爬虫代理加强版
  const proxyHost = "www.16yun.cn";
  const proxyPort = "5445";
  const proxyUser = "16QMSOML";
  const proxyPass = "280651";

  // 构建带有用户名和密码的代理服务器URL
  const proxyUrl = `http://${proxyUser}:${proxyPass}@${proxyHost}:${proxyPort}`;

  // 设置Puppeteer使用代理
  const browser = await puppeteer.launch({
    args: [
      '--proxy-server=' + proxyUrl, // 使用完整的代理URL
      // 其他需要的启动参数...
    ]
  });

  const page = await browser.newPage();

  // 接下来添加页面导航和操作的代码...
  // 任务完成后关闭浏览器
  await browser.close();
})();
导航到目标网页
await page.goto('https://example.com'); // 替换为实际的URL
等待图片加载完成
await page.waitForSelector('img');
抓取图片资源链接
const imageSrcs = await page.evaluate(() => {
  const images = document.querySelectorAll('img');
  const srcs = Array.from(images).map(img => img.src);
  return srcs;
});
下载图片资源
const downloadImages = async (src) => {
  const filename = src.split('/').pop();
  const path = `./images/${filename}`;
  await page.download(src, { path: path });
  console.log(`图片下载成功:${filename}`);
};

for (let src of imageSrcs) {
  await downloadImages(src);
}

结论

通过在Puppeteer中配置动态代理,可以有效地绕过网站的反爬虫机制,提升抓取信息的效率和稳定性。本文详细介绍了如何使用爬虫代理服务配置代理IP,并通过实例代码展示了具体的实现方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1933764.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

移动打车项目

1.技术栈: AndroidJNIHTTPSlibeventmysql/redis高德地图 2.概要流程设计 1.注册 2.登录 3.司机地理位置上传更新 4.乘客地理位置上传更新 5.乘客下单流程 6.司机完成订单流程

[AWS]EKS启动HPA,HPA指标<unknown>,报错:error: Metrics API not available

背景:在AWS上创建的EKS集群,想要对于deployment部署HPA,来autoscling副本数。 1.HPA一般基于CPU或者内存对副本数进行控制,所以必须需要Metrics Server。 (Metrics Server 是 Kubernetes 集群的一个关键组件&#xff0…

7、自定义管理站点

目录 1、自定义后台表单2、添加关联的对象3、自定义后台更改列表4、自定义后台界面和风格(1)自定义你的工程的模板(2)自定义你应用的模板 1、自定义后台表单 通过admin.site.register(Question)注册Question模型,Djan…

AI自动生成PPT哪个软件好?高效制作PPT优选这4个

7.15初伏的到来,也宣告三伏天的酷热正式拉开序幕~在这个传统的节气里,人们以各种方式避暑纳凉,享受夏日的悠闲时光。 而除了传统的避暑活动,我们还可以用一种新颖的方式记录和分享这份夏日的清凉——那就是通过PPT的方式将这一传…

抖音视频素材去哪里找啊?视频素材网站库分享

在这个视觉盛宴的抖音平台上,高质量和有趣的视频素材常常是吸引观众的重要钥匙。如果你也正在寻找那些能让你的视频作品更加出色的资源,那么恭喜你,今天我将为你介绍10个超实用的视频素材网站,让你的抖音视频创作充满创意和效率。…

只用 CSS 能玩出什么花样?

在前端开发领域,CSS 不仅仅是一种样式语言,它更像是一位多才多艺的艺术家,能够创造出令人惊叹的视觉效果。本文将带你探索 CSS 的无限可能,从基本形状到动态动画,从几何艺术到仿生设计,只用 CSS 就能玩出令…

linux开机后不用登陆,无法正常进入系统,出现:/#的提示符

linux开机后不用登陆,无法正常进入系统,出现:/#的提示符 解决方案: 1、输入命令 ls /dev/mapper 此时会出现3个文件。其中rhel-root文件 是我们下面所要用的文件。 ls的目的就是为了让大家能知道自己带"-root" 文件的前缀是什…

Linux·权限与工具(上)

1. shell命令以及运行原理 Linux严格意义上来说是一个操作系统,我们称之为 "核心(kernel)" ,但我们一般的用户不呢个直接使用到核心,因为不会用。所以开发者在核心外面封装了一层 "外壳(shell)" 程序,来与核心…

某安居客滑块验证码

⚠️前言⚠️ 本文仅用于学术交流。 学习探讨逆向知识,欢迎私信共享学习心得。 如有侵权,联系博主删除。 请勿商用,否则后果自负。 网址 aHR0cHM6Ly93d3cuYW5qdWtlLmNvbS9jYXB0Y2hhLXZlcmlmeS8/Y2FsbGJhY2s9c2hpZWxkJmZyb209YW50aXNwYW0 …

数据包的跨层封装

首先,我们先简单地分析一下数据包的组成结构: 如图 数据包简略地分为以下几层: 二层:封装MAC地址(数据链路层) 三层:封装IP地址 — 表明源IP和目标IP,主要用于路由器之间的信息转发…

SAPUI5基础知识15 - 理解控件的本质

1. 背景 经过一系列的练习,通过不同的SAPUI5控件,我们完成了对应用程序界面的初步设计,在本篇博客中,让我们一起总结下SAPUI5控件的相关知识点,更深入地理解SAPUI5控件的本质。 通常而言,一个典型UI5应用…

FastAPI 学习之路(五十七)校验是否登陆

在之前的分享的中,产生了token,用于做登录的认证,那么产生了token后,登陆携带了token,我们如何校验呢? 先来梳理下逻辑: 1. 调用登录接口,产生token 2.调用依赖登录的接口&#xff…

1.CATIA:CAA调用Excel接口

生成调用Excel的头文件 参考如下进行excel头文件的生成: 如何使用vs2022通过excel.exe生成VC、C++能够使用的头文件 添加如下的接口: #include "CApplication.h" #include "CWorkbook.h" #include "CWorkbooks.h" #include "CWorkshee…

Linux——文件目录指令、时间日期指令、搜索查找指令、压缩解压指令

目录 文件目录指令 pwd & ls 查看当前工作目录&显示当前目录所有文件及目录 cd 切换目录 mkdir & rmdir 创建&删除目录 touch 创建空文件 cp 拷贝文件/文件夹指令 rm 删除文件或文件夹 mv 移动或重命名文件 cat 查看文件 more指令 less 查看文件内容…

驱动LSM6DS3TR-C实现高效运动检测与数据采集(8)----中断获取FIFO数据并应用MotionFX库解析空间坐标

驱动LSM6DS3TR-C实现高效运动检测与数据采集.8--中断获取FIFO数据并应用MotionFX库解析空间坐标 概述视频教学样品申请源码下载开启LED开启INT中断参考驱动程序中断读取传感器数据主程序演示 概述 本文将探讨如何使用中断机制获取FIFO数据并应用MotionFX库解析空间坐标。Motio…

CIS光生电荷

文章目录 CIS基础光电效应光的吸收最大光敏度的计算 CIS基础 CIS光信号转电信号:CIS图像传感器主要用来把直接发射或物体反射的光子组成的图像转换成电信号。在积分时间内,图像传感器吸收光子并记录电信号,确定积分时间内每一个像素接收到的…

昇思25天学习打卡营第15天|munger85

K近邻算法实现红酒聚类 现在数据集这个就是红酒的分类的数据集红酒每一个都会有很多的属性有三个属性下载数据集,这个是红酒的分类的数据集,红酒每一个都会有很多的属性,有三个属性。这十三个属性就可以用来分辨它是哪一个13个属性就可以用来…

【机器学习】Grid Search: 一种系统性的超参数优化方法

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 Grid Search: 一种系统性的超参数优化方法引言什么是Grid Search?Gr…

【机器学习】机器学习与图像分类的融合应用与性能优化新探索

文章目录 引言第一章:机器学习在图像分类中的应用1.1 数据预处理1.1.1 数据清洗1.1.2 数据归一化1.1.3 数据增强 1.2 模型选择1.2.1 卷积神经网络1.2.2 迁移学习1.2.3 混合模型 1.3 模型训练1.3.1 梯度下降1.3.2 随机梯度下降1.3.3 Adam优化器 1.4 模型评估与性能优…

超高性价比降压型DC-DC / YB2419 电源解决方案行业多领域适用

一上车,手机电量告急,这可是出行的大忌! 别急,要知道,在这个快节奏的时代,时间就是金钱,谁也不想在充电这件事上浪费时间。这个时候需要车载充电器来拯救你的电池焦虑症! 还能智能匹配不同手机品牌&#xf…