Puppeteer实战指南:自动化抓取网页中的图片资源

news2024/10/6 8:26:32

Python_00123.png

1. Puppeteer 简介

Puppeteer是Google Chrome团队开发的一个Node库,它提供了一个高级API来控制Chrome或Chromium浏览器。Puppeteer可以进行网页自动化操作,包括导航、屏幕截图、生成PDF、捕获网络活动等。

2. 环境搭建

在开始之前,确保你的开发环境中安装了Node.js和npm。接着,通过npm安装Puppeteer:

npm install puppeteer

3. 抓取网页图片的策略

1. 环境与工具介绍

首先,我们需要Node.js环境以及npm(Node包管理器)。Puppeteer可以通过npm安装:

npm install puppeteer

2. 代理服务器的准备

代理服务器可以是HTTP代理或SOCKS代理,你需要从可信赖的代理服务提供商获取代理IP和端口。确保代理IP可用,并且支持HTTP/HTTPS协议。

3. Puppeteer配置代理

Puppeteer允许通过命令行参数或设置浏览器的代理来配置代理服务器。我们将通过设置浏览器的代理来实现。

4. 实战案例:使用代理IP抓取图片

步骤1:设置代理并启动浏览器
const puppeteer = require('puppeteer');

(async () => {
  // 代理服务器信息
  const proxyHost = "www.16yun.cn";
  const proxyPort = "5445";
  const proxyUser = "16QMSOML";
  const proxyPass = "280651";

  // 构建带有用户名和密码的代理服务器URL
  const proxyUrl = `http://${proxyUser}:${proxyPass}@${proxyHost}:${proxyPort}`;
  
  // 设置Puppeteer使用代理
  const browser = await puppeteer.launch({
    args: [
      '--proxy-server=' + proxyUrl, // 使用完整的代理URL
      // 其他需要的启动参数...
    ]
  });

  const page = await browser.newPage();

  // 接下来添加页面导航和操作的代码...

  // 任务完成后关闭浏览器
  await browser.close();
})();
步骤2:导航到目标网页
await page.goto('https://example.com'); // 替换为实际的URL
步骤3:等待图片加载完成
await page.waitForSelector('img');
步骤4:抓取图片资源链接
const imageSrcs = await page.evaluate(() => {
    const images = document.querySelectorAll('img');
    const srcs = Array.from(images).map(img => img.src);
    return srcs;
  });
步骤5:下载图片资源
const downloadImages = async (src) => {
    const filename = src.split('/').pop();
    const path = `./images/${filename}`;
    await page.download(src, {path: path});
    console.log(`图片下载成功:${filename}`);
  };

  for (let src of imageSrcs) {
    await downloadImages(src);
  }
步骤6:关闭浏览器
await browser.close();
})();

5. 处理动态加载的图片

对于通过JavaScript动态加载的图片,可能需要更复杂的等待策略,如等待特定的网络请求完成或使用page.waitForFunction等待页面达到某个状态。

6. 遵守法律法规

在进行网页内容抓取时,必须遵守目标网站的robots.txt协议,尊重版权和隐私权。确保你的抓取行为是合法的,并且不会对网站的正常运行造成影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1866555.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java中Stream的特性

Stream新特性 被称之为Stream流,用于操作集合或者数组中的数据 优势:Stream流大量的结合了Lambda的语法风格,代码更简洁,可读性更好 使用步骤 先获取数据源,获取Stream流 Collect…

Java常用API基础语法(附带思维导图)

常见的API基本语法 String常用的操作方法 toCharArray equals() equalsIgonreCase substring(0,5) 从0-5的下标开始截取 substring(5) 从下标为5开始往后截取 replace …

来自工业界的知识库 RAG 服务(五),模块化知识库 GoMate 实现方案详解

背景介绍 很早以前就看过一篇介绍 RAG 的综述性文章 Retrieval-Augmented Generation for Large Language Models: A Survey, 其中介绍了 RAG 的模块化架构: 但是一直没有看到对应的实现方案,以前也没有理解此框架的优势之处。随着在相关领域的持续实…

网约车停运损失费:2、协商过程

目录 🍅点击这里查看所有博文 随着自己工作的进行,接触到的技术栈也越来越多。给我一个很直观的感受就是,某一项技术/经验在刚开始接触的时候都记得很清楚。往往过了几个月都会忘记的差不多了,只有经常会用到的东西才有可能真正记…

如何提升投资伦敦金的分析能力:回测

对伦敦金行情的分析能力,在我们做伦敦金交易的整个体系中是有很重要的作用的。但要提升对伦敦金行情的分析和把握是不太容易的,那有没有方法可以提升?那答案是有的,下面我们就来讨论一下,这个方法就是回测。 回测就是把…

深度学习方法在谣言检测中的研究现状

摘要 管理社交媒体上的谣言,减少谣言对社会的危害。许多研究使用深度学习方法来检测开放网络中的谣言。为了从多个角度全面梳理谣言检测的研究现状,本文从特征选择、模型结构和研究方法三个角度分析了这一高度集中的工作。从特征选择的角度,将…

4.整合第三方技术【整合JUnit】

目录 1.创建项目: 2.导入测试对应的starter 3.添加测试对象 3.1 添加Prodcut接口文件 3.2 添加ProdcutImpl文件 3.3 测试类添加测试文件,并开始测试 4.测试类文件解析 4.1.测试类使用SpringBootTest修饰 4.2使用自动装配的形式添加要测试的对象 1.…

Linux开发讲课16--- 【内存管理】页表映射基础知识2

ARM32页表和Linux页表那些奇葩的地方 ARM32硬件页表中PGD页目录项PGD是从20位开始的,但是为何头文件定义是从21位开始? 历史原因:Linux最初是基于x86的体系结构设计的,因此Linux内核很多的头文件的定义都是基于x86的&#xff0c…

go中的方法 func-----数据类型

本文是java学习者学go种产生的容易记混点的笔记,所以有其他编译语言的基础更好 go的方法有点像js 基础 func main() {fmt.Println("Starting")var p *string new(string)*p "hello world"demo : "demo"fmt.Println(*&demo) //这样既然也…

服务器部署与DDOS攻防

知识点:DHPC与Web服务部署,DHCPig攻防,SYN Flooding测试 DHCP: 能够自动为客户机获取IP等参数 DHCP是动态主机配置协议(Dynamic Host Configuration Protocol)的缩写,它是一种网络管理协议&am…

华三交换机的软件版本升级操作

升级操作很常见,掌握方法是关键 实验环境:1台华三S6520-EI交换机,版本从2432P03升级成2432P05。 整体思路: 1.先查验软件版本 2.官网下载对于设备型号的软件版本 3.配置交换机地址使得与电脑进行通信,使用TFTP/FTP工…

UFS协议—新手快速入门(五)【11-13】

目录 十一、逻辑单元(Logical Unit, LU) 1、概念 2、UFS逻辑单元的独立特性 3、Well known LU (1)Boot Logical Units(BOOT LUs) (2)RPMB(Replay Protected Memory…

27. 高级特性(下)

目录 一、为了类型安全和抽象而使用 newtype 模式二、使用类型别名创建类型同义词2.1 使用type关键赋予现有类型一个别名2.2 减少重复2.3 与Result<T, E>结合使用2.4 从不返回的 never type 三、高级函数和闭包3.1 函数指针3.2 返回闭包 四、宏4.1 宏和函数的区别4.2 mac…

ElasticSearch8.X查询DSL语法案例进阶实战

什么是Query DSL Query DSL主要由两部分组成&#xff1a;查询和过滤。 查询部分&#xff1a;用于指定搜索条件和匹配规则。例如&#xff0c;可以使用match查询进行全文检索&#xff0c;term查询进行精确匹配&#xff0c;range查询进行范围匹配等。过滤部分&#xff1a;用于对查…

【八股系列】探索响应式布局的奥秘:关键技术与实战代码示例

&#x1f389; 博客主页&#xff1a;【剑九 六千里-CSDN博客】 &#x1f3a8; 上一篇文章&#xff1a;【为什么组件中的 data 必须是一个函数&#xff0c;然后 return 一个对象&#xff0c;而 new Vue 实例里&#xff0c;data 可以直接是一个对象&#xff1f;】 &#x1f3a0; …

【python】eval函数

1.eval函数的语法及用法 &#xff08;1&#xff09;语法&#xff1a;eval(expression) 参数说明&#xff1a; expression&#xff1a;必须为字符串表达式&#xff0c;可为算法&#xff0c;也可为input函数等。 说明&#xff1a;表达式必需是字符串&#xff0c;否则会报错&a…

(2024,稀疏高秩适配器(SHiRA),适配器快速切换和多适配器融合,稀疏掩码,稀疏高秩且正交的适配器,移动场景部署)

Sparse High Rank Adapters 公和众与号&#xff1a;EDPJ&#xff08;进 Q 交流群&#xff1a;922230617 或加 VX&#xff1a;CV_EDPJ 进 V 交流群&#xff09; 目录 0. 摘要 1. 介绍 2. 背景&#xff1a;LoRA 的边缘部署挑战 3. 提议的方法 3.1 稀疏高秩适配器&#xff0…

共享资源,共谋协同发展新机遇

树莓集团在资源共享与协同发展方面取得了显著成效。通过优化资源配置、构建产业服务平台、校企合作育人、推动产业转型升级以及主导产业园运营与建设等举措&#xff0c;树莓集团不仅促进了数字产业的快速发展&#xff0c;也为各数字产业园区和合作企业提供了更多的发展机会和合…

Compiled blocks

目录 一&#xff0c;编译块 Compiled Block 二&#xff0c;编译循环 三&#xff0c;调用编译块 Invoke 四&#xff0c;Tips and notes 一&#xff0c;编译块 Compiled Block 在几何体网络内&#xff0c;可将网络的一部分放入编译块&#xff08;compiled block&#xff09;内…

天润融通:AI赋能客户体验,推动企业收入和业绩增长

“客户体验已经成为全球企业差异化的关键。人工智能与数据分析等创新技术正在加速推动企业在客户体验计划中取得成功&#xff0c;以保持领先地位”。Customer Insights & Analysis 研究经理Craig Simpson说道。 客户体验 (CX&#xff0c;Customer Experience) 是客户在与企…