Puppeteer 爬虫学习

news2024/10/1 9:35:50

puppeteer简介:

Puppeteer 是一个 Node 库,它提供了一个高级 API 来通过 DevTools 协议
控制 Chromium 或 Chrome。Puppeteer 默认以 headless 模式运行,
但是可以通过修改配置文件运行“有头”模式。

能作什么?:
生成页面 PDF。
抓取 SPA(单页应用)并生成预渲染内容(即“SSR”(服务器端渲染))。
自动提交表单,进行 UI 测试,键盘输入等。
创建一个时时更新的自动化测试环境。 使用最新的 JavaScript 和浏览器功能直接在最新版本的Chrome中执行测试。
捕获网站的 timeline trace,用来帮助分析性能问题。
测试浏览器扩展。

这是中文puppeteer文档

实战:
一 安装:
安装nodejs, 再输入npm install puppeteer 安装这个库。注意puppeteer库有两个版本,一个是包含了chormedriver的puppeteer,另一个是不包含chormedriver的轻量级的puppeteer-core库。
再通过npm init 初始化一下。

二 代码
1、需求:我是打算通过关键字输入去爬取百度图片。
2、关键点:①通过合适的selector去获取到相应的元素 ②这个图片是分组的,需要分多个组,每个组的图片数目还不一样 ③需要定时的滑动页面去刷新数据
3、大致代码逻辑
①通过config 中的Dogconfig.js去获取存储的路径
②通过screenshot.js去实现爬取的主要图片的链接
③通过utils中的srcToimg去实现通过链接将图片存储在本地的目录中

Dogconfig.js

const path =require('path');

module.exports={
    Dogscreenshot: path.resolve(__dirname,'../Dogscreenshot')
}

screenshot.js

const puppeteer = require('puppeteer');
const {screenshot} =require('./config/default');
const { Dogscreenshot } = require('./config/Dogconfig');
const srcToimg =require('./utils/srcToimg')


function sleep (ms) {
    return new Promise(resolve => setTimeout(resolve, ms))
  }  //sleep函数


async function autoScroll(page) {    //滚动界面
    return page.evaluate(() => {
      return new Promise((resolve, reject) => {
        let totalHeight = 0;
        let distance = 10;
        let timer = setInterval(() => {
          let scrollHeight = document.body.scrollHeight;
          window.scrollBy(0, distance);
          totalHeight += distance;
          if (totalHeight >= scrollHeight) {
            clearInterval(timer);
            resolve();
          }
        }, 5000);
      })
    });
  }

(async()=>{
    const brower =await puppeteer.launch({headless:false, defaultViewport: null,
        args: ['--start-fullscreen'] });
    const page =await brower.newPage();

     
    await page.goto('https://image.baidu.com');

    await page.setDefaultNavigationTimeout(0);  //无限制时间,防止执行太快,什么元素都没有加载出来
    await page.setDefaultNavigationTimeout(0);  

    // await page.setViewport({
    //     width:1060,
    //     height:2080,
    // });
    
    console.log('reset setViewport');

    await page.focus('#kw');       //This method fetches an element with selector and focuses it.
    await page.keyboard.sendCharacter("狗");   //Dispatches a keypress and input event. This does not send a keydown or keyup event.
    await page.click('.s_btn_wr');     //uses Page.mouse to click in the center of the element
    console.log('go to search list');

    page.on('load',async()=>{
        console.log('page loading done ,start  fetch......');
        for(let group=1;group<5;group++){
            for(let i =22;i<45;i++){
                try {                   
                    await page.waitForSelector('#imgid >div:nth-child('+group+') > ul > li:nth-child('+i+') > div.imgbox > div.imgbox-border > a > img');               
                } catch (e) {
                    console.log('element probably not exists , the system had aleady choose next element body');
                    i=i+1;
                };
            
                try{
                    console.log('#imgid >div:nth-child('+group+') > ul > li:nth-child('+i+') > div.imgbox > div.imgbox-border > a > img')
                    let imageUrl = await page.$$eval('#imgid >div:nth-child('+group+')> ul > li:nth-child('+i+') > div.imgbox > div.imgbox-border > a > img',(links)=>{
                        return links.map(x=>{
                                if(x.src){
                                    return x.src;
                                }else{
                                    return ' ';
                                }               
                            }
                        );
                    });

                    await page.waitForSelector('#imgid > div:nth-child('+group+') > ul > li:nth-child('+i+')  > a');
                    let imageTitle =await page.$$eval('#imgid > div:nth-child('+group+') > ul > li:nth-child('+i+')  > a',(links=>{               
                            return links.map(x=>{
                                if(x.innerHTML){
                                    let xstr=x.innerHTML.replace(/[`:_.~!@#$%^&*() \+ =<>?"{}|, \/ ;' \\ [ \] ·~!@#¥%……&*()—— \+ ={}|《》?:“”【】、;‘’,。、]/g,
                                    '');  //去除字符串的标点符号
                                    return xstr;
                                }
                            });         
                    }));
                    //console.log('这是'+i+'的:   '+imageTitle[0]);
    
                    let data=[];
                    data.push(Dogscreenshot);
                    data.push(imageTitle[0])
                    if(imageUrl[0]){
                        srcToimg(imageUrl[0],data);
                    }           
                    //await autoScroll(page);
                    //console.log(`get ${images.length} images,start download....`);
                }catch(e){
                    console.log(e)
                    await page.evaluate('window.scrollTo(0,100)') ;  //滑动一下页面
                    break;
                };             
            }
        }
           
    });   //Listen to page events.


    // await page.screenshot({
    //     path:`${screenshot}/${Date.now()}.png`
    // });    //截图并保存在相应路径下

    //await sleep(50000);
    //await brower.close();
})();

srcToimg.js

const http=require('http');
const https=require('https');
const path =require('path');
const fs =require('fs');
const {promisify} =require('util');
const writeFile =promisify(fs.writeFile);


module.exports=async(src,data)=>{
    if(/^(http|https)/.test(src)){
        await urlToimg(src,data);
    }else{
        await base64Toimg(src,data);
    }
};

//url=>image
const urlToimg=promisify((url,data,callback)=>{     //promise 用同步的方式写异步的代码,避免陷入回调地狱
    const mod=/^https/.test(url)?https:http;
    const ext =path.extname(url);
    const file=path.join(data[0],`${data[1]}${'.jpeg'}`)

    mod.get(url,res=>{
        res.pipe(fs.createWriteStream(file)).on('finish',()=>{    //pipe是node中的流概念
            callback();
            console.log(file);
        })
    })
});

//base64=>img  如果图片返回的地址是以base64的形式返回的话。

const base64Toimg =async  function(base64Str,data){
    //date:image/jepg ;base64,/asdasa...

    const matches =base64Str.match(/^data:(.+?);base64,(.+)$/);  //正则表达式的匹配
    try{
        const ext= matches[1].split('/')[1].replace('jepg','jpg');
        const file =path.jojn(data[0],`${data[1]}.${ext}`);
        await writeFile(file,matches[2],'base64');
        console.log(file);
    }catch(x){
        console.log('非法base64字符串!');
    }

}

通过以上代码能实现要求。

值得注意的是:

nodejs不能直接调用window,会显示window not define的错误, 因为Web中使用JavaScript,BOM是核心,而BOM的核心对象是window。
所以我们要用到page.evalutate方法(这是官方文档的解释):
这是官方文档的解释
查阅其他博客知:
page.evaluate 意为在浏览器环境执行脚本,可传入第二个参数作为句柄,而 page.$eval 则针对选中的一个 DOM 元素执行操作。

基础扩展补充:

html是一门超文本标记语言;dom

document对象表明整个html文档,可用来访问页面中的全部元素;函数

body表明document的主体子对象,除浏览器头部,页面中可以看到的内容都属于body中的内容;post

window表明浏览器中打开的窗口,表明运行环境。this

BOM:浏览器对象模型(Browser Object Model )
在这里插入图片描述window:
1、它是js访问浏览器窗口的一个接口
2、它是一个全局对象,定义在全局作用域中的变量,函数都会变成window对象的属性和方法。

这是js的BOM操作参考博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/352877.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux驱动学习笔记

驱动学习笔记 1、字符设备驱动 Linux 驱动有两种运行方式 第一种就是将驱动编译进 Linux 内核中&#xff0c;这样当 Linux 内核启 动的时候就会自动运行驱动程序。 第二种就是将驱动编译成模块(Linux 下模块扩展名为.ko)&#xff0c;在 Linux 内核启动以后使用“insmod”命…

稳态钙钛矿IV测试系统太阳光模拟器

一、概述用途:设备在一定的面积下提供一个接近自然光的光源&#xff0c;光源等级为AAA 级&#xff0c;主要用于大面积光伏组件的老化测试&#xff0c;测试可满足 IEC 61215、IEC 61730 标准。二、设备主体设备箱体尺寸2、硬件信息设备箱体采用能够完全阻隔太阳光的板材拼装而成…

金三银四春招特供|高质量面试攻略

&#x1f530; 全文字数 : 1万5千 &#x1f552; 阅读时长 : 20min &#x1f4cb; 关键词 : 求职规划、面试准备、面试技巧、谈薪职级 &#x1f449; 公众号 : 大摩羯先生 本篇来聊聊一个老生常谈的话题————“面试”。利用近三周工作午休时间整理了这篇洋洋洒洒却饱含真诚…

搭建Hexo博客-第4章-绑定自定义域名

搭建Hexo博客-第4章-绑定自定义域名 搭建Hexo博客-第4章-绑定自定义域名 搭建Hexo博客-第4章-绑定自定义域名 在这一篇文章中&#xff0c;我将会介绍如何给博客绑定你自己的域名。其实绑定域名本应该很简单的&#xff0c;但我当初在这上走了不少弯路&#xff0c;所以我觉得有…

腾讯云架构师亲码“redis深度笔记”,从入门到精通,面面俱到

前言 作为这个时代码代码的秃头人员&#xff0c;对Redis肯定是不陌生的&#xff0c;如果连Redis都没用过&#xff0c;还真不好意思出去面试&#xff0c;指不定被面试官吊打多少次。 毕竟现在互联网公司和一些创业公司都要用到Redis&#xff0c;像亚马逊、谷歌、阿里、腾讯都要…

ChatGPT会抢项目经理饭碗?飞项可不这么认为

ChatGPT的火爆&#xff0c;让AI替代人类的言论&#xff0c;又一次甚嚣尘上。有人说ChatGPT注定会改变这个世界&#xff0c;这改变主要聚焦三个方面&#xff1a;有利的是帮助天才和独狼加快创新&#xff0c;不利的是削减工作岗位需求、制造更多的垃圾信息。 比如&#xff0c;Cha…

OnGUI label 控件||Unity 3D GUI教程||OnGUI Background Color 控件

Unity 3D Label 控件用于在设备的屏幕上创建文本标签和纹理标签&#xff0c;和Box 控件类似&#xff0c;可以显示文本内容或图片。Label 控件一般用于显示提示性的信息&#xff0c;如当前窗口的名称、游戏中游戏对象的名字、游戏对玩家的任务提示和功能介绍等。具体使用方法如下…

麦肯锡给CEO的元宇宙指南

ChatGPT突然大张旗鼓地登上全球新闻的头条时&#xff0c;元宇宙似乎如明日黄花般过气了&#xff0c;未来渺茫起来。而麦肯锡的4位合伙人在今年1月给全球CEO们的“元宇宙指南”中强调&#xff0c;“太大元宇宙 &#xff0c;不容忽视”。《元宇宙日爆》编译了这份指南供企业管理者…

git代码提交后jenkins构建和自动部署

利用jenkins和gitlab的webhook结合&#xff0c;实现提交代码之后&#xff0c;自动触发jenkins的构建。顺带介绍一下通过触发器构建&#xff0c;比如直接通过url去触发的方式。 一、jenkins结合webhook 1、jenkins配置 a、首先jenkins得需要安装两个gitlab的插件&#xff1a;(…

进一步了解C++函数的各种参数以及重载,了解C++部分的内存模型,C++独特的引用方式,巧妙替换指针,初步了解类与对象。满满的知识,希望大家能多多支持

C的编程精华&#xff0c;走过路过千万不要错过啊&#xff01;废话少说&#xff0c;我们直接进入正题&#xff01;&#xff01;&#xff01;&#xff01; 函数高级 C的函数提高 函数默认参数 在C中&#xff0c;函数的形参列表中的形参是可以有默认值的。 语法&#xff1a;返…

spring cloud alibaba Sentinel(四)

服务雪崩 在分布式系统中,由于网络原因或自身的原因,服务一般无法保证 100% 可用。 如果一个服务出现了问题&#xff0c;调用这个服务就会出现线程阻塞的情况&#xff0c; 此时若有大量的请求涌入&#xff0c;就会出现多条 线程阻塞等待&#xff0c;进而导致服务瘫痪。 由于服…

互联网新时代要到来了(三)什么是ChatGPT?

什么是ChatGPT? tips&#xff1a;资料来自百度百科、openAi、CSDN博主「琦在江湖飘」、Info写作社区、CSDN博主「夕小瑶」等网页资料。 1.什么是ChatGPT&#xff1f; ChatGPT&#xff08;全名&#xff1a;Chat Generative Pre-trained Transformer&#xff09;&#xff0c;…

车载基础软件——AUTOSAR AP典型应用案例

我是穿拖鞋的汉子&#xff0c;魔都中一位坚持长期主义的工程师&#xff01; 最近不知道为何特别喜欢苏轼的一首词&#xff1a; 缺月挂疏桐&#xff0c;漏断人初静。谁见幽人独往来&#xff0c;缥缈孤鸿影。 惊起却回头&#xff0c;有恨无人省。拣尽寒枝不肯栖&#xff0c;寂寞…

Python机器学习入门笔记(1)—— Scikit-learn与特征工程

目录 机器学习算法分类 数据集工具 Scikit-learn Scikit-learn的安装 scikit-learn数据集API介绍 bunch对象 datasets模块 数据集的划分 train_test_split 代码示例 特征工程 特征提取 sklearn.feature_extraction API 字典特征提取示例 文本特征提取案例 jieba分…

无线蓝牙耳机哪个品牌音质好?性价比高音质好的蓝牙耳机排行榜

其实蓝牙耳机购买者最担忧的就是音质问题&#xff0c;怕拿到手的蓝牙耳机低频过重又闷又糊&#xff0c;听歌闷耳的问题&#xff0c;但从2021年蓝牙技术开始突飞猛进后&#xff0c;蓝牙耳机的音质、连接甚至是功能都发生了很大的变化&#xff0c;下面我分享几款性价比高音质的蓝…

运动控制器八通道PSO的视觉飞拍与精准输出

本文主要介绍正运动技术EtherCAT控制器在多通道视觉飞拍与多点精准输出上的应用&#xff0c;采用高性能ZMC408CE控制器&#xff0c;控制器内部高速FPGA实现硬件位置比较输出、精准输出功能&#xff0c;实现运动控制多通道视觉飞拍与精准输出功能。 一、硬件介绍 ZMC408CE是正…

基于微信小程序的新冠肺炎服务预约小程序

文末联系获取源码 开发语言&#xff1a;Java 框架&#xff1a;ssm JDK版本&#xff1a;JDK1.8 服务器&#xff1a;tomcat7 数据库&#xff1a;mysql 5.7/8.0 数据库工具&#xff1a;Navicat11 开发软件&#xff1a;eclipse/myeclipse/idea Maven包&#xff1a;Maven3.3.9 浏览器…

OpenAI 官方api 阅读笔记

网站 API Key concepts Prompts and completions You input some text as a prompt, and the model will generate a text completion that attempts to match whatever context or pattern you gave it. Token  模型通过将文本分解成token来理解和处理, 处理token数量取…

STL讲解——模拟实现string

STL讲解——模拟实现string 经典的string类问题 大厂在面试中&#xff0c;面试官总喜欢让学生自己来模拟实现string类&#xff0c;最主要是实现string类的增、删、查、改、构造、拷贝构造、赋值运算符重载以及析构函数。大家看下自己可不可以写一个string类&#xff1f; cla…

第七章 - 聚合函数(count,avg,sum,max,min)和一些数学函数

第七章 - 聚合函数使用别名 ascount() 计数avg() 平均值sum() 求和max() 最大值min() 最小值一些数学计算函数Abs()Cos()Exp()Mod()Pi()radians()Sin()Sqrt()Power()Ceil()Floor()使用别名 as 在SQL中可以使用 as 来为一个字段或者一个值设置新的别名下面聚合函数的使用中就会…