如何使用Puppeteer进行新闻网站数据抓取和聚合

news2025/1/7 18:38:19

亿牛云代理

导语

Puppeteer是一个基于Node.js的库,它提供了一个高级的API来控制Chrome或Chromium浏览器。通过Puppeteer,我们可以实现各种自动化任务,如网页截图、PDF生成、表单填写、网络监控等。本文将介绍如何使用Puppeteer进行新闻网站数据抓取和聚合,以网易新闻和杭州亚运会为例。

概述

数据抓取是指从网页中提取所需的数据,如标题、正文、图片、链接等。数据聚合是指将多个来源的数据整合在一起,形成一个统一的视图或报告。数据抓取和聚合是爬虫技术的常见应用场景,它可以帮助我们获取最新的信息,分析舆情,发现趋势等。
使用Puppeteer进行数据抓取和聚合的基本步骤如下:

  1. 安装Puppeteer库和相关依赖
  2. 创建一个Puppeteer实例,并启动一个浏览器
  3. 打开一个新的页面,并设置代理IP和请求头
  4. 访问目标网站,并等待页面加载完成
  5. 使用选择器或XPath定位元素,并获取元素的属性或文本
  6. 将获取的数据存储到本地文件或数据库中
  7. 关闭页面和浏览器

正文

安装Puppeteer库和相关依赖

要使用Puppeteer,我们首先需要安装Node.js环境,以及Puppeteer库和相关依赖。我们可以使用npm命令来安装,如下所示:

// 在命令行中执行以下命令,安装Puppeteer库
npm install puppeteer

// 安装http-proxy-agent模块,用于设置代理IP
npm install http-proxy-agent

// 安装cheerio模块,用于解析HTML文档
npm install cheerio

创建一个Puppeteer实例,并启动一个浏览器

接下来,我们需要创建一个Puppeteer实例,并启动一个浏览器。我们可以使用puppeteer.launch方法来实现,该方法接受一个可选的配置对象作为参数,其中可以设置浏览器的各种选项,如是否显示界面、是否启用沙盒模式、是否忽略HTTPS错误等。例如:

// 引入puppeteer模块
const puppeteer = require('puppeteer');

// 创建一个异步函数,用于执行爬虫任务
(async () => {
  // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面
  const browser = await puppeteer.launch({ headless: false });
})();

打开一个新的页面,并设置代理IP和请求头

然后,我们需要打开一个新的页面,并设置代理IP和请求头。我们可以使用browser.newPage方法来创建一个新的页面对象,该对象提供了与页面交互的各种方法和事件。我们可以使用page.setExtraHTTPHeaders方法来设置请求头,以模拟正常的浏览器行为。我们还可以使用page.authenticate方法来设置代理IP,以避免被目标网站屏蔽或限制。例如:

// 引入http-proxy-agent模块,用于创建代理对象
const HttpProxyAgent = require('http-proxy-agent');

// 创建一个异步函数,用于执行爬虫任务
(async () => {
  // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面
  const browser = await puppeteer.launch({ headless: false });

  // 打开一个新的页面
  const page = await browser.newPage();

  // 设置请求头,模拟正常的浏览器行为
  await page.setExtraHTTPHeaders({
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'User-Agent':
      'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
  });

  // 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码
  await page.authenticate({
    username: '16YUN',
    password: '16IP',
    agent: new HttpProxyAgent('http://www.16yun.cn:9020'),
  });
})();

访问目标网站,并等待页面加载完成

接下来,我们需要访问目标网站,并等待页面加载完成。我们可以使用page.goto方法来访问一个URL,该方法返回一个Promise对象,表示页面导航的结果。我们可以使用await关键字来等待Promise对象的解决,或者使用then方法来添加回调函数。我们还可以使用page.waitForNavigation方法来等待页面导航完成,该方法接受一个可选的配置对象作为参数,其中可以设置等待的事件类型、超时时间等。例如:

// 创建一个异步函数,用于执行爬虫任务
(async () => {
  // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面
  const browser = await puppeteer.launch({ headless: false });

  // 打开一个新的页面
  const page = await browser.newPage();

  // 设置请求头,模拟正常的浏览器行为
  await page.setExtraHTTPHeaders({
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'User-Agent':
      'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
  });

  // 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码
  await page.authenticate({
    username: '16YUN',
    password: '16IP',
    agent: new HttpProxyAgent('http://www.16yun.cn:9020'),
  });

  // 访问网易新闻首页,并等待页面加载完成,设置waitUntil为networkidle2表示网络空闲时触发
  await page.goto('https://news.163.com/', {
    waitUntil: 'networkidle2',
  });
})();

使用选择器或XPath定位元素,并获取元素的属性或文本

然后,我们需要使用选择器或XPath定位元素,并获取元素的属性或文本。我们可以使用page.$方法来获取多个元素。这些方法接受一个字符串作为参数,表示选择器或XPath表达式。我们还可以使用page.evaluate方法来在页面上执行JavaScript代码,并返回执行结果。我们可以使用这个方法来获取元素的属性或文本,或者进行其他操作。例如:

// 创建一个异步函数,用于执行爬虫任务
(async () => {
  // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面
  const browser = await puppeteer.launch({ headless: false });

  // 打开一个新的页面
  const page = await browser.newPage();

  // 设置请求头,模拟正常的浏览器行为
  await page.setExtraHTTPHeaders({
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'User-Agent':
      'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
  });

  // 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码 
  await page.authenticate({ username: ‘yiniu’, password: ‘yiniu123’, agent: new HttpProxyAgent(‘http://http-dyn.abuyun.com:9020), });

  // 访问网易新闻首页,并等待页面加载完成,设置waitUntil为networkidle2表示网络空闲时触发 
  await page.goto(‘https://news.163.com/, { waitUntil: ‘networkidle2’, });

  // 使用选择器获取杭州亚运会相关的新闻列表,返回一个元素数组 
  const newsList = await page.$$(.news_title h3 a’);

  // 创建一个空数组,用于存储新闻数据 
  const newsData = [];

  // 遍历新闻列表,获取每个新闻的标题、链接、时间和来源 
  for (let news of newsList) { 
     // 获取新闻的标题,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果 
     const title = await page.evaluate((el) => el.innerText, news);
    
     // 获取新闻的链接,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果    
     const link = await page.evaluate((el) => el.href, news);

     // 获取新闻的时间和来源,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果
     const timeAndSource = await page.evaluate(
     (el) => el.parentElement.nextElementSibling.innerText,news);

     // 将新闻数据添加到数组中
     newsData.push({
       title,
       link,
       timeAndSource,
     });
    }

 // 打印新闻数据 
 console.log(newsData); })();                                                                                        

案例

运行上述代码,我们可以得到如下输出:

[
  {
    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',
    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',
    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'
  },
  {
    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',
    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',
    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'
  },
  {
    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',
    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',
    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'
  },
  {
    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',
    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',
    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'
  },
  {
    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',
    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',
    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'
  }
]

这样,我们就成功地使用Puppeteer进行了新闻网站数据抓取和聚合。

结语

本文介绍了如何使用Puppeteer进行新闻网站数据抓取和聚合,以网易新闻和杭州亚运会为例。Puppeteer是一个强大的库,它可以让我们轻松地控制浏览器,实现各种自动化任务。通过使用代理IP,我们可以提高爬虫的效果,避免被目标网站屏蔽或限制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/949632.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot的自动装配源码分析

文章目录 一:什么是自动装配二、springboot的启动流程1.调用SpringApplication()的构造方法2.执行核心run方法()3.执行核心prepareContext()4.执行核心refreshContext()5…

信创软件测试质量的四个特性是什么?

对于信创软件而言,需结合其自身的特点、用户单位的实际使用需求,选择合适的质量特性范围,制定恰当的测试方案,以最大效率发现适配问题、尽快地完成适配质量的提升。那么,信创软件测试质量的四个特性是什么?下面&#…

【状压+概率DP】CF678 E

Problem - E - Codeforces 题意&#xff1a; 思路&#xff1a; 首先&#xff0c;n < 18&#xff0c;应当想到状压 很明显&#xff0c;这里可以使用状压DP 设 dp[s][i] 表示&#xff0c;现在选的方案为 s &#xff0c;且我是 i 的最终胜利的概率是多少 重要的是转移 这是…

1688API技术解析,实现获得店铺的所有商品

获得店铺的所有商品可以通过1688的开放API实现。以下是对1688API的技术解析&#xff1a; 1. 注册成为开发者&#xff1a;首先&#xff0c;你需要在1688开放平台上注册成为开发者&#xff0c;并创建一个应用来获取API授权。 2. 获取授权访问令牌&#xff1a;通过使用OAuth 2.0…

Centos7 + Apache Ranger 2.4.0 部署

一、Ranger简介 Apache Ranger提供一个集中式安全管理框架, 并解决授权和审计。它可以对Hadoop生态的组件如HDFS、Yarn、Hive、Hbase等进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问权限。 1、组件列表 # Service Name Liste…

nil、空接口和空结构体联系与区别

nil&#xff1a; nil是空&#xff0c;并不一定是空指针&#xff0c;nil是一个变量&#xff0c;类型是Type 可能是一下6中类型&#xff0c;以下6种类型的初始值 空结构体

简易虚拟培训系统-UI控件的应用4

目录 Slider组件的常用参数 示例-使用Slider控制主轴 示例-Slider控制溜板箱的移动 本文以操作面板为例&#xff0c;介绍使用Slider控件控制开关和速度。 Slider组件的常用参数 Slider组件下面包含了3个子节点&#xff0c;都是Image组件&#xff0c;负责Slider的背景、填充区…

linux————ELK(日志收集系统集群)

一、概述 一、为什么要使用ELK 日志对于分析系统、应用的状态十分重要&#xff0c;但一般日志的量会比较大&#xff0c;并且比较分散。 如果管理的服务器或者程序比较少的情况我们还可以逐一登录到各个服务器去查看、分析。但如果服务器或者程序的数量比较多了之后这种方法就显…

C++ ASIO 实现异步套接字管理

Boost ASIO&#xff08;Asynchronous I/O&#xff09;是一个用于异步I/O操作的C库&#xff0c;该框架提供了一种方便的方式来处理网络通信、多线程编程和异步操作。特别适用于网络应用程序的开发&#xff0c;从基本的网络通信到复杂的异步操作&#xff0c;如远程控制程序、高并…

vulnhub靶机Solstice

下载地址&#xff1a;https://download.vulnhub.com/sunset/solstice.ova 主机发现 arp-scan -l 扫描端口 nmap --min-rate 10000 -p- 192.168.21.147 这里端口有太多于是我就整理了一下 nmap --min-rate 10000 -p- 192.168.21.147 -oA ports 数据整理 cat ports.nmap|grep…

【不良人】官方声明:天罡传电影拍摄三部,第七季仅一句话说明

Hello,小伙伴们&#xff0c;我是小郑继续为大家深度解析画江湖系列&#xff01; 距离画江湖之不良人第六季完结已经有一段时间了&#xff0c;就在小郑都快忘了这部动漫的时候&#xff0c;突然官方发声了。先是透露了关于画江湖之不良人番外电影天罡传的情报&#xff0c;之后又明…

Ansible自动化运维之playbooks剧本

文章目录 一.playbooks介绍1.playbooks简述2.playbooks剧本格式3.playbooks组成部分4.运行playbooks及检测文件配置 二.模块实战实例1.playbooks模块实战实例2.vars模块实战实例3.指定远程主机sudo切换用户4.when模块实战实例5.with_items迭代模块实战实例6.Templates 模块实战…

windows 搭建 swoole开发环境(官网已支持)

第一步下载&#xff1a;swoole官网下载 swoole-cli-v5.0.3-cygwin-x64.zip 只支持 64 位的系统 第二步解压到指定文件夹&#xff1a;E:\phpstudy_pro\WWW\swoole-cli-v5.0.3-cygwin-x64 第三步设置环境变量&#xff1a;把解压后的文件夹下的 bin 目录路径配置到系统的 Path 环境…

茶凳浅谈-使用QCA7006AQ 让电动汽车成为智慧电网的一环

前言: 智慧电网一词相信大家都已经耳熟能详。智能电网是指采用先进的电力技术和设备、信息与通信技术&#xff0c;系统地实现电网的智能型监测、分析和决策控制&#xff0c;支持新型能源发电和灵活优质用电&#xff0c;具有高自动化水平&#xff0c;并有一定自愈、互动功能的安…

百万级单细胞多组学数据集成

写在前面 这是一篇粉丝来稿&#xff0c;文章题目为“Multi-omics integration in the age of million single-cell data”&#xff0c;于2021年发表于《Nature Reviews Nephrology》上&#xff0c;影响因子为42.439。由于单细胞目前快速的买入了百万级、多组学的时代&#xff…

用WebGPU实现基于物理的渲染

推荐&#xff1a;用 NSDT编辑器 快速搭建可编程3D场景 最近&#xff0c;我花了相当多的时间在 WebGPU 中使用 IBL&#xff08;基于图像的照明&#xff09;编写 PBR&#xff08;基于物理的渲染&#xff09;渲染器。 PBR 本身并没有什么新奇之处。 这是一项自 2014 年以来就存在的…

Python装饰器(decorators)

本文改编自以下文章&#xff1a;Decorators in Python 装饰器是一个很强大的工具&#xff0c;它允许我们很便捷地修改已有函数或者类的功能&#xff0c;我们可以用装饰器把另一个函数包装起来&#xff0c;扩展一些功能而不需要去修改这个函数代码。 预备知识 在Python中&…

度矩阵、邻接矩阵

度矩阵&#xff08;degree matrix&#xff09; 度矩阵是对角阵&#xff0c;对角上的元素为各个顶点的度&#xff0c;顶点vi的度表示和该顶点相关联的变得数量。 在无向图中&#xff0c;顶点vi的度d(vi)N(i)&#xff08;即与顶点相连的边的数目&#xff09;有向图中&#xff0…

六年北漂:一个普通程序员的成长之路

微信推送规则改了&#xff0c;星标一下公众号&#xff0c;否则可能收不到推送 收拾完东西&#xff0c;终于忙完一天了&#xff0c;坐在桌子前&#xff0c;梳理一下我的北漂经历。 中午刚下飞机&#xff0c;到了住的地方&#xff0c;直接开始下雨&#xff0c;瞬间感受到一股闷热…