使用Puppeteer爬取地图上的用户评价和评论

news2025/1/12 23:12:50

亿牛云代理

导语

在互联网时代,获取用户的反馈和意见是非常重要的,它可以帮助我们了解用户的需求和喜好,提高我们的产品和服务质量。有时候,我们需要从地图上爬取用户对某些地点或商家的评价和评论,这样我们就可以分析用户对不同地区或行业的态度和偏好。但是,如何从地图上爬取用户评价和评论呢?本文将介绍一种使用Puppeteer的方法,它是一个基于Node.js的库,可以控制Chrome或Chromium浏览器进行各种操作,包括爬虫。

概述

Puppeteer是一个非常强大的库,它可以模拟用户在浏览器中的行为,比如打开网页、点击按钮、输入文本、滚动页面等。它还可以截取网页的屏幕截图或PDF文件,以及获取网页的DOM元素和内容。使用Puppeteer爬取地图上的用户评价和评论的基本思路是:

  • 首先,使用Puppeteer启动一个浏览器实例,并设置代理IP,以避免被目标网站识别和封禁。
  • 然后,使用Puppeteer打开目标网站的地图页面,并输入要搜索的地点或商家名称。
  • 接着,使用Puppeteer获取搜索结果中的第一个条目,并点击进入详情页面。
  • 最后,使用Puppeteer获取详情页面中的用户评价和评论,并保存到本地文件或数据库中。

正文

下面我们将详细介绍使用Puppeteer爬取地图上的用户评价和评论的具体步骤和代码。

1. 安装Puppeteer

首先,我们需要安装Puppeteer库,可以使用npm命令进行安装:

// 安装Puppeteer库
npm i puppeteer

2. 启动浏览器并设置代理IP

然后,我们需要启动一个浏览器实例,并设置代理IP。我们可以使用亿牛云爬虫代理服务来获取高质量的代理IP,它提供了多种类型和地区的代理IP,并且支持多种协议和认证方式。我们可以在亿牛云爬虫代理平台上注册一个账号,并获取自己的域名、端口、用户名和密码。然后,我们可以使用以下代码来启动浏览器并设置代理IP:

// 引入Puppeteer库
const puppeteer = require('puppeteer');

// 亿牛云 定义爬虫代理IP相关参数
const proxyDomain = 'www.16yun.cn'; // 爬虫代理域名
const proxyPort = '8100'; // 爬虫代理端口
const proxyUsername = '16IP'; // 爬虫代理用户名
const proxyPassword = '16YUN'; // 爬虫代理密码

// 启动浏览器并设置代理IP
(async () => {
  const browser = await puppeteer.launch({
    args: [
      `--proxy-server=http://${proxyDomain}:${proxyPort}`, // 设置代理服务器地址和端口
      `--proxy-auth=${proxyUsername}:${proxyPassword}`, // 设置代理服务器认证信息
    ],
    headless: false, // 设置为非无头模式,方便调试
  });
})();

3. 打开目标网站并搜索地点或商家

接着,我们需要打开目标网站的地图页面,并输入要搜索的地点或商家名称。我们以百度地图为例,我们可以使用以下代码来打开百度地图并搜索“北京饭店”:

// 引入Puppeteer库
const puppeteer = require('puppeteer');

// 亿牛云 定义爬虫代理IP相关参数
const proxyDomain = 'www.16yun.cn'; // 爬虫代理域名
const proxyPort = '8100'; // 爬虫代理端口
const proxyUsername = '16IP'; // 爬虫代理用户名
const proxyPassword = '16YUN'; // 爬虫代理密码

// 启动浏览器并设置代理IP
(async () => {
  const browser = await puppeteer.launch({
    args: [
      `--proxy-server=http://${proxyDomain}:${proxyPort}`, // 设置代理服务器地址和端口
      `--proxy-auth=${proxyUsername}:${proxyPassword}`, // 设置代理服务器认证信息
    ],
    headless: false, // 设置为非无头模式,方便调试
  });

  // 打开一个新的页面
  const page = await browser.newPage();

  // 设置页面的视口大小
  await page.setViewport({ width: 1280, height: 800 });

  // 打开百度地图的网址
  await page.goto('https://map.baidu.com/');

  // 等待搜索框出现
  await page.waitForSelector('#sole-input');

  // 输入要搜索的地点或商家名称
  await page.type('#sole-input', '北京饭店');

  // 点击搜索按钮
  await page.click('#search-button');
})();

4. 获取搜索结果并点击详情页面

然后,我们需要获取搜索结果中的第一个条目,并点击进入详情页面。我们可以使用以下代码来获取搜索结果并点击详情页面:

const puppeteer = require('puppeteer'); // 引入Puppeteer库

// 亿牛云 定义爬虫代理IP相关参数
const proxyDomain = 'www.16yun.cn'; // 爬虫代理域名
const proxyPort = '8100'; // 爬虫代理端口
const proxyUsername = '16IP'; // 爬虫代理用户名
const proxyPassword = '16YUN'; // 爬虫代理密码

(async () => {
  const browser = await puppeteer.launch({
    args: [
      `--proxy-server=http://${proxyDomain}:${proxyPort}`, // 设置代理服务器地址和端口
      `--proxy-auth=${proxyUsername}:${proxyPassword}`, // 设置代理服务器认证信息
    ],
    headless: false, // 设置为非无头模式,方便调试
  });

  const page = await browser.newPage(); // 打开一个新的页面
  await page.setViewport({ width: 1280, height: 800 }); // 设置页面的视口大小

  await page.goto('https://map.baidu.com/'); // 打开百度地图的网址

  await page.waitForSelector('#sole-input'); // 等待搜索框出现
  await page.type('#sole-input', '北京饭店'); // 输入要搜索的地点或商家名称
  await page.click('#search-button'); // 点击搜索按钮

  await page.waitForSelector('.se-bn-list'); // 等待搜索结果出现

  const firstResult = await page.evaluate(() => {
    const title = document.querySelector('.se-bn-list .se-bn-item .se-bn-name').innerText; // 获取搜索结果中的第一个条目的标题文本
    const link = document.querySelector('.se-bn-list .se-bn-item .se-bn-name').href; // 获取搜索结果中的第一个条目的链接地址
    return { title, link }; // 返回第一个条目的标题和链接对象
  });

  console.log(firstResult); // 打印第一个条目的标题和链接对象

  await Promise.all([
    page.waitForNavigation(), // 等待页面跳转完成
    page.click('.se-bn-list .se-bn-item .se-bn-name'), // 点击第一个条目进入详情页面
  ]);

  await page.waitForSelector('.place-header-title'); // 等待详情页面加载完成

  const detailInfo = await page.evaluate(() => {
    const title = document.querySelector('.place-header-title').innerText; // 获取详情页面中的标题文本
    const address = document.querySelector('.place-address .se-text-clip').innerText; // 获取详情页面中的地址文本
    const phone = document.querySelector('.place-header-phone .se-float-left').innerText; // 获取详情页面中的电话文本
    return { title, address, phone }; // 返回详情页面中的标题、地址和电话对象
  });

  console.log(detailInfo); // 打印详情页面中的标题、地址和电话对象

  await browser.close(); // 关闭浏览器实例
})();

5. 获取详情页面中的用户评价和评论

最后,我们需要获取详情页面中的用户评价和评论,并保存到本地文件或数据库中。我们可以使用以下代码来获取详情页面中的用户评价和评论:

// 引入Puppeteer库
const puppeteer = require('puppeteer');

// 亿牛云 定义爬虫代理IP相关参数
const proxyDomain = 'www.16yun.cn'; // 爬虫代理域名
const proxyPort = '8100'; // 爬虫代理端口
const proxyUsername = '16IP'; // 爬虫代理用户名
const proxyPassword = '16YUN'; // 爬虫代理密码

// 启动浏览器并设置代理IP
(async () => {
  const browser = await puppeteer.launch({
    args: [
      `--proxy-server=http://${proxyDomain}:${proxyPort}`, // 设置代理服务器地址和端口
      `--proxy-auth=${proxyUsername}:${proxyPassword}`, // 设置代理服务器认证信息
    ],
    headless: false, // 设置为非无头模式,方便调试
  });

  // 打开一个新的页面
  const page = await browser.newPage();

  // 设置页面的视口大小
  await page.setViewport({ width: 1280, height: 800 });

  // 打开百度地图的网址
  await page.goto('https://map.baidu.com/');

  // 等待搜索框出现
  await page.waitForSelector('#sole-input');

  // 输入要搜索的地点或商家名称
  await page.type('#sole-input', '北京饭店');

  // 点击搜索按钮
  await page.click('#search-button');

  // 等待搜索结果出现
  await page.waitForSelector('.se-bn-list');

  // 获取搜索结果中的第一个条目的标题和链接
  const firstResult = await page.evaluate(() => {
    const title = document.querySelector('.se-bn-list .se-bn-item .se-bn-name').innerText; // 获取标题文本
    const link = document.querySelector('.se-bn-list .se-bn-item .se-bn-name').href; // 获取链接地址
    return { title, link };
  });

  console.log(firstResult); // 打印第一个条目的标题和链接

  // 点击第一个条目进入详情页面
  await Promise.all([
    page.waitForNavigation(), // 等待页面跳转完成
    page.click('.se-bn-list .se-bn-item .se-bn-name'), // 点击第一个条目的标题链接
  ]);

  // 等待详情页面加载完成
  await page.waitForSelector('.comment-list');

  // 获取详情页面中的用户评价和评论
  const comments = await page.evaluate(() => {
    const commentList = document.querySelectorAll('.comment-list .comment-item'); // 获取所有评论元素
    const comments = []; // 定义一个空数组用于存储评论数据

    for (let comment of commentList) {
      const username = comment.querySelector('.user-name').innerText; // 获取用户名文本
      const rating = comment.querySelector('.star-score').innerText; // 获取评分文本
      const content = comment.querySelector('.comment-content').innerText; // 获取评论内容文本

      comments.push({ username, rating, content }); // 将评论数据添加到数组中
    }

    return comments; // 返回评论数据数组
  });

  console.log(comments); // 打印评论数据数组

  // 关闭浏览器实例
  await browser.close();
})();

我们可以运行上述代码,并查看输出结果。我们成功地从百度地图上爬取了北京饭店的用户评价和评论,并打印到了控制台中。我们可以根据自己的需要,将这些数据保存到本地文件或数据库中,以便后续分析和使用。

结语

本文介绍了一种使用Puppeteer爬取地图上的用户评价和评论的方法,它可以帮助我们获取用户的反馈和意见,分析用户的需求和喜好。我们可以根据不同的目标网站和搜索条件,修改相应的代码,以实现更多的爬虫功能。希望本文对你有所帮助,谢谢阅读。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/981220.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++内存管理(2)new、delete详解

目录 new operator(new操作) new类对象时加不加括号的差别 new工作任务 delete工作任务 new和delete 堆区空间操作(对比malloc和free) new和delete操作基本类型的空间 new和delete操作基本类型的数组 new和delete操作类的…

Layui快速入门之第二节布局容器(固定宽度与完整宽度)

目录 一&#xff1a;固定宽度 二&#xff1a; 完整宽度 一&#xff1a;固定宽度 将栅格放入一个带有 class"layui-container" 的特定容器中&#xff0c;以便在小屏幕以上的设备中固定宽度&#xff0c;让列可控(两侧有留白效果) <!--固定宽度(两侧有留白效果)--&…

Layui快速入门之第三节栅格布局

目录 一&#xff1a;栅格布局的基本概念 二&#xff1a;栅格布局规则 三&#xff1a;始终等比例水平排列案例 四&#xff1a;响应式规则 五&#xff1a;移动设备、桌面端的组合响应式展现案例 六&#xff1a;移动设备、平板、桌面端的复杂组合响应式展现案例 七&#xf…

Yalmip使用教程(6)-将约束条件写成矩阵形式

博客中所有内容均来源于自己学习过程中积累的经验以及对yalmip官方文档的翻译&#xff1a;https://yalmip.github.io/tutorials/ 这篇博客将详细介绍如何借助yalmip工具箱将约束条件写成矩阵形式。 1.相关函数介绍 1.1 depends和getvariables函数 depends和getvariables函数都…

C# Winform 简单排期实现(DevExpress TreeList)

排期的需求在很多任务安排的系统中都有相应的需求&#xff0c;原生的Winform控件并未提供相应的控件&#xff0c;一般都是利用DataGridViewTreeView组合完成相应的需求&#xff0c;实现起来比较麻烦。用过DevExpress控件集的开发者应该知道&#xff0c;DevExpress WinForm提供了…

数学建模--K-means聚类的Python实现

目录 1.算法流程简介 2.1.K-mean算法核心代码 2.2.K-mean算法效果展示 3.1.肘部法算法核心代码 3.2.肘部法算法效果展示 1.算法流程简介 #k-means聚类方法 """ k-means聚类算法流程: 1.K-mean均值聚类的方法就是先随机选择k个对象作为初始聚类中心. 2.这…

http实现文件分片下载

文章目录 检测是否支持HTTP Range 语法Range请求cURL示例单一范围多重范围条件式分片请求 Range分片请求的响应文件整体下载文件分片下载文本下载图片下载封装下载方法 HTTP分片异步下载是一种下载文件的技术&#xff0c;它允许将一个大文件分成多个小块&#xff08;分片&#…

一个新工具 nolyfill

名字的意思&#xff0c; 我自己的理解 no(po)lyfill 正如它的名字, 不要再用补丁了, 当然这里说的是过时的补丁。 polyfill 是补丁的意思 为什么要用这个插件 文档原文: 当您通过安装最新的 Node.js LTS 来接受最新的功能和安全修复时&#xff0c;像eslint-plugin-import、…

架构师如何做好需求分析

架构师如何做好需求分析 目录概述需求&#xff1a; 设计思路实现思路分析1.主要步骤 2.主要步骤2操作步骤 参考资料和推荐阅读 Survive by day and develop by night. talk for import biz , show your perfect code,full busy&#xff0c;skip hardness,make a better result,…

Android笔记(二十八):在雷电模拟器安卓7.0+上使用Charles抓包详细教程

背景 由于手头没有合适的真机,所有经常使用雷神模拟器来跑项目,模拟器也需要能够抓包看看接口返回的数据,以便自测调试。本文记录了如何在雷电模拟器安卓7.0+上使用Charles抓包,其他模拟器没试过。 最终效果 浏览器打开百度网页,能抓到百度页面数据 具体步骤 模拟器…

xinput1_3.dll丢失的解决方法,快速修复xinput1_3.dll文件

在使用电脑时&#xff0c;我们可能会遇到各种各样的问题&#xff0c;其中之一就是xinput1_3.dll文件丢失的情况。这个文件是DirectX的一部分&#xff0c;它对于许多游戏和其他应用程序的正常运行至关重要。当xinput1_3.dll文件丢失时&#xff0c;我们无法启动或运行依赖该文件的…

LeetCode刷题笔记【28】:贪心算法专题-6(单调递增的数字、监控二叉树)

文章目录 前置知识738.单调递增的数字题目描述解题思路代码 968.监控二叉树题目描述解题思路代码 总结 前置知识 参考前文 参考文章&#xff1a; LeetCode刷题笔记【23】&#xff1a;贪心算法专题-1&#xff08;分发饼干、摆动序列、最大子序和&#xff09; LeetCode刷题笔记【…

VMware虚拟机+Centos7 配置静态,动态IP

本章目录 一、查看网关&#xff1a; 编辑–>虚拟网络编辑器二、点击NAT设置三、记住网关IP待会要用四、配置静态ip地址1、进入存放修改IP地址的目录2、修改ip地址的文件3、编辑文件4、文件&#xff08;编辑好后退出&#xff09; 五、重启网络六、测试1、linux上查看IP地址的…

使用pyenv安装python缓慢或无法安装

使用pyenv安装python缓慢或无法安装 这一定程度上和网络情况有关&#xff0c;下面提供几个常见方法&#xff1a; 关闭 VPN 后重新安装使用管理员权限打开命令窗口后安装如下 手动安装 pyenv 在执行 pyenv install --- 命令的时候&#xff0c;会连接远程库&#xff0c;将要安…

格式工厂多个图片合并成一个PDF的报错

使用图片合并PDF功能时 当图片数量超过50会报错 找到imgconv.py文件&#xff0c;将50改为500&#xff0c;保存 现在可以支持100张图合并成一个PDF文件了&#xff01; 但是超过150张程序会直接闪退&#xff0c;正在解决中。。

基于任务队列的机器学习服务实现

将机器模型部署到生产环境的方法有很多。 常见的方法之一是将其实现为 Web 服务。 最流行的类型是 REST API。 它的作用是全天候&#xff08;24/7&#xff09;部署和运行&#xff0c;等待接收来自客户端的 JSON 请求&#xff0c;提取输入&#xff0c;并将其发送到 ML 模型以预测…

3D异常检测论文笔记 | Shape-Guided Dual-Memory Learning for 3D Anomaly Detection

文章目录 摘要一、介绍三、方法3.1. 形状引导专家学习3.2. Shape-Guided推理 摘要 我们提出了一个形状引导的专家学习框架来解决无监督的三维异常检测问题。我们的方法是建立在两个专门的专家模型的有效性和他们的协同从颜色和形状模态定位异常区域。第一个专家利用几何信息通…

涛然自得周刊(第 5 期):蝲蛄吟唱的地方

作者&#xff1a;何一涛 日期&#xff1a;2023 年 8 月 20 日 涛然自得周刊主要精选作者阅读过的书影音内容&#xff0c;不定期发。历史周刊内容可以看这里。 电影 《沼泽深处的女孩》 改编自小说《蝲蛄吟唱的地方》&#xff0c;主角是一位在沼泽地独自生活并长大的女孩&…

[VSCode] 替换掉/去掉空行

VSCode中使用快捷键CtrlH&#xff0c;出现替换功能&#xff0c;在上面的“查找”框中输入正则表达式&#xff1a; ^\s*(?\r?$)\n然后选择右侧的“使用正则表达式”&#xff1b;“替换”框内为空&#xff0c;点击右侧的“全部替换”&#xff0c;即可去除所有空行。 参考 [VS…

Apipost forEach控制器怎么用

最近&#xff0c;Apipost对自动化测试进行了优化&#xff0c;新增foreach控制器。这个新功能的引入为自动化测试带来了更高的效率和灵活性。本文将介绍Apipost的foreach控制器&#xff0c;解释其用途和优势&#xff0c;帮助您更好地利用这一功能提升自己的测试工作。 什么是fo…