浏览器插件：WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)

浏览器插件：WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)

news2025/4/13 2:35:28

Web Scraper 是一个浏览器扩展，用于从页面中提取数据(网页爬虫)。对于简单或偶然的需求非常有用，例如正在写代码缺少一些示例数据，使用此插件可以很快从类似的网站提取内容作为模拟数据。从 Chrome 的插件市场安装后，页面 F12 打开开发者工具会多出一个名 Web Scraper 的面板，接下来以此作为开始。

快速上手

写个例子：提取百度首页底部几个导航按钮的文字，了解下 Web Scraper 是如何工作。

创建任务

创建任务，即创建 SiteMap(这词不常用，还是用我们熟悉的词吧，意思大致一样就行)。打开百度首页，再打开开发者面板如下操作，其中URL可以使用特殊语法，这个后面再谈。

选择内容

开始抓取

浏览数据

抓取完肯定要确认数据是否正确，格式不正确需要重新调整选择器，浏览数据的步骤如下：

保存数据

确认无误后，就可以进行保存(如下)。目前只能导出 excel 或 csv 格式，json 需要充值(会员)，不过也不是啥大问题，随便找个在线网站转一下就行。

浏览数据

抓取完肯定要确认数据是否正确，格式不正确需要重新调整选择器，浏览数据的步骤如下：

保存数据

确认无误后，就可以进行保存(如下)。目前只能导出 excel 或 csv 格式，json 需要充值(会员)，不过也不是啥大问题，随便找个在线网站转一下就行。

小结

图片选择器

抓取的URL支持特殊语法，如果页面分页体现在URL上的话还是非常有用的。如下：

表格选择器

提取表格数据，以 IANA的域名列表为例，如下：

链接选择器

提取链接名字和地址，以百度首页为例，如下：

百度首页为例，如下：

属性选择器

提取属性值，以百度首页为例，如下：

图片选择器

提取图片地址，以百度首页为例，如下：

元素选择器

提取表格数据，以 IANA的域名列表为例，如下：

元素和子选择器创建好就可以了，以下是预览到的数据：

链接选择器

提取链接名字和地址，以百度首页为例，如下：

元素点击选择器

分组选择器

分页选择器

分页查询数据，支持多种类型，比元素滚动选择器、元素点击选择器更强大。值得注意的是，子选择器需放在分页选择器内部。以博客园WEB分页为例，模拟上面元素点击选择器的效果，如下：

百度首页为例，如下：

站点地图选择器

这几个比较简单，输入 sitemap.xml 的地址即可，如下：

tips

提取元素，实际是个分组功能。例如，有个列表，每个子项都有名字、链接地址等属性，元素就是包裹这些属性的盒子，可以理解 JS 中的对象。

结语

OK，以上本片的所有内容，你可以利用它去爬取知乎、百度、豆瓣等等网页上的数据。

如果本文对你有帮助，不要忘记一键三连，你的支持是我最大的动力！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1398292.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

flink学习之水位线

flink学习之水位线

什么是水位线在事件时间语义下，我们不依赖系统时间，而是基于数据自带的时间戳去定义了一个时钟， 用来表示当前时间的进展。于是每个并行子任务都会有一个自己的逻辑时钟，它的前进是靠数据的时间戳来驱动的。我们可以把时钟也以…

阅读更多...

【想要安利给所有人的开发工具】一款写笔记的工具——语雀

【想要安利给所有人的开发工具】一款写笔记的工具——语雀

目录 📕开篇 ✍使用感受 👍语雀的常用功能 1、导出成图片 2、导出为PDF 3、代码的模块 4、流程图 5、画板类 6、程序员专用区 7、布局和样式 8、菜单栏的功能 9、其余功能（很多） 🚗为什么推荐语雀 &…

阅读更多...

（二）CarPlay集成开发之苹果的iAP协议

（二）CarPlay集成开发之苹果的iAP协议

文章目录概要协议格式鉴权流程CarPlay中的iAP2协议应用小结概要 iAP2协议是由苹果公司定义的一种数据通信协议，主要用于苹果设备认证外设，以及与外设数据交换的一种协议协议格式协议格式一共分为三种类型，分别为握手包，链路…

阅读更多...

lattice Diamond Programmer程序下载

lattice Diamond Programmer程序下载

Lattice Diamond Programmer Diamond Programmer程序下载1 Diamond Programmer启动2 Diamond Programmer程序烧写3 Cannot Identify Device错误解决 Diamond Programmer程序下载 Diamond Programmer适用于Lattice公司的FPGA器件与CPLD器件的程序下载，其下载步骤如下…

阅读更多...

如何才能拥有比特币 - 01 ？

如何才能拥有比特币 - 01 ？

如何才能拥有BTC 在拥有 BTC 之前我们要先搞明白 BTC到底保存在哪里？我的钱是存在银行卡里的，那我的BTC是存在哪里的呢？ BTC到底在哪里？ 一句话概括，BTC是存储在BTC地址中，而且地址是公开的，…

阅读更多...

Python项目——搞怪小程序（PySide6+Pyinstaller）

Python项目——搞怪小程序（PySide6+Pyinstaller）

1、介绍使用python编写一个小程序，回答你是猪吗。点击“是”提交，弹窗并退出。点击“不是”提交，等待5秒，重新选择。并且隐藏了关闭按钮。 2、实现新建一个项目。 2.1、设计UI 使用Qt designer设计一个UI界面&#xff0c…

阅读更多...

android 开发 W/TextToSpeech: speak failed: not bound to TTS engine

android 开发 W/TextToSpeech: speak failed: not bound to TTS engine

问题笔者使用TTS(TextToSpeech)对于文本内容进行语音播报，控制台报错 android 开发 speak failed:not bound to TTS engine详细问题笔者核心代码： import android.os.Bundle; import android.speech.tts.TextToSpeech; import android.speech.tts.…

阅读更多...

react native Gradle的原国外地址、本地下载、国内阿里腾讯镜像三种下载配置

react native Gradle的原国外地址、本地下载、国内阿里腾讯镜像三种下载配置

一、国外地址：（初始项目默认） 下载地址：https://services.gradle.org/distributions/ 文件地址见下图： 注意：这个地址下载十次就有九次是连接超时，建议换另外两种方法二、下载到本地&#x…

阅读更多...

LLM：ALiBi - 给注意力加上线性偏置

LLM：ALiBi - 给注意力加上线性偏置

论文：https://arxiv.org/pdf/2108.12409.pdf 代码：https://github.com/ofirpress/attention_with_linear_biases 发表：2021 长度外推参考：https://spaces.ac.cn/archives/9431#ALIBI 长度外推性是一个训练和预测的长度不一致…

阅读更多...

tomcat原理模拟和tomcat优化

tomcat原理模拟和tomcat优化

1、tomcat实现原理 servlet 没有主方法main，依赖tomcat才能运行，因为tomcat 有主方法main，由java编写 servlet中doGet和doPost方法属于非静态方法，只能依托new对象存在，tomcat无法new出来对象，因此tomcat…

阅读更多...

手机与电脑更改IP地址怎么使用代理IP？

手机与电脑更改IP地址怎么使用代理IP？

在现代互联网时代，代理IP已成为许多人日常生活和工作中不可或缺的一部分。通过代理IP，用户可以隐藏自己的真实IP地址，并获得更好的网络体验。本文将详细介绍如何在手机和电脑上更改IP地址并使用代理IP。一、手机使用代理IP 1. 打开手机设置&…

阅读更多...

1.C语言——基础知识

1.C语言——基础知识

C语言基础知识 1.第一个C语言程序2.注释3.标识符4.关键字5.数据类型6.变量7.常量8.运算符9.输入输出输入输出 1.第一个C语言程序 C语言的编程框架 #include <stdio.h> int main() {/* 我的第一个 C 程序 */printf("Hello, World! \n");return 0; }2.注释单行…

阅读更多...

MySQL面试题 | 18.精选MySQL面试题

MySQL面试题 | 18.精选MySQL面试题

🤍 前端开发工程师（主业）、技术博主（副业）、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

阅读更多...

Vue3前端开发,如何获取组件内dom对象以及子组件的属性和方法

Vue3前端开发,如何获取组件内dom对象以及子组件的属性和方法

Vue3前端开发,借助Ref来获取组件内dom对象，借助defineExpose编译宏可以获取到子组件的属性和方法。 <script setup> import {onMounted, ref} from vue import Base from ./components/Base.vue import SetupDemo from ./components/SetupDemo.vue import Rea…

阅读更多...

探索C++中std::string的弱点：你可能未曾注意到的缺点

探索C++中std::string的弱点：你可能未曾注意到的缺点

C中std::string的弱点：你可能未曾注意到的缺点一、背景二、性能方面的局限三、可变性带来的问题四、内存管理和指针操作五、Unicode和多字节字符集的支持六、其他替代方案七、总结一、背景 C中std::string是一个非常重要的类，用于表示和处理字符串数据…

阅读更多...

无偿分享一个很有用的看源码小技巧

无偿分享一个很有用的看源码小技巧

怎么在 idea 里面查看 git 提交记录呢？这个界面是藏在哪里的呢，我的 idea 里面怎么没有呢？ 好的，是我疏忽了，我先入为主的认为这个大家应该都知道是怎么来的。但是确实是有一些同学是不太清楚的，那我这篇…

阅读更多...

Java设计模式-单例模式（2）

Java设计模式-单例模式（2）

大家好，我是馆长！从今天开始馆长开始对java设计模式的创建型模式中的单例、原型、工厂方法、抽象工厂、建造者的单例模式进行讲解和说明。单例模式（Singleton） 定义某个类只能生成一个实例，该类提供了一个全局访问…

阅读更多...

Docker技巧汇总

Docker技巧汇总

Docker技巧汇总前言使用流程安装配置镜像管理创建并运行容器使用容器/常用命令导出和导入查看元数据挂载数据卷端口映射/转发VS Code连接Docker 前言 Docker 是一个开源的应用容器引擎，可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中&#xf…

阅读更多...

2024年第十五届机械与智能制造技术国际会议(ICMIMT 2024)

2024年第十五届机械与智能制造技术国际会议(ICMIMT 2024)

2024年第十五届机械与智能制造技术国际会议(ICMIMT 2024)2024年5月17-19日南非开普敦会议官网： 15TH IEEE-ICMIMT 2024http://www.mimt.us/ 近年来，机械和智能制造技术取得了重大进展。先进计算和传感技术的集成带来了更精确、更高效和自动化的制造过…

阅读更多...

Pymol-电子密度图展示方法-PDB数据库已发表结构和自己晶体解析得到的结构密度图

Pymol-电子密度图展示方法-PDB数据库已发表结构和自己晶体解析得到的结构密度图

简单来说，想要用PyMol展示电子密度图可以归为以下两种： 一是展示PDB数据库中已发表数据的结构和Map的方式以6sps.pdb为例，在pymol中导入该数据密度图时，可以无需下载对应的密度文件，直接用fetch即可： Py…

阅读更多...

推荐文章

最新文章