爬虫学习 | 01 Web Scraper的使用

news2024/9/22 15:35:56

目录

背景介绍:

第一部分:Web Scraper简介

1.什么是Web Scraper:

Web Scraper🛒

主要用途:

2.为什么选择Web Scraper:

第二部分:安装Web Scraper

​​​​​1.打开google浏览器,点击>扩展程序,点击>访问chrome应用商店

2.搜索web scraper,并下载如下:

第三部分:详细爬取步骤

1.选择目标网站:

2.定义选择器:

1.新建一个sitemap:

2.命名,输入网址,点击>create sitemap:

3.确定并创建一些爬取的内容:

1.点击chinadaily进入

2.创建选择器,点击selector

3.选择器创建具体操作:

4.创建自己想要爬取的东西:

​编辑

5.爬取具体信息

6.开始爬取

第四部分:数据导出与后续处理

数据导出:

1.CSV (Comma-Separated Values)

2.Excel


背景介绍

        在当今数字化时代,我们被海量信息所包围。数据已成为企业和个人决策过程中不可或缺的资源。无论是市场研究、产品分析、客户洞察还是趋势预测,获取准确和及时的数据是至关重要的。然而,许多有价值的数据散布在互联网的各个角落,以非结构化的形式存在,不易直接使用。这就是Web Scraper发挥作用的地方。

        Web Scraper是一个强大的工具,它允许用户自动化地从网页中提取信息。与传统的手动数据收集相比,Web Scraper可以大幅提高数据获取的效率和准确性。它通过模拟人类的浏览行为,访问网页并从中抓取所需的数据,然后将其转换为结构化格式,方便进一步分析和使用。

第一部分:Web Scraper简介

1.什么是Web Scraper

Web Scraper🛒

         是一款专为浏览器设计的插件,它允许用户通过一个直观的图形用户界面(GUI)来创建数据抓取规则,无需编写任何代码。用户可以通过选择网页上的元素来定义抓取点,然后让插件自动地从这些元素中提取数据。Web Scraper支持多种浏览器,包括但不限于Chrome和Firefox,使其可以轻松集成到用户的日常工作流程中。

主要用途

市场研究:收集竞争对手的价格、产品信息等。

客户洞察:从社交媒体和论坛中提取用户反馈和评论。

内容聚合:自动收集新闻、博客文章或其他在线内容。

数据监控:定期抓取特定网页上的数据变化,用于趋势分析。

个性化数据收集:根据用户需求定制抓取特定数据。

2.为什么选择Web Scraper

用户友好:Web Scraper提供了一个简单易用的界面,即使是没有编程经验的用户也能快速上手。

无需编码:与需要编写代码的抓取工具相比,Web Scraper允许用户通过选择器直观地定义抓取规则。

实时预览:在定义选择器时,用户可以实时预览抓取结果,确保准确性。

自动化处理:一旦设置完成,Web Scraper可以自动执行抓取任务,减少人工干预。

多页面支持:Web Scraper能够处理分页数据,自动抓取多个页面上的信息。📈

第二部分:安装Web Scraper

​​​​​1.打开google浏览器,点击>扩展程序,点击>访问chrome应用商店

2.搜索web scraper,并下载如下:

第三部分:详细爬取步骤

1.选择目标网站

我选择的ChinaDaily,可以自己爬取出来当作外刊阅读~~:China Daily Website - Connecting China Connecting the World

进入之后,点击>F12,会显示出  开发者工具(Developer Tools),如下:

然后观察功能,找到最后一个Web Scraper,点击进入:

2.定义选择器

1.新建一个sitemap:

2.命名,输入网址,点击>create sitemap:

我想爬取一点最近的实时,所以选择了美洲,不是在首页哦😊

3.确定并创建一些爬取的内容:

浏览首页,选择一个新闻标题作为数据点,使用Web Scraper的元素选择器工具,点击标题,自动生成选择器。

1.点击chinadaily进入

2.创建选择器,点击selector

3.选择器创建具体操作:

选择:element,记住要选:mutiple

select的时候,先选第一个,再选相似的第二个,这样就能自动选上所有相似的

4.创建自己想要爬取的东西:

按照自己需求创,一般都是text类型,链接用link,图片用image,别的,,(我也是初学,还不会用 ~ ~ )

5.爬取具体信息

点击链接进入之后,可以接着创建想要的信息。记得选择link对应的选择器名字

我的是这样子的:

6.开始爬取

点击scrape

继续点击

爬取的时候会有个弹窗,不要管,爬取完了自己就关掉了

点击refresh,就会有下面的数据了

第四部分:数据导出与后续处理

数据导出

1.CSV (Comma-Separated Values)

用途:CSV是一种广泛使用的数据格式,它以纯文本形式存储表格数据,字段之间用逗号分隔。CSV文件易于使用,可以被大多数电子表格软件(如Microsoft Excel、Google Sheets)和数据库应用程序直接打开和处理。

2.Excel

用途:Excel文件(通常是.xls.xlsx格式)是微软的电子表格格式,广泛用于数据的存储、计算和可视化。Excel提供了丰富的数据处理功能,包括公式、图表、数据透视表等。

具体操作:

到这一步,已经成功爬取了新闻,可以当外刊读了~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1928402.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

实验六:频域图像增强方法

一、实验目的 熟练掌握频域滤波增强的各类滤波器的原理及实现。分析不同用途的滤波器对频域滤波增强效果的影响,并分析不同的滤波器截止频率对频域滤波增强效果的影响。二、实验原理 ① Butterworth 低通滤波器:一种具有最大平坦通带幅度响应的滤波器。它的特点是在通带内具…

WPF实现一个带旋转动画的菜单栏

WPF实现一个带旋转动画的菜单栏 一、创建WPF项目及文件1、创建项目2、创建文件夹及文件3、添加引用 二、代码实现2.ControlAttachProperty类 一、创建WPF项目及文件 1、创建项目 打开VS2022,创建一个WPF项目,如下所示 2、创建文件夹及文件 创建资源文件夹&…

redis讲解与介绍

Redis介绍: Redis 是一个开源(BSD许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。 它支持多种类型的数据结构,如 字符串(strings), 散列&#x…

linux adb命令

⏩ 大家好哇!我是小光,正在努力寻找自己的职业方向。 ⏩ 在调试设备时,经常会用到adb命令,本文对linux adb命令做一个知识分享。 ⏩ 感谢你的阅读,不对的地方欢迎指正。 1.adb命令 即 Android Debug Bridge 是一种允许…

从产品手册用户心理学分析到程序可用性与易用性的重要区别

注:机翻,未校对。 Designing for People Who Have Better Things To Do With Their Lives 为那些生活中有更重要事情要做的人设计 When you design user interfaces, it’s a good idea to keep two principles in mind: 在设计用户界面时,…

数据库:编程(打开、操作(增、删、改、查)、关闭)

一、需要的头文件 sqlite3.h 二、编译过程 gcc xxx -lsqlite3 三、编程框架 打开数据库 》读写数据库(增,删,改,查) 》关闭数据库 3.1 打开数据库: sqlite3_open int sqlite3_open(char * path,sqlite3 ** db); 功能&…

docker持久化

上周学习了docker的dockerfile,这周会往下学习一下docker的持久化;提到持久化,首先会涉及到一个UnionFS的概念; 1、什么是UnionFS? docker创建镜像的时候,会将各种依赖包括操作系统OS、工具包、依赖库等都放在文件系…

Zookeeper之CAP理论及分布式一致性算法

CAP理论 CAP理论告诉我们,一个分布式系统不可能同时满足以下三种 一致性(C:consistency)可用性(A:Available)分区容错性(P:Partition Tolerance) 这三个基本要求,最多只能同时满足…

内容长度不同的div如何自动对齐展示

平时我们经常会遇到页面内容div结构相同页,这时为了美观我们会希望div会对齐展示,但当div里的文字长度不一时又不想写固定高度,就会出现div长度长长短短,此时实现样式可以这样写: .e-commerce-Wrap {display: flex;fle…

小程序-模板与配置

一、WXML模板语法 1.数据绑定 2.事件绑定 什么是事件 小程序中常用的事件 事件对象的属性列表 target和currentTarget的区别 bindtap的语法格式 在事件处理函数中为data中的数据赋值 事件传参 (以下为错误示例) 3.事件传参与数据同步 4.条件渲染 …

人工智能算法工程师(中级)课程13-神经网络的优化与设计之梯度问题及优化与代码详解

大家好,我是微学AI,今天给大家介绍一下人工智能算法工程师(中级)课程13-神经网络的优化与设计之梯度问题及优化与代码详解。 文章目录 一、引言二、梯度问题1. 梯度爆炸梯度爆炸的概念梯度爆炸的原因梯度爆炸的解决方案 2. 梯度消失梯度消失的概念梯度…

十九、【文本编辑器(五)】排版功能

目录 一、搭建框架 二、实现段落对齐 三、实现文本排序 一、搭建框架 (1) 在imgprocessor.h文件中添加private变量: QLabel *listLabel; //排序设置项QComboBox *listComboBox;QActionGroup *actGrp;QAction *leftAction;QAction *…

实践致知第16享:设置Word中某一页横着的效果及操作

一、背景需求 小姑电话说:现在有个word文档,里面有个表格太长(如下图所示),希望这一个设置成横的,其余页还是保持竖的! 二、解决方案 1、将鼠标放置在该页的最前面闪烁,然后选择“页面”》“↘…

Macbook pro插移动硬盘没反应,Macbook pro移动硬盘读不了怎么办 macbook插移动硬盘后无法使用

为了弥补Macbook pro硬盘容量的缺失,我们有时候会使用到外接硬盘或移动硬盘。一般来说,这些硬盘都是即插即用的,可能部分要安装插件。不过,在一些特殊情况下,也会遇到插硬盘没反应等问题。本文会给大家解答Macbook pro…

PyTorch张量创建和随机数生成器算法

文章目录 1、基本创建方式1.1、根据已有数据创建张量1.2、根据已有数据创建张量1.3、根据已有数据创建张量 2、创建线性和随机张量2.1、创建线性空间的张量2.2、创建随机张量2.3、什么是随机数种子2.4、initial_seed()和manual_seed() 3、创建01张量3.1、全0张量3.2、全1张量3.…

PGCCC|【PostgreSQL】PCP认证考试大纲#postgresql 认证

PostgreSQL Certified Professional PCP(中级) PCP目前在市场上非常紧缺,除了具备夯实的理论基础以外,要有很强的动手能力,获得“PCP(中心)“的学员,将能够进入企业的生产系统进行运…

MongoDB自学笔记(二)

一、前言 接着上一篇文章,在上一篇文章中学习了如何使用数据库、如何创建集合、如何往集合里添加文档,今天我们继续学习一下更新文档,更新文档相对来说比较复杂笔者打算分多次来记录学习过程。 二、文档操作 1、更新文档 基础语法&#x…

爬虫-requests和Selenium

1、了解requests的功能 1.1 使用post和get发送请求 HTTP中常见发送网络请求的方式有两种,GET和POST。GET是从指定的资源请求数据,POST是向指定的资源提交要被处理的数据。 GET的用法: import requestsr requests.get("https://www.…

面试题010-数据库-MySQL(MySQL+索引)

面试题010-数据库-MySQL(MySQL索引) 目录 面试题010-数据库-MySQL(MySQL索引)题目自测题目答案1. MySQL是什么?有什么优点?2. 什么是SQL注入?如何解决SQL注入?3. MyISAM 和 InnoDB 有什么区别?4. SQL在MySQL数据库中的…

【论文阅读】LLM4GCL: CAN LARGE LANGUAGE MODEL EMPOWER GRAPH CONTRASTIVE LEARNING?

LLM4GCL: CAN LARGE LANGUAGE MODEL EMPOWER GRAPH CONTRASTIVE LEARNING? https://openreview.net/forum?idwxClzZdjqP 图对比学习的重点就是图数据的增强,针对图中节点的表示或者图的结构进行扰动,通过对比学习得到对应的节点表示,以便于…