【从零开始学爬虫】采集全国各行业经销商网点数据

news2024/12/25 0:27:33

l 采集网站

【场景描述】采集全国各行业经销商网点数据,以建材行业为例。

【源网站介绍】买购网MAIGOO.COM建材家居频道,专门提供地面材料、墙顶饰材、洁具五金、门窗楼梯、水电电工、外墙材料、照明灯饰、家纺布艺、家具定制等行业,最新品牌、知识文章、网购产品、图片等相关信息,致力于为客户提供简单便捷的信息查询体验。

【使用工具】前嗅ForeSpider数据采集系统,免费下载:http://www.forenose.com/view/commodity/forespider.html

【入口网址】

https://www.maigoo.com/shop/search/?catid=7&shoptypeid=6

【采集内容】

采集字段:经销商名称、地址、电话、代理品牌、简介。

图片

图片

【采集效果】如下图所示:

图片

l 思路分析

配置思路概览:

图片

l 配置步骤

1.新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

图片

2.获取翻页链接

在页面上观察网页结构,发现该页面翻页需要点击加载更多往下翻页,点击F12,打开开发者工具,继续翻页,发现开发者工具中出现新的请求,找到翻页链接的请求,并复制到出来。

图片

继续翻页,发现开发者工具中出现新的请求,找到翻页链接的请求,再次复制到出来。一下为复制出的两个翻页:

图片

观察发现,翻页链接中有个page参数是变化的,且为递增变化,其他都没有变化。来到ForeSpider,编写脚本如下所示:

图片

采集预览观察生成的链接,是否与网页中复制出来的翻页链接一致,如果一致则继续配置下一步。

图片

3.获取经销商列表链接

①新建模板02,在其下新建一个链接抽取模板,具体操作如下所示:

图片

②将模板01中的链接抽取,关联到模板02中去,如下图所示:

图片

③采集预览,如下图所示,观察各省份链接规律,发现链接规律为:https://www.maigoo.com/shop/一串数字.html。

图片

④地址过滤包含:https://www.maigoo.com/shop/\d.html的链接,其中\d表示一串数字串,即可把所需要的经销商链接过滤出来。

图片

4.抽取经销商数据

①新建模板03,在其下新建一个数据抽取模板,具体操作如下所示:

图片

②数据建表,按照下图所示建数据表。(注意字段属性等应严格按照下图进行设置)

图片

③将新建好的数据表,关联到模板中去,如下图所示:

图片

④填写示例地址

采集预览,复制任意一条省份的链接。

图片

⑤将链接粘贴到本模板示例地址中,并双击内置浏览器空白部分,加载本链接。

图片

⑥关联模板

将模板省份链接抽取模板关联模板03,如下图所示:

图片

⑧数据取值

使用定位取值和数据清洗的方法,com_字段如下所示:

图片

Addr字段同理,字段如下所示:

图片

Tel字段需要点击查看联系电话,才可以看到,在浏览器中,鼠标右键打开”查看网页源代码”,在源码中找到了电话,如下所示:

图片

Tel字段,用脚本从源代码中获取数据,如下所示:

图片

Brand字段如下所示:

图片

Content字段,如下图所示:

图片

⑨采集预览

采集预览如下图所示,说明配置成功,可以开始采集。如果有哪个字段或者数据没有出来,再次检查之前配置,正确配置模板。

图片

l 采集步骤

模板配置完成,采集预览没有问题后,可以进行数据采集。

①建立数据表单

选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为【jingxiaoshang】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。

图片

图片

②开始采集

选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

图片

③导出数据

采集结束后,可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。

图片

④导出的文件打开如下图所示:

图片

本教程仅供教学使用,严禁用于商业用途!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/797247.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode.189(轮转数组)

对于轮转数组这个题,文章一共提供三种思路,对于每种思路均提供其对应代码的时间、空间复杂度。 目录 1. 创建变量来保存最后一个数,并将其余数组向前挪动一位 : 1.1 原理解析: 1.2 代码实现: 2.创建一个…

【学习笔记】行为识别SOTA方法比较

这里写目录标题 前言方法1 基于CNN的方法Slow-fast: 2 基于Vision-Transformer的方法Video TimeSformer :Video Swin Transformer : 3、基于自监督的方法VideoMAE: 4、基于多模态的方法Intern video: 前言 常用行为识别数据集包括:HMDB-51、…

TL-ER3220G设置vlan

TL-ER3220G是企业宽带路由器。 自带5个RJ45接口。 其中接口1到接口4都可以接入宽带线路。最多可以并接4路。 本例由接口1接入宽带,默认接口2到接口4组成1个vlan,名称vlan。其中接口5特殊,带宽最大100M。 计划将接口2和接口4组成第一个vlan&…

STM32使用HAL库BH1750光照度传感器

开发环境 单片机:STM32F103C8T6 光照度传感器:BH1750 IDE:KEILSTM32CUBEMX 单片机配置 1、STM32CUBEMX BH1750代码 1、头文件 /* ************************************************* BH1750光照数据计算(LUX) …

H5和小程序测试点分析

最近接触了较多关于H5页面的测试,H5页面的测试除了业务逻辑功能测试外,其他部分的测试方法基本是可以通用的,在此对H5页面和小程序的一些通用测试方法进行总结分享给大家。 H5优势: 1.H5可以跨平台,开发成本相对较低…

中共湖南麒麟信安科技股份有限公司委员会召开庆祝建党102 周年暨“七一”表彰大会

为隆重庆祝中国共产党成立 102 周年,6月30日下午,中共湖南麒麟信安科技股份有限公司委员会召开庆祝建党102 周年暨“七一”表彰大会。麒麟信安党委书记王忠锋出席会议,党委副书记李广辉主持会议,全体党委委员、各支部委员、受表彰…

Gitlab 合并分支与请求合并

合并分支 方式一:图形界面 使用 GitGUI,右键菜单“GitExt Browse” - 菜单“命令” - 合并分支 方式二:命令行 在项目根目录下打开控制台,注意是本地 dev 与远程 master 的合并 // 1.查看本地分支,确认当前分支是否…

Elasticsearch-增删改查数据工作原理

集群 集群的基本概念: 集群:ES 集群由一个或多个 Elasticsearch 节点组成,每个节点配置相同的 cluster.name 即可加入集群,默认值为 “elasticsearch”。节点:一个 Elasticsearch 服务启动实例就是一个节点&#xff…

伦敦银定盘价机制的改变

一直以来,伦敦都是全球最大的现货白银定价中心,LBMA也是全球金银市场中最具有影响力的机构组织,其定盘价一直是世界各白银市场基准价的主要参考标准,被广泛应用于生产厂商、消费者和金融机构之间的交易结算,也是众多白…

刷题DAY 11

题目一 给定一个整型数组arr&#xff0c;和一个整数num某个arr中的子数组sub&#xff0c;如果想达标&#xff0c;必须满足&#xff1a;sub中最大值-sub中最小值<num&#xff0c;返回arr中达标子数组的数量 滑动窗口法,滑动窗口有两个行为1.右括 2.左缩 错误想法1: 当你已经…

工频耐压测试仪的使用方法

一、凯迪正大工频耐压试验装置使用方法 1、核对试验变压器&#xff0c;测量绕阻额定输出电压&#xff0c;使之与操作箱&#xff08;台&#xff09;相吻合。 2、按接线示意图接好试验变压器与操作箱&#xff08;台&#xff09;及感应调压器之间的联线。 3、接通电源&#xff0c;…

索引能优化查询,那么谈谈索引的优点和缺点?索引原理

面试必备&#xff1a;索引能优化查询&#xff0c;那么谈谈索引的优点和缺点?索引原理 简述&#xff1a; 优点: 第一&#xff0c;通过创建唯一性索引&#xff0c;可以保证数据库表中每一行数据的唯一性。 第二&#xff0c;可以大大加快数据的检索速度&#xff0c;这也是创建…

工程设计施工3D模型素材下载,全套1000+免费获取

在建筑设计和施工过程中&#xff0c;3D模型数据是至关重要的。设计师和工程师需要依赖高质量的3D模型数据进行方案优化、细节设计、施工规划和质量控制。因此&#xff0c;如何下载高质量的3D模型数据成为了一个重要的问题。 今天给大家免费提供一个“设计、施工3D模型数据下载…

推荐几个不错的免费配色工具网站

1. Paletton专业的配色套件,提供色轮理论及调色功能。可查看配色预览效果。 网站:http://paletton.com 2. Colormind一个基于机器学习的智能配色工具。可以一键生成配色方案。 网站:http://colormind.io 3. Adobe ColorAdobe官方的配色工具,可以从图片中取色,也可以随机生成配色…

ModStartCMS v6.9.0 后台多标签改进,主题色自动切换修复

ModStart 是一个基于 Laravel 模块化极速开发框架。模块市场拥有丰富的功能应用&#xff0c;支持后台一键快速安装&#xff0c;让开发者能快的实现业务功能开发。 系统完全开源&#xff0c;基于 Apache 2.0 开源协议&#xff0c;免费且不限制商业使用。 功能特性 丰富的模块市…

docker安装MySQL集群(一主一从)

目录 docker安装MySQL集群&#xff08;一主一从&#xff09;前菜测试MySQL 集群安装master容器slave容器master容器配置主从赋值测试 docker安装MySQL集群&#xff08;一主一从&#xff09; 前菜测试 1、拉取mysql5.7的镜像到本地 [rootaliyun ~]# docker pull mysql:5.72、…

优思学院|丰田公司的精益生产为什么让人敬佩?

因为丰田精益生产方式的成功不是偶然&#xff0c;它历经了50多年&#xff0c;从员工的教育训练着手&#xff0c;使他们能运用非常严格的问题解决程序&#xff0c;采用科学方法&#xff0c;针对各项活动、流程及制度不断地加以评估、检测与改进而自然形成的。事实上&#xff0c;…

【阿Q送书第四期】好书推荐《重构的时机和方法》

文章目录 背景概念介绍案例目录购书 送书规则 背景 最近公司正在组织 Code Review &#xff0c;看看之前为了赶项目写的代码&#xff0c;真的是一言难尽。所以想趁同事审查我的代码之前做点“小动作”&#xff0c;没错&#xff0c;我想说的就是“代码重构”。 对于工作时间较…

css设置背景图片和边框背景

介绍一个网站&#xff0c;在这个网站里可以找到各种好看的背景图片和边框图片。 数据大屏 &#xff08;代码是reactts&#xff0c;使用时请自行转换&#xff09; 一&#xff1a;设置页面背景图片 css部分 .productionBoard {width: 100%;height: 100%;padding: 0 2rem;box-si…

高效梳理商业模式,3个免费的精益画布模板网站!

精益画布是一种能够帮助创业者快速开发商业模式的工具&#xff0c;它广泛应用于初创公司、企业创新、新产品发布等领域&#xff0c;并且精益画布可以帮助创业者系统地归纳商业模式&#xff0c;并从中找到新的商业机会。本文将向大家介绍3款免费的精益画布模板网站&#xff0c;这…