【从零开始学爬虫】采集食品行业最新报价数据

news2024/11/23 17:35:56

l 采集网站

【场景描述】采集食品行业最新报价数据。

【源网站介绍】中国报告大厅网休闲食品行业数据频道提供休闲食品行业数据信息,在此有大量休闲食品行业数据信息可供选择,是一个可以帮助休闲食品行业了解数据的平台。

【使用工具】前嗅ForeSpider数据采集系统,免费下载:

ForeSpider爬虫软件

【入口网址】

http://www.chinabgao.com/stat/c_leisure-food/

【采集内容】

采集食品行业的标题、内容,发布时间最新报价基本数据。

【采集效果】如下图所示:

l 思路分析

配置思路概览:

l 配置步骤

1.新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

选择【抽取链接】的所有链接,勾选【列表链接】和【普通翻页】,然后点击【完成】。

2.获取标题链接

采用地址过滤的方法来抽取表一链接,具体如下所示:

①观察规律

点击采集预览,先观察标题链接规律,找到规律,很明显标题链接中都包含:http://www.chinabgao.com/jiage/规律的数字.html

②设置地址过滤

过滤含“http://www.chinabgao.com/jiage/\d.html”的链接,\d表示一串数字,这样就把列表链接过滤出来了。

3.抽取翻页链接

①设置连接过滤

使用链接过滤的方法来获取翻页链接,先采集预览,打开列表链接预览结果,找到翻页链接并观察规律,发现其中都包括:“http://www.chinabgao.com/stat/c_foods/index_页数.html”

②设置地址过滤

过滤包含“http://www.chinabgao.com/stat/c_foods/index_\d.html”的链接,\d表示一串数字,这样就把翻页链接过滤出来了。

③关联模板

点击【列表链接】抽取,关联模板02;

点击【普通翻页】抽取,关联模板01。

4.抽取数据

①新建抽取模板

在其下新建一个数据抽取,具体操作如下所示:

②数据建表

按照下图所示建数据表。(注意字段属性等应严格按照下图进行设置)

③数据表关联模板

将新建好的数据表,关联到模板中去,如下图所示:

④填写示例地址

采集预览,复制任意一条列表链接。

⑤加载链接

将链接粘贴到本模板示例地址中,并双击内置浏览器空白部分,加载本链接。

⑥识别标题

选择数据抽取模板,然后如下图所示,识别标题。

⑦识别发布时间

选择数据抽取模板,然后如下图所示,识别发布时间。

⑧识别内容

选择数据抽取模板,然后如下图所示,识别内容。

⑨采集预览

采集预览如下图所示,说明配置成功,可以开始采集。如果有哪个字段或者数据没有出来,再次检查之前配置,正确配置模板。

l 采集步骤

模板配置完成,采集预览没有问题后,可以进行数据采集。

①建立数据表单:

选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,关联数据表名称自定义,这里命名为【Chinareport】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。

②开始采集

选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

③导出数据

采集结束后,可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。

④导出的文件打开如下图所示:

本教程仅供教学使用,严禁用于商业用途!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/144264.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

hbase2.x orphan regions on filesystem

问题描述:orphan regions on filesystem 可以通过主master web页面的HBCK Report查看 也可以通过hbck2工具查看 # 查看指定表 hbase hbck -j $HBASE_HOME/lib/hbase-hbck2-1.3.0-SNAPSHOT.jar addFsRegionsMissingInMeta default:tableName # 查看命名空间下所有…

Git分支开发中的问题

前言我们在开发中,经常是很多人开发同一份代码,早期没有git工具的时候那可真是噩梦,要复制来复制去,不止繁琐,还容易出错,所以后来涌现了各种代码工具,Svn,Git等等,而Git…

一、mysql基础、MySQL的安装及卸载、DML、DQL

MySQL基础 1、数据库相关概念 以前我们做系统,数据持久化的存储采用的是文件存储。存储到文件中可以达到系统关闭数据不会丢失的效果,当然文件存储也有它的弊端。 假设在文件中存储以下的数据: 姓名 年龄 性别 住址 张三 23 男 北京西三…

干货|app自动化测试之Andriod WebView如何测试

Hybrid App(混合模式移动应用)是介于 Web-app、Native-app 之间的 app,本质上是 Native-app 中嵌入 WebView 组件,在 WebView 组件里可以访问 Web App。Hybrid App 在给用户良好交互体验的同时,还具备了 Web App 的跨平…

Python数学建模问题总结(2)数据可视化Cookbook指南【源自Google可视化团队】

今天跟大家分享一套谷歌数据可视化团队形成的全面的数据可视化指南,涵盖了设计原则、图表分类、图表的选用、样式设计、交互设计、仪表板设计等方面。一、可视化问题不论你是从事数据相关工作,还是业务相关工作,或多或少都会需要用到数据可视…

docker 部署maven服务器用于项目的部署和发布

书接上文 现状: 已经搭建好了maven远程服务器,并将自己的项目从自己的pc部署到maven远程服务器.假设了kie-server集群可以每个node都连接这个远程服务器 要做的: 1.创建kie-server集群的时候设置环境变量. 2.看是否能连上自己搭建的maven服务器.3.如果2 ok 把kie-server需要…

干货|app自动化测试之Appium 原理 与 JsonWP 协议分析

想要使用 Appium 进行测试,那么就一定要先了解Appium的原理。Appium 不仅能够实现移动端的 JSONWP,并且延伸到了 Selenium 的 JSONWP,它能够控制不同移动设备的行为,例如通过会话安装和卸载 APP。Appium 原理图中依赖关系解释&…

MySQL高级 【视图】

目录 1:视图 1.1:介绍 1.2:语法 1.3:检查选项 1.4:视图的更新 1.5:视图作用 1.6:案例 1:视图 1.1:介绍 视图(View)是一种虚拟存在的表。…

一文看懂什么是「低代码」!低代码真的能取代程序员吗?

早在数年前,亚马逊、微软、阿里、腾讯等国内外巨头公司就已纷纷入局“低代码”赛道,而很多人连低代码是什么,究竟有什么用都不太知道。 本文就从概念讲起,结合三个生动的行业案例,一文讲通“什么是低代码”。 文章有…

【强训】Day03

努力经营当下,直至未来明朗! 文章目录一、选择二、编程1. 字符串中找出连续最长的数字串2. 数组中出现次数超过一半的数字答案1. 选择2. 编程普通小孩也要热爱生活! 一、选择 以下代码运行输出的是() public class …

都2023了,为什么选择Nacos,这篇文章让你入门Nacos

👳我亲爱的各位大佬们好😘😘😘 ♨️本篇文章记录的为 Nacos入门 相关内容,适合在学Java的小白,帮助新手快速上手,也适合复习中,面试中的大佬🙉🙉🙉。 ♨️如果文章有什么…

传奇开服一条龙GEE引擎登录器配置教程

1、首先我们打开我们版本文件夹找到登录器文件夹进入找到GEE登录器配置器(MakeGameLogin.exe)打开2、接下来开始填写我们的主列表和备列表,这时候我们要自己创建一个列表,因为登录器自带的列表肯定是读取不了的,我们在…

Speckle核心概念【3D数据引擎】

本节将详细介绍你的3D数据如何发送到 Speckle 并存储在 Speckle 中。 无论你是 Speckle 的新手还是只是需要复习,这都是一个很好的起点! 1、关于Speckle术语 我们尽量使本指南简单明了,删除了技术语言,除非绝对必要。 值得注意的…

页面表格中每行前添加复选框,点击复选框导出本行数据(掉后端接口)

需求如下:html表格中,每行前面添加一个复选框,单机复选框下载/到处本行数据 思路: 页面: 页面首先要添加复选框,然后点击复选框,调用导出方法 同时获取到与它对应的数据库唯一id信息&#xf…

Seata 1.6.0 正式发布,大幅度提升存储性能

作者:Seata 社区 用户登记* * 欢迎已使用用户在此链接登记,便于我们更好的针对业务场景优化: https://github.com/seata/seata/issues/1246 发布概览* * 主要新增特性:支持 oracle 和 pgsql 多主键;支持 seata-ser…

芯片+步进电机档位控制实验

1、系统功能 目的:学习步进电机的控制。 使用设备:步进电机、两位共阴数码管、按键 功能:驱动步进电机以不同转速(4档)转动,并将当前档位用数码管显示 (1)按键 KEY1 作为启动和停止的切换按键;…

【Git】Git概述与安装

1、Git 概述 Git 是一个免费的、开源的分布式版本控制系统,可以快速高效地处理从小型到大型的各种项目。 Git 易于学习,占地面积小,性能极快。 它具有廉价的本地库,方便的暂存区域和多个工作流分支等特性。其性能优于 Subversio…

SwitchResX for Mac 屏幕分辨率修改工具

前言 SwitchResX V4.12.1 是Mac上一款功能强大的屏幕分辨率修改软件,可以为您提供控制显示器分辨率所需的所有工具。在switchresx帮助下,您可以管理无论是Mac Retina显示器,Cinema Displays还是电视机甚至投影仪的任何分辨率。而且switchres…

C语言-三子棋

文章目录三子棋一、问题描述二、基本流程在写三子棋的代码之前,我们来看看实现这个游戏的逻辑:三、步骤1. 菜单界面2. 创建棋盘3. 棋盘初始化4.打印棋盘(1)简陋棋盘:(2)自己打印棋盘:5.玩家落子6.电脑落子7.判断胜负1) 判定是否和…

CAPL学习之路-测试功能集函数(最终篇,其他的一些函数介绍)

TestSetEcuOffline 断开ECU与总线的连接 这个ecu是仿真ecu,不是真实ecu哦! testcase TCExample() {testSetEcuOffline(Engine); }void MainTest () {TCExample(); }Trace窗口: TestSetEcuOnline 将ECU连接到总线 testGetCurrentCycle 返回测试的当前周期 这里不管怎么试都返…