【从零开始学爬虫】采集全国各地历年房价数据

news2024/11/22 23:53:33

l 采集网站

【场景描述】采集全国各地历年房价数据。

【源网站介绍】58同城—国内专业的“本地、免费、真实、高效”生活服务平台!

【使用工具】前嗅ForeSpider数据采集系统,免费下载:

http://www.forenose.com/view/commodity/forespider.html

【入口网址】

https://www.58.com/fangjiawang/

【采集内容】

采集58同城上全国各省份历年房价数据。 

【采集效果】

如下图所示:

l 思路分析

配置思路概览:

l 配置步骤

1.新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

2.获取年份链接

采用链接过滤的方法来抽取年份链接,具体如下所示:
①点击采集预览,先观察年份链接规律,找到规律,很明显年份链接中都包含:https://www.58.com/fangjiawang/quanguo-

②设置地址过滤,过滤包含“https://www.58.com/fangjiawang/quanguo-”的链接,这样就把年份链接过滤出来了。

3.获取城市链接

①新建模板02,在其下新建一个链接抽取模板,具体操作如下所示:

②将模板01中的链接抽取,关联到模板02中去,如下图所示:

③采集预览,如下图所示,观察各省份链接规律,发现链接规律为:https://www.58.com/fangjiawang/sheng-年份-编码/。

④地址过滤包含:https://www.58.com/fangjiawang/sheng-\d-\d/的链接,其中\d表示一串数字串,即可把所需要的省份链接过滤出来。

4.抽取房价数据

①新建模板03,在其下新建一个数据抽取模板,具体操作如下所示:

②数据建表,按照下图所示建数据表。(注意字段属性等应严格按照下图进行设置)

③将新建好的数据表,关联到模板中去,如下图所示:

④填写示例地址

采集预览,复制任意一条省份的链接。

⑤将链接粘贴到本模板示例地址中,并双击内置浏览器空白部分,加载本链接。

⑥关联模板

将模板省份链接抽取模板关联模板03,如下图所示:

⑦识别列表

选择数据抽取模板,然后如下图所示,识别列表。

发现降价地区的数据均被选中。

⑧数据取值

使用定位取值和数据清洗的方法,year_字段如下所示:

city字段如下所示:

price字段如下所示:

rate字段如下所示:

⑧采集预览

采集预览如下图所示,说明配置成功,可以开始采集。如果有哪个字段或者数据没有出来,再次检查之前配置,正确配置模板。

⑨由于在第⑦步识别列表中,仅识别了房价下降的地区的数据,所以再建一个数据抽取,来识别房价上升的地区的数据。

⑩操作步骤同上,获取房价上升的地区的数据。配置好后采集预览,如下所示:

l 采集步骤

模板配置完成,采集预览没有问题后,可以进行数据采集。

①建立数据表单:

选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为【quanguofangjia】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。

②开始采集

选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

③导出数据

采集结束后,可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。

④导出的文件打开如下图所示:

本教程仅供教学使用,严禁用于商业用途!

l 前嗅简介

前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/752938.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

正则表达式与“三贱客”

第三阶段基础 时 间:2023年7月11日 参加人:全班人员 内 容: 正则表达式与“三贱客” 目录 shell脚本的基本应用: 一、正则表达式与grep 2)正则表达式的组成 1)正则表达式grep常见的选项 2&…

《向量数据库指南》:向量数据库Pinecone关键概念和工作流程

目录 用例 关键概念 向量搜索 向量嵌入 向量数据库 工作流程 定价和部署选项 开始使用 介绍PINECONE向量数据库 Pinecone使构建高性能的向量搜索应用程序变得轻松。 它是一个托管的、云原生的向量数据库,具有简单的API和无需基础架构的优势。 Pinecone具有以下特…

[论文分享]SimMIM:一种简单的掩模图像建模框架

文章地址:https://arxiv.org/abs/2111.09886 代码地址:GitHub - microsoft/SimMIM: This is an official implementation for "SimMIM: A Simple Framework for Masked Image Modeling". 1 摘要 本文介绍了SimMIM,这是一个用于掩模…

React初学者需要的库从哪里下载?

在react官网下载react.js的方法介绍 1、访问react的github官方页面 访问地址为:Downloads | Reacthttps://react-cn.github.io/react/downloads.html 2、点击Download页面中的"Download Starter Kit"按钮,进行下载 学react的时候用到了babe…

波士顿矩阵模型:产品定位

波士顿矩阵 波士 顿 矩 阵 (BCG Matrix) 又称市 场 增 长 率 — 相 对 市 场 份 额 矩 阵 、波士顿咨 询 集 团 法、四象限分析法、 产 品系列 结 构管理法等。 波士 顿 矩 阵是由美国大型商业 咨 询 公司 —— 波士 顿 咨 询 集 团 首 创 的一种 规 划企业产品 组 合的方法。…

什么是统一建模语言(UML)UML与UML类图的基本概念

什么是统一建模语言UML(Unified Modeling Language) UML(统一建模语言)是一种通用的建模语言,用于描述软件系统的结构、行为和交互。它提供了一组符号和规则,用于创建可视化的图形模型,帮助开发…

【雕爷学编程】Arduino动手做(149)---MAX9814咪头传感器模块6

37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&am…

resolvecomreference任务返回了false,但未记录错误

IDE从VS2015升级到了VS2022,然后就报了这个错,百度搜了下,没有啥结果,后来发现,2015可以用的一个dll在2022不能用了,把不能用的dll移除即可

VxLAN学习

目录 什么是VXLAN 为什么需要VXLAN 虚拟机动态迁移,要求提供一个无障碍接入的网络 什么是服务器虚拟化技术? 什么是虚拟机动态迁移? VXLAN如何满足虚拟机动态迁移时对网络的要求? 数据中心租户数量激增,要求提供…

TIOBE 2023年7月编程语言排行榜:C++即将超越C!

一、TIOBE统计数据(2023年7月) TIOBE Index编程社区指数是编程语言流行度的一个指标。评级基于全球熟练工程师的数量、课程和第三方供应商的数量。Google、Bing、Yahoo!、维基百科、亚马逊、YouTube 和百度等流行搜索引擎用于计算评级。 七月头条&#…

性能测试工具 Jmeter 测试 JMS (Java Message Service)/ActiveMQ 性能

目录 前言 ActiveMQ 介绍 准备工作 编写jndi.properties添加到ApacheJMeter.jar 中 下载 ActiveMQ 配置 Jmeter 进行测试 点对点 (Queues 队列) 配置 Jmeter 进行测试 发布/订阅 (Topic 队列) 配置发布 Publisher 配置订阅 Subscriber 总结 前言 JMeter是一个功能强大…

【Java】如何有效防止API的重放攻击?API接口防止参数篡改?

文章目录 前言一、API接口常见的安全防护要做到主要有以下几点:二、请求参数防篡改三、防止重放攻击3.1、基于timestamp的方案3.2、基于nonce的方案3.2、基于timestamp和nonce的方案3.3、微信公众号如何保证消息不会被重放攻击 前言 API重放攻击(Replay Attacks)又…

uniapp调接口出现跨域问题。

今天在写uniapp项目的时候,使用在线模拟接口的时候,出现跨域问题。 【问题描述】: ①在内嵌浏览器运行,不会出现跨域问题,好像是内嵌浏览器自动去掉了跨域问题。 ②在外部浏览器调用的时候会出现跨域问题。&#xf…

Yalmip工具箱使用教程(2)-决策变量进阶

博客中所有内容均来源于自己学习过程中积累的经验以及对yalmip官方文档的翻译:https://yalmip.github.io/tutorials/ 1.决策变量的定义 1.1 sdpvar 上文简单介绍了sdpvar函数的用法,接下来将对其进行详细介绍。复习一下,sdpvar函数的基本语…

常用化合物谱图数据库查询系统-40个软件免费查!

化学图谱是用于描述化学物质结构和性质的图形化表示方法,在有机化学、材料科学、生物化学、药物化学等领域都被广泛的应用研究分析。不同类型的化学谱图适用于不同的化学分析和研究领域,为此笔者调研了常用化合物谱图数据库及各个类型的主流使用化学谱图…

(RX200)R5F52315ADFP/R5F52318ADFL/R5F52316CDFL微控制器基于RXv2 32位内核,54MHz 闪存 LQFP

RX200 32位微控制器 (MCU) 在功率效率和性能之间实现了平衡。这些MCU在工作模式下的电流消耗为0.12mA/MHz,在待机模式下的电流消耗仅为0.8μA(保留RAM内容)。RX200 MCU具有54MHz的最高CPU运行速度,可提供4.16 CoreMark/MHz的高性能…

Home Assistant 南方电网 计算电费

目录 1.China Southern Power Grid Statistics集成2.获取当月用电情况3.计算电费然后在UI上显示3.效果 1.China Southern Power Grid Statistics集成 链接 2.获取当月用电情况 因为我的电费是固定的,没有阶梯电价 用电量 * 0.63906875 电费 3.计算电费然后在UI…

ESXI8.0安装教程,在VMware Workstation安装esxi

文章目录 🐟前言🐟安装🐟在VMware WorkStation中创建虚拟机🐟ESXI部署安装🐟安装完成后配置 🐟前言 ESXI8.0版本开始最低RAM从以前的4GB变为8GB 本文所使用到的镜像以及Key都可以到我的网站中下载 地址&…

Python——— 面向对象

(一)初识面向对象 Python完全采用了面向对象的思想,是真正面向对象的编程语言, 完全支持面向对象的基本功能,例如:继承、多态、封装等。 Python 支持面向过程、面向对象、函数式编程等多种编程范 式。 Pyth…

数据结构初阶--排序2

目录 前言快速排序思路hoare版本代码实现挖坑法代码实现前后指针法代码实现 快排优化三项取中法代码实现三指针代码实现 快排非递归代码实现 归并排序思路代码实现归并非递归代码实现 计数排序思路代码实现 前言 本篇文章将继续介绍快排,归并等排序算法以及其变式。…