【从零开始学爬虫】采集58同城房源数据

news2024/11/26 1:39:24

本文以采集北京市58同城房源数据为例进行演示:

l 采集网站

【场景描述】采集58同城房源数据。

【使用工具】前嗅ForeSpider数据采集系统

http://www.forenose.com/view/commodity/forespider.html

【入口网址】

https://bj.58.com/xiaoqu/?PGTID=0d000000-0000-0ba1-7883-439f3be19550&ClickID=1

【采集内容】

采集房屋的类型、小区名、平均单价、竣工时间、地址、介绍、所属区、所属城市等。

图片

【采集效果】

图片

l思路分析

图片

l配置步骤

1.新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

图片

2.获取各区链接

①点击右上角采集预览,观察各区链接地址规律。

图片

其规律为:https://+字母(城市首字母)+.58.com/xiaoqu/+数字+/

②使用地址过滤的方法,将字母链接过滤,\c表示字母串,\d表示数字串。

图片

③观察发现还有其他链接,如“北京周边”,使用标题过滤的方法将其过滤掉。

图片

3.获取各房龄链接

①新建模板02,在其下新建一个链接抽取。

图片

②将模版01的链接抽取,关联至模版02:

图片

③采集预览,并观察房龄链接的规律:

图片

发现其规律为:https://+字母(城市首拼音)+.58.com/xiaoqu/+数字+/f+数字+/

④使用地址过滤的方法,将词语链接过滤出来(\c表示字母串、\d表示数字串):

4.抽取房屋数据

①新建一个数据表单,具体步骤和字段属性如下所示:

图片

②新建模板03,在该模板下新建一个数据抽取。

图片

③将模板02关联至模板03:

图片

④关联数据表单,如下图所示:

⑤在浏览器中,点击F12,打开开发者工具,如下图所示,使用指针,快速找到所需数据在源码中的位置:

图片

图片

 ⑥根据数据结构,使用脚本抽取数据,具体如下:

var str=DOM.GetSource().ToStr();
var a=DOM.FindClass("list-cell","div").child;
record re;
for(i=0;i<25;i++){
	re.id=MD5(URL.urlname)+i;
	re.type_="二手房";
	re.name_=DOM.GetTextAll(a.child.next.child);
	re.addr=DOM.GetTextAll(a.child.next.child.next);
	re.text=DOM.GetTextAll(a.child.next.child.next.next);
	re.price=DOM.GetTextAll(a.child.next.next.child);
	re.year_=DOM.GetTextAll(a.child.next.child.next).Left("竣工");
	re.qu=DOM.GetTextAll(a.child.next.child.next).Middle("竣工 ","-");
	re.city="鹤岗";
	re.sj=URL.title;
	a=a.next;
	RESULT.AddRec(re,this.schemaid);
}

⑦采集预览,如下图所示:

图片

 配置好模板以后就可以采集数据了,数据采集教程请参考:

http://www.forenose.com/view/help/course/spider/55.html?cId=31&type=1&dId=85

*本教程仅供学习交流,严禁用于商业用途!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2100585.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【小呆的热力学笔记】理想热力循环

文章目录 5.理想热力循环5.1 卡诺定理5.2 卡诺循环5.3 逆向卡诺循环 5.理想热力循环 5.1 卡诺定理 考虑这样的一个实际的热力循环&#xff0c;其过程为存在一个高温热源&#xff0c;工作介质从该高温热源中吸取热量Q1&#xff0c;其中一部分通过工作介质对外做功转化为机械功…

idea安装并使用maven依赖分析插件:Maven Helper

在 IntelliJ IDEA 中安装并使用 Maven Helper 插件可以帮助你更方便地管理 Maven 项目的依赖&#xff0c;比如查看依赖树、排除冲突依赖等。以下是安装和使用 Maven Helper 插件的步骤&#xff1a; 安装 Maven Helper 插件 打开 IntelliJ IDEA 并进入你的项目。 在 IDE 的右下…

【408 数据结构】第1章绪论

文章目录 绪论考纲DS 基本概念1. 基本概念2. 数据结构三要素 算法&#xff08;时/空间复杂度计算&#xff09;1. 算法概念2. 算法效率的度量时间复杂度&#xff1a;空间复杂度&#xff1a; 小结 绪论 考纲 计算时间复杂度和空间复杂度&#xff08;重点难点&#xff09; DS …

简化物业数据管理:使用 Indexify 进行高级数据提取和检索

使用 Indexify 进行文档查询的分步指南。欢迎来到雲闪世界。 添加图片注释&#xff0c;不超过 140 字&#xff08;可选&#xff09; 总结&#xff1a; 传统的数据提取方法通常会错过非结构化内容的更深层次的见解&#xff0c;尤其是在房地产领域。 本文探讨使用 Indexify&…

Mental-LLM——通过在线文本数据利用大型语言模型进行心理健康预测

概述 源码地址&#xff1a;https://github.com/neuhai/Mental-LLM.git 论文地址&#xff1a;https://arxiv.org/abs/2307.14385 在一项关于哪些法律硕士适合精神健康护理的研究中&#xff0c;对以下五种法律硕士进行了比较 羊驼-7b。羊驼-LoRA。FLAN-T5-XXLGPT-3.5GPT-4. 作…

TLS连接的握手过程

TLS&#xff08;传输层安全协议&#xff09;握手过程是客户端&#xff08;如浏览器&#xff09;和服务器&#xff08;如网站&#xff09;之间建立安全连接的一系列步骤。以下是TLS握手的详细过程&#xff1a; 图片来自Vector 1. 客户端问候&#xff08;Client Hello&#xff0…

PHP一键发起灵活定制多功能投票小程序系统源码

​一键发起&#xff0c;灵活定制 —— 多功能投票小程序 &#x1f680;【开篇&#xff1a;告别繁琐&#xff0c;投票新体验】&#x1f680; 还在为组织投票活动而头疼不已吗&#xff1f;繁琐的流程、有限的选项、难以统计的结果...这些都将成为过去式&#xff01;今天&#x…

将python项目打包成一个可执行文件(包含需要的资源文件)

目标 项目源码是采用Python编写&#xff0c;代码中需要读取部分资源文件。现在需要将项目打包成一个exe文件&#xff0c;没有其他任何多余文件&#xff0c;仅1个exe文件。 打包 安装pyinstaller 在自己项目的虚拟环境中&#xff0c;安装pyinstaller。注意一定要是虚拟环境&…

亚马逊运营秘籍:这些冷门知识,你不可不知!

今天&#xff0c;小编将揭秘几个鲜为人知的亚马逊运营冷知识&#xff0c;让我们一同探索并学习吧&#xff01; 退货佣金扣除&#xff1a;当买家提出退货时&#xff0c;无论是部分退款还是全额退款&#xff0c;亚马逊会直接从卖家账户中扣除20%的佣金&#xff0c;剩余的80%则返还…

Java导出图片到excel

1、例如你有这样一个集合&#xff0c;具体结合你的业务场景 Data public class Student {/*** 姓名*/private String xh;/*** 学号*/private String xm;/*** 照片*/private byte[] zp; }2、相关代码 RequestMapping(value "/quereImgByPkid/{pkid}",method Requ…

【数据分享】地级市-国际互联网用户数(2001-2019年)

数据介绍 在当今数字化时代&#xff0c;互联网已经成为人们生活中不可或缺的一部分。今天&#xff0c;我们为大家带来一份极具价值的数据资源 —— 地级市 - 国际互联网用户数&#xff08;2001 - 2019 年&#xff09;。 这份涵盖了近二十年的数据&#xff0c;清晰地展现了各地…

Google上架:PAD的三种分发模式之install-time分发(减小包体上架,适用于包体大于150MB,小于1.15GB的包体)

近期技术服务在升级,抽空写一下关于上架部分的难点,今天来讲一下关于包体过大解决办法中的PAD分发(install-time分发)模式,希望能给好兄弟们带来帮助。 注意!!!这个方法适用于包体大于150MB,小于1.7GB这个区间的包体,不在这个区间的小伙伴可以跳过这个文章,直接私聊…

华为 HCIP-Datacom H12-821 题库 (6)

有需要题库的可以看主页置顶 V群仅进行学习交流 1.转发表中 FLAG 字段中B 的含义是&#xff1f; A、可用路由 B、静态路由 C、黑洞路由 D、网关路由 答案&#xff1a;C 解析&#xff1a; 可用路由用U 表示&#xff0c;静态路由用 S 表示&#xff0c;黑洞路由用 B 表示&#x…

交叉编译 mpfr

文章目录 交叉编译 mpfr1 概述2 源码下载3 交叉编译 交叉编译 mpfr 1 概述 MPFR&#xff08;Multiple Precision Floating-Point Reliable&#xff09;是一个用于高精度浮点数计算的开源库&#xff0c;它提供了高精度的浮点数运算和函数库&#xff0c;适用于需要处理大数或高精…

有哪些开学必备好物推荐?2024年盘点推荐五款高性价比数码好物!

新的学期&#xff0c;新的开始。在 2024 年开学季&#xff0c;为了让同学们更好地投入学习和生活&#xff0c;拥有更便捷、高效的体验&#xff0c;我精心测评盘点并推荐五款高性价比数码好物。这些数码好物不仅能满足学习需求&#xff0c;还能为课余生活增添乐趣&#xff0c;是…

35~750kV 变电站无人值守与集中监控的智能运维模式

1、引言 电力行业的快速发展和电网规模的持续扩张&#xff0c;使得传统的变电站运维模式日渐不能满足现代电网对于安全性、可靠性和效率的更高要求。因此&#xff0c;向无人值守与集中监控过渡&#xff0c;已经逐渐成为了整个行业发展的主旋律。 2、关键技术支撑 2.1 自动化监…

CAE小白入门:HyperMesh的使用和帮助

1.1.3 启动 HyperMesh (1) On PC • 从起始菜单&#xff0c;选择 All Programs >Altair HyperWorks (version) > HyperMesh Desktop。 • 右击上述程序创建软件启动快捷方式&#xff0c;点击快捷方式。 (2) On UNIX • 在命令窗口点击 <install directory>/sc…

提升RAG检索回答质量: Shortwave的 4 大优化指南

这篇文章就针对 RAG 检索这个问题提供一些思路, 以 Shortwave 这家 AI 邮件助手公司的设计思路作为案例,真的很难有公司把产品详细技术机制公布出来 本文在01 部分还针对"微调和 RAG,到底选哪个? " , " 有了支持超长上下文窗口的 LLM,是否还需要 RAG"进行…

城市数字化转型中的机遇:中小型企业产品选型指南

随着城市数字化转型的浪潮席卷全球&#xff0c;中小型企业正面临着前所未有的机遇与挑战。如何精准选型&#xff0c;以最小的成本实现最大的效益&#xff0c;成为众多中小型企业关注的焦点。作为一款低代码开发平台&#xff0c;百数为中小型企业提供了一个高效、便捷、低成本的…

Aigtek功率放大器的参数是什么意思

功率放大器是电子电路中的一种重要组件&#xff0c;用于增加输入信号的幅度&#xff0c;以便驱动负载&#xff0c;如扬声器或天线。在设计和使用功率放大器时&#xff0c;有许多关键参数需要考虑&#xff0c;这些参数影响着功率放大器的性能和适用性。下面将详细介绍功率放大器…