数据挖掘 | 零代码采集房源数据,支持自动翻页、数据排重等

news2025/1/19 3:06:44

1 前言

城市规划、商业选址等应用场景中经常会对地区房价、地域价值进行数据分析,其中地区楼盘房价是分析数据中重要的信息参考点,一些互联网网站上汇聚了大量房源信息,通过收集此类数据,能够对地区房价的分析提供参考依据。

如何收集此类数据呢,互联网上提供了众多工具或代码,然后对于普通用户均有较高的使用门槛,并且需要调试用户体验不太理想,工作量也较大。

下面以目标网址为例:

上海楼盘网,上海新房一手房,上海房产网信息网,新开楼盘在售上海楼盘信息 - 安居客

为解决此类用户需求痛点,本着“所见所得”的设计理念,小O历时半年时间,重新对小O网兜软件进行重构,摈弃原有的使用思路,提升软件功能的同时,更加提升软件应用的灵活性,力求为用户提供更加实用的网页信息收集软件,这个过程中,反复测试,适配多种类型网页,面对及其复杂的网页内容结构,反复修改功能,再多次自我使用、测试、颠覆的状态中,终于发布新版本 0231,功能上超越之前版本,更加灵活可配置。

复杂功能和易用性有时难两全,软件在使用操作方面仍然有一定的门槛,好在软件也提供了数据模板功能,通过下载配置好的模板,用户可以跳过配置直接启动采集(不断扩充模板...),希望新版能够满足您数据采集上的需求,助力提升工作效率。

下文将以采集二手房源信息为例,带领大家感受软件功能。

本文操作流程概览

2 操作步骤

下载软件

登录官网 www.gis9.com ,首页往下滚动,下载【小O网兜】。

软件无需安装,下载后直接运行,可能会被防火墙或者软件管家之类的软件拦截,请将软件添加到信任列表里。

软件启动后进入主界面如图,请注册登录后使用软件。

新建任务

点击软件左上方网格球图标,打开任务向导窗口,可以新建和打开xop扩展名的任务文件。

当然,也可以直接从模板库中下载模板。

注意:任务文件保存着采集目标网页、采集的数据等信息,请妥善保存好。

本例子选择新建采集任务,设置任务文件保存目录,软件打开空的任务界面。如下图

打开目标网址,并新建采集规则,自动创建一组采集动作。

配置任务

依次配置每个动作的参数

【打开页面】

-- 该动作是让浏览器打开目标网址。

切换至动作参数,将当前网址复制到网址集合参数项里。如下图,点击批量生成后,会在列表页中新增网址记录。

【扫描页面】

-- 自动扫描页面所有元素,此动作无需配置。

如果目标页面带有向下滚动加载数据,可将超时参数设置大些,以便让程序自动将页面向下滚动,加载更多数据。

  • 滚动幅度:控制页面向下滚动的速度,值越大则越快。
  • 运行超时:控制页面滚动时长,可适当调大。

【读取数据】

-- 该动作从页面读取数据并保存至表格中。

  • (一) 点击【数据表】,弹出界面配置,新建存储表,默认会有一个表存储数据。如有需求,可以新建新表存储数据。

  • (二) 在读取数据Tab页中,点击数据块 / 新建菜单,新建读取数据块,如下图依次选择保存字段。对照页面设置需要采集的字段。

  • (三) 配置字段采集的数据,如下图,依次点击,使用[选择元素],在页面上右键选中目标元素,定位到[网页树]节点,在节点右键菜单,选[设置字段目标元素],设置目标元素至选中的字段。

  • (四) 选中[读数据块1],上图中 1 位置,需设置读取数据块和数据行。

  • (五) 点击字段,在页面下方有取值预览,调整参数获得想要的数据结果。
  • -- 设置参数[目标元素],在网页树选中节点,右键菜单,设置目标元素。
  • -- 设置取值参数,对值进行处理,预览值显示在下方。

  • (六) 点击表格,在页面下方能预览所有表格数据,页面中数据正确预览在表格中。

【翻页动作】

-- 设置翻页动作,执行后页面会自动翻页,提供多种方式翻页

查找和设置目标元素设置同上

设置翻页页码

  1. 点下一页按钮:设置下一页翻页,设置下一页目标元素,每次模拟翻页,可设置翻页执行次数。
  2. 逐个页码:设置页码翻页,设置翻页元素和页码,在页码中找到元素后执行翻页。

设置完成后, 可点击动作鼠标右键,单步执行该动作,验证页码是否翻页。

至此所有动作均配置完成。

执行任务

可挨个动作点击右键,执行单步,逐一执行动作。

也可以点击执行(循环),循环执行多有动作。下图,程序会进行运行直到结束。

异常情况,运行期间可能会出现异常情况,

1、 网页反扒,需要人工点击,此时可能会导致动作执行失效,人工点击验证后,再从任务点击右键继续循环执行。

2、 目标元素为找到,导致无法翻页。

导出数据

执行完毕后,打开【数据表】窗口,对采集数据进行处理后,导出CSV文件,可应用再其他软件中。

导出前,可对数据进行简单处理

--- 删除重复记录:选择 页码URL和标题作为唯一值进行排重

--- 导出数据:将表格数据导出CSV文件,可在EXCEL软件中打开表格。

到此就是小O网兜复制网页信息的全过程,感兴趣的朋友可登陆官网下载软件。

3 小结

小O网兜除了提供模板任务供用户直接下载并采集数据,也提供自定义配置功能,由用户自助式实现采集流程。本文以房源数据为例,介绍采集房源数据的操作流程,通过本文用户能够掌握房源数据采集任务的配置过程,满足中介、科研机构、高校研究等用户自定义采集需求。小O网兜提供开放式、可视化、配置化的采集功能,能够采集绝大多数网页的列表数据和自动翻页操作,实现无人留守自动采集。

后续作者还将继续对标其他优秀同类软件,新增更多操作简便、实用、易用的软件功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/896051.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ld链接文件和startup文件分析和优化--基于RT1176

ld链接文件关系到程序的代码段数据段bss段及其用户自定义段的运行位置,ld文件中的各个段都会在main函数之前,从加载域拷贝到运行域中。本章将具体介绍如何修改ld和startup文件。 软件平台:VSCODEGCC工具链 硬件平台:rt1176开发板…

如何在HTML中使用React

突发奇想 查了查真的可以,官方文档: 在网站中添加 React – React 开始 引入js <!-- 开发环境使用 --><script src"https://unpkg.com/react18/umd/react.development.js"></script><script src"https://unpkg.com/react-dom18/umd/reac…

ROS局部路径规划器插件teb_local_planner流程梳理(下)

在我之前的文章《ROS导航包Navigation中的 Movebase节点路径规划相关流程梳理》中已经介绍过Move_base节点调用局部路径规划器插件的接口函数是computeVelocityCommands&#xff0c;本部分来&#xff0c;我们从这个函数入手梳理teb_local_planner功能包的工作流程。 ☆注&#…

进入银行科技部半年,已经丧失跳槽的能力了

大家好&#xff0c;我是锋哥!&#xff01; 学弟分享 我是一个杭州双非的本科生&#xff0c;2022届毕业之后进了某银行的科技部工作&#xff0c;年包 20w。 当时想着在银行也算是一份安稳的工作&#xff0c;因此选择了给钱最多的一个&#xff0c;想着自己走上了金融 科技的赛…

Compose - 修饰符 Modifier

一、概念 四大使用场景&#xff1a; 修改外观&#xff08;尺寸、样式、布局、行为&#xff09;。添加额外信息&#xff08;如无障碍标签&#xff09;。添加交互功能&#xff08;点击、滚动、拖拽、缩放&#xff09;。处理用户输入。 1.1 为组合函数添加 Modifier 参数 任何一…

Linux网络编程:网络基础

文章目录&#xff1a; 1.协议 2.锁 3.网络层次模型 4.以太网帧和ARP协议 5.IP协议 6.UDP协议 7.TCP协议 8.BS模式和CS模式 9.网络套接字(socket) 10.网络字节序 11.IP地址转换函数 12.sockaddr地址结构 学习Linux的网络编程原则上基于&#xff1a;Linux的系统编程…

中大许少辉博士《乡村振兴战略下传统村落文化旅游设计》中国建筑工业出版社八一付梓。

中大许少辉博士《乡村振兴战略下传统村落文化旅游设计》中国建筑工业出版社八一付梓。

gdb调试的经验基本流程处理

一、启动调试 1、gdb启动 gdb启动非常简单&#xff0c;只要直接执行下面的命令&#xff1a; gdb exename(调试文件的名称)2、设置参数 如果需要调试的程序需要输入参数怎么办呢&#xff1f;有三种方法可以实现&#xff1a; a、在启动调试程序时使用命令参数设置 gdb --args …

Linux中启动docker 出现 ‘ Failed to start docker.service: Unit not found. ’ 错误

启动docker 出现 ‘ Failed to start docker.service: Unit not found. ’ 错误 这是因为缺少 rhel-push-plugin.socket 单元&#xff0c;该单元是rhel-push-plugin软件包的一部分。所以我们执行以下指令就可以成功解决&#xff1a; curl -sSL https://get.docker.com/ | sh 执…

搭建redis集群

前言 redis 集群分为一下几种&#xff1a; 【主从模式】&#xff1a;一般情况大多都是读多写少的情况&#xff0c;主从模式可以将读写分离&#xff0c;主库写&#xff0c;从库只负责读取的情况&#xff0c;这从如果任何一个从库宕机的情况&#xff0c;整个集群仍然可以提供工作…

使用GUI Guider工具开发嵌入式GUI应用(6)-切换多screen换场景

使用GUI Guider工具开发嵌入式GUI应用&#xff08;6&#xff09;-切换多screen换场景 本节将展示使用GUI Guider实现切换显示页面功能。 这里设计的用例是&#xff1a; 创建3张页面&#xff0c;screen_0,screen_1和screen_2。分别在每个页面上中放置一个Label&#xff08;最…

仿牛客论坛项目day7|Kafka

一、阻塞队列 创建了一个生产者线程和一个消费者线程。生产者线程向队列中放入元素&#xff0c;消费者线程从队列中取出元素。我们可以看到&#xff0c;当队列为空时&#xff0c;消费者线程会被阻塞&#xff0c;直到生产者线程向队列中放入新的元素。 二、Kafka入门 发布、订阅…

亿图脑图MindMaster思维导图及亿图图示会员-超值途径

亿图脑图MindMaster思维导图及亿图图示会员 先简单看一下这两软件&#xff1a; MindMaster 亿图图示 丰富的社区&#xff0c;便捷易操作的界面&#xff0c;还有耐看的UI设计&#xff1b;要是再有点特权&#xff0c;真的是锦上添花~ 如果需要MindMaster思维导图或者亿图图示VIP…

Android Retrofit原理浅析

官方地址:Retrofit 原理:Retrofit 本质上是代理了OKhttp,使用代理模式,Type-Safe 类型安全 编译器把类型检查出 避免类型错误, enqueue 异步 切换线程 execute 同步 不切换线程 enqueue:Call接口定义的抽象方法 Retrofit.Create() 方法首先验证接口validateServiceInterf…

ps吸管工具用不了怎么办?

我们的办公神器ps软件&#xff0c;大家一定是耳熟能详的吧。Adobe photoshop是电影、视频和多媒体领域的专业人士&#xff0c;使用3D和动画的图形和Web设计人员&#xff0c;以及工程和科学领域的专业人士的理想选择。Photoshop支持宽屏显示器的新式版面、集20多个窗口于一身的d…

小数据 vs 大数据:为AI另辟蹊径的可操作数据

在人工智能背景下&#xff0c;您可能已听说过“大数据”这一流行语&#xff0c;那“小数据”这一词呢&#xff0c;您有听说过吗&#xff1f;无论您听过与否&#xff0c;小数据都无处不在&#xff1a;线上购物体验、航空公司推荐、天气预报等均依托小数据。小数据即一种采用可访…

webpack 和 ts 简单配置及使用

如何使用webpack 与 ts结合使用 新建项目 &#xff0c;执行项目初始化 npm init -y会生成 {"name": "tsdemo01","version": "1.0.0","description": "","main": "index.js","scripts&…

java_免费文本翻译API_小牛翻译

目录 前言 开始集成API 纯文本翻译接口 双语对照翻译接口 指定术语翻译接口 总结 前言 网络上对百度&#xff0c;有道等的文本翻译API集成的文章比较多&#xff0c;所以集成的第一篇选择了小牛翻译的文本翻译API。 小牛翻译文本翻译API&#xff0c;支持388个语种&#xff0…

CrossOver2023快速在Mac和Linux系统上运行Windows软件

让您可以在 Mac 和 Linux 系统上运行 Windows 应用&#xff0c;不必购买 Windows 授权&#xff0c;不必重启系统&#xff0c;不必使用虚拟机。通过 CrossOver&#xff0c; 您可以从 dock 直接启动 Windows 应用&#xff0c;与您的 Mac 和 Linux 系统功能无缝集成。 无需重启 Cr…

强训第35天

选择 A 经过一个1->2 经过两个2->4 开始慢增长 4->5 5->6....9->10 到达4KB时变成慢增长&#xff0c;最多增长到10 D 网络号是180.80.76 但题目让向主机所在子网发广播 180 .80 .(01001101 | 111111 11)79 .255 标红的两位属于主机号所以答案为D A C 分片的组…