后羿采集器快速入门----一款没有编程经验也能轻松使用的数据采集软件

news2024/10/6 22:24:45

后羿采集器快速入门

一、前言

不知道大家有没有苦恼于如何快速获取网页上的数据?想要进行大量重复性的操作但又要花费大量时间经历学习爬虫,这对于没啥编程基础的朋友们来说简直太不友好了!那么有没有一个软件,能够通过傻白甜式的操作,达到跟爬虫脚本一样的效果呢?

今天小编就要来推荐一款数据采集神器:后羿采集器啦!

后羿采集器(网站点这里!)是一款基于人工智能技术(已经到了人均人工智能吗)的数据采集软件,它能借助计算机视觉的技术和概念,自动识别采集内容,即使你没有任何编程基础,也能完成数据采集工作。例如下面的结构化数据采集,不需要编写一条语句!

说的再多不如动手试一试,下面本文将带来最基础的软件操作教程,保证一看就会!


二、软件安装

在官网https://www.houyicaiji.com/上选择立即下载,一路安装即可。


三、软件使用

安装好后打开的界面如下图所示,是不是感到一阵茫然?没关系,我们一项一项来看~

首先呢,我们做一个项目当然要对项目进行归档啦,这里我们需要新建一个分组!

这个加号图标就是新建分组!我们尝试创建一个分组Test01。

此时,我们可以在左侧栏找到Test01,点击看看,目前还没有任何任务

我们这里直接使用智能模式创建一个新任务!

不出意外的话,会弹出如下界面。我们先试试手动输入网址!

譬如,我们选择国科大新闻网进行数据采集:

将该网址输入到采集器中:

在这里插入图片描述

选择立即创建,很快啊,我们就能在采集器中看到该网页了!

在这里插入图片描述

通过上图我们可以发现,采集器自动识别了列表类型的页面,并且在下页显示为高亮!

如果不能正确识别的话,没有关系,我们还能手动进行监督修正!

在这里插入图片描述

在这里插入图片描述

这个瀑布流分页适用于微博评论那种下拉渲染的列表。

如果我们只需要前5页,可以选择设置采集范围

在这里插入图片描述

在这里插入图片描述

好了,我们现在捕捉到了容器列表,下一步的工作就是应该深入到内容文件中了!

选择深入采集,或者直接手动点击内容页面:

在这里插入图片描述

采集器会自动打开内容连接,并且进行识别!

为了收集到结构化数据,我们可以点击添加字段

在这里插入图片描述

此时,我们的鼠标样式变成了一根魔法棒,点哪里哪里亮!

在这里插入图片描述

我们只需要点击我们需要的文本,就能将其录入字段啦!
在这里插入图片描述

那么接下来,需要做的就是数据预处理了!右击字段,我们可以修改字段名:

在这里插入图片描述

在这里插入图片描述

此时我们发现,这个时间不对呀,急急急,有没有办法修改呢?还是右键,数据处理

在这里插入图片描述

这里我们新建一个步骤,可以按照正则、文本等等方式进行处理!

在这里插入图片描述

将文本替换掉,就得到了我们需要的数据!

在这里插入图片描述

这里我们只做个简单的演示,其他功能还请自行探索~

处理完单页后,我们就可以开始采集啦!

在这里插入图片描述

在这里插入图片描述

选择启动,然后就会转跳到提取页面:

在这里插入图片描述

此时我们看到,程序已经在逐个提取格式化数据了。

采集完成后,我们就可以将数据导出了。

在这里插入图片描述

最终就能收集到结构化的数据啦!

在这里插入图片描述

我们也可以将我们的任务导出,让其他人进行复现!

在这里插入图片描述

在左框框上点击这个像下载一样的图标!

在这里插入图片描述

然后就能选择我们之前保存的任务进行导入啦!最后的步骤也就是再点击一下开始采集!

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/385511.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【设计模式】代理模式

代理模式 为某个对象提供一种代理,以控制其他对象对这个对象的访问。属于结构型模式。 某些情况下,一个对象A不适合或者不能引用、直接访问某个对象B,而代理对象可以在客户端A和目标对象B之间起到中介作用 代理模式主要有三个重要角色: 抽…

【推拉框-手风琴】vue3实现手风琴效果的组件

简言 在工作时有时会用到竖形手风琴效果的组件。 在此记录下实现代码和实现思路。 手风琴实现 结构搭建 搭建结构主要实现盒子间的排列效果。 用flex布局或者其他布局方式将内容在一行排列把每一项的内容和项头用盒子包裹, 内容就是这一项要展示的内容&#xf…

python16行代码获取原神全角色+全语音

前言 大家早好、午好、晚好吖 ❤ ~欢迎光临本文章 本来是不玩原神的,但是实在是经不住双重诱惑呀~ 毕竟谁能拒绝角色风景超级好看又可以爬树、炸鱼、壶里造房子、抓小动物、躲猫猫的游戏捏~ 今天点进官网~角色得配音让我沉陷其中,于是 我决定把他们爬…

数据库可视化开发工具内容介绍

在现代化办公环境中,数据管理的重要性不言而喻。对于企业来说,将企业内部的数据做好规划和管理,可以给企业提升办公协作效率,为企业高层做出正确的经营决策奠定基础。本文主要给大家介绍的是数据化可视化开发工具的内容&#xff0…

狂神Springmvc,404,500错误解决办法(灵)

b站狂神springmvc404&#xff0c;500解决办法 首先校验各个文件是否正确 配置web.xml <?xml version"1.0" encoding"UTF-8"?> <web-app xmlns"http://xmlns.jcp.org/xml/ns/javaee"xmlns:xsi"http://www.w3.org/2001/XMLSche…

HLS协议有哪些特别优势

阿酷TONY / 2023-3-3 / 长沙 可以实现码率的动态自适应&#xff0c;清晰度动态成为可能&#xff1b;HLS是基于HTTP 协议的&#xff0c;更易于做各平台的适配与兼容&#xff1b;多终端跨平台的支持性&#xff1a; PC端, Android端, IOS 平台&#xff0c;微信之类的都支持&am…

C++中邻接矩阵、邻接表、链式前向星具体用法及讲解

图论在提高组中几乎占据半壁江山&#xff0c;而今天要讲的就是如何存储一个图一.邻接矩阵原理要建立一个图&#xff0c;根本的要素就是边和点而想要让计算机存储边和点就需要用到一些数据结构邻接矩阵是最简单的他使用了一个二维数组&#xff0c;来表示一个图假设数组名为map那…

彻底搞清楚内存泄漏的原因,如何避免内存泄漏,如何定位内存泄漏

作为C/C开发人员&#xff0c;内存泄漏是最容易遇到的问题之一&#xff0c;这是由C/C语言的特性引起的。C/C语言与其他语言不同&#xff0c;需要开发者去申请和释放内存&#xff0c;即需要开发者去管理内存&#xff0c;如果内存使用不当&#xff0c;就容易造成段错误(segment fa…

Spark Streaming DStream转换

DStream上的操作与RDD的类似&#xff0c;分为Transformations&#xff08;转换&#xff09;和Output Operations&#xff08;输出&#xff09;两种&#xff0c;此外转换操作中还有一些比较特殊的算子&#xff0c;如&#xff1a;updateStateByKey()、transform()以及各种Window相…

打造优秀项目团队的3个核心原则

优秀的项目团队必须是高绩效的&#xff0c;而打造这样优秀团队需要3个核心原则&#xff1a;共同的目标、专业的技能和高效的协作。 1、共同的项目目标 项目团队的共同目标就是实现项目的交付成果。项目经理以远景宏大的方式将目标传递给团队成员&#xff0c;以激发团队成员的战…

jeesite多环境配置

jeesite多环境配置 参考网址&#xff1a; https://blog.csdn.net/shaoming314/article/details/129115912?spm1001.2014.3001.5501 开源项目地址&#xff1a; https://gitee.com/thinkgem/jeesite Spring Spring MVC mybatis Ehcache shiro mysql jsp (主要技术栈) 项目…

【大数据离线开发】8.3 Hive的数据模型

8.4 Hive的数据模型 Hive的数据存储 基于HDFS没有专门的数据存储格式存储结构主要包括&#xff1a;数据库、文件、表、视图可以直接加载文本文件&#xff08;.txt文件&#xff09;创建表时&#xff0c;指定Hive数据的列分隔符与行分隔符 8.4.1 内部表 hive 的内部表类似 My…

hexo静态网站部署到腾讯云cos

hexo支持很多部署方案&#xff0c;最直接的就是部署在GitHub Pages服务上&#xff0c;国内gitee、coding等代码托管平台也都支持静态网站服务&#xff0c;而且免费。 但是GitHub在国内访问不太稳定&#xff0c;国内的代码托管平台资源和服务也不太稳定&#xff0c;后来想了想&…

windows安装tomcat

这里写自定义目录标题tomcat官网下载安装包并解压环境变量配置启动tomcat访问http://localhost:8080/修复启动出现乱码问题tomcat官网下载安装包并解压 环境变量配置 系统环境变量新增&#xff1a; 变量名&#xff1a;CATALINA_HOME 变量值&#xff1a;tomcat的安装目录 编辑…

使用MAT进行内存分析,并找到OOM问题

前言 在处理一次现场问题时&#xff0c;发现服务还在运行&#xff0c;但是出现假死情况&#xff0c;后通过分析GC日志以及使用MAT分析确定问题是内存溢出OutOfMemery(OOM)&#xff1b;这里只记录MAT分析学习过程,最近工作忙&#xff0c;补记录。 GC日志分析 首先&#xff0c;如…

EM@三角函数诱导公式

文章目录诱导公式单位圆坐标和三角函数记忆口诀符号看象限奇变偶不变例常用诱导公式&#x1f388;常用部分(5对)倒数关系六种三角函数间的转换关系小结ReflectionsShifts and periodicity诱导公式 诱导公式 - 维基百科&#xff0c;自由的百科全书 (wikipedia.org) 单位圆坐标…

推送投票制作微信推送里投票制作教程在线投票活动制作

近些年来&#xff0c;第三方的微信投票制作平台如雨后春笋般络绎不绝。随着手机的互联网的发展及微信开放平台各项基于手机能力的开放&#xff0c;更多人选择微信投票小程序平台&#xff0c;因为它有非常大的优势。1.它比起微信公众号自带的投票系统、传统的H5投票系统有可以图…

一文看懂网上下单的手机流量卡为什么归属都是随机的!

最近很多网上下单的小伙伴们心中似乎都有一个疑问。那就是网上很多手机卡、流量卡都不能自选号码和归属地&#xff0c;就算能自选号码&#xff0c;归属地也是随机的而且很多都不会跟你说具体的城市&#xff0c;这是为什么呢&#xff1f;莫非其中有什么不可告人的秘密吗?小伙伴…

JetBrains IntelliJ支持自动切换输入法,写代码如丝般顺滑

背景简介对于母语为中文的开发者&#xff0c;写代码过程中经常需要在中/英输入法之间进行切换&#xff0c;而且由于不清楚当前处于哪种输入状态&#xff0c;有时输入到一半发现输入法错了&#xff0c;删除重新输入&#xff0c;有时切换了好几次都没有成功&#xff0c;实在太影响…

【强化学习】强化学习数学基础:蒙特卡洛方法

强化学习数学方法&#xff1a;蒙特卡洛方法举个例子举个例子1&#xff1a;投掷硬币The simplest MC-based RL algorithm举个例子2&#xff1a;Episode lengthUse data more efficientlyMC without exploring starts总结内容来源将value iteration和policy iteration方法称为mod…