spider-flow可视化爬虫界面从入门到放弃

news2025/1/10 12:35:38

目录

  • 下载编译部署
    • 官网地址
    • 编译
    • 部署
      • 启动
  • 简单使用
    • 输出文件方式
    • 可以正常执行的任务
  • 自定义任务
    • 获取小说名
  • 总结

下载编译部署

官网地址

  • 修改端口、数据库、存放地址、执行文件等配置(前后端不分离,配置文件端口即页面登录端口)
    spider-flow-web/src/main/resources/application.properties
    在这里插入图片描述

  • 初始化数据库,执行db/spiderflow.sql
    在这里插入图片描述

编译

  • mvn clean install
    在这里插入图片描述
    在这里插入图片描述

  • 编译好的部署包位置

在这里插入图片描述

部署

在这里插入图片描述

启动

nohup java -jar spider-flow.jar  >/dev/null 2>&1 &

在这里插入图片描述

简单使用

输出文件方式

  • 项目中自动初始化四个任务,任务输出可以输出到表(数据源管理)或者csv文件中(不指定文件后缀及路径,默认就是文本文件,位置就在项目部署更目录下)
    在这里插入图片描述
    在这里插入图片描述
  • 执行任务
    在这里插入图片描述
  • 查看日志
    在这里插入图片描述
  • 爬取到数据,日志中会打印出来(下图即未爬取到数据,也没有输出)
    在这里插入图片描述
  • 创建输出表,选择输出到表,依然没有输出
    在这里插入图片描述

测试了半天看不到输出文件,难道是因为没下载驱动?
在这里插入图片描述

下载驱动丢到对应目录下,重启,再次尝试,依然没有输出文件
在这里插入图片描述
在这里插入图片描述

可以正常执行的任务

  • 爬取码云GVP
    在这里插入图片描述
    在这里插入图片描述

  • 每日菜价
    在这里插入图片描述
    在这里插入图片描述
    还乱码了,改成UTF-8也乱码
    在这里插入图片描述

自定义任务

参照可以正常输出的任务,尝试自定义爬虫任务,放弃吧,一点也不简单,感觉毫无章法可言

获取小说名

  • 获取该页面的小说名称
    在这里插入图片描述
  • 找到关键字
    在这里插入图片描述
  • 定义各节点
    在这里插入图片描述
  • 定义循环节点,不然是所有的小说名输出到一条记录中
    在这里插入图片描述
  • 遍历输出小说名
    在这里插入图片描述
  • 输出
    在这里插入图片描述
  • 测试结果
    在这里插入图片描述
  • 测试输出文件
    在这里插入图片描述

总结

可视化给人的感觉就是简单易操作,小白都可以轻易上手,在爬虫方面算是小白,但是作为一名程序员,这一套流程走下来,我觉得一点也不简单,更别说纯小白了,主要是没有帮助文档(网站已经禁用了),只能参照执行成功的任务在那一点一点调试,具体一些语法也不清楚,所以感觉还是有难度的,我也是好奇,看了别人分享的文章,感觉好像很简单,结果发现网上一堆一样的文章,全是从官网下载的,几个gif图片,没了,简直可耻,没有亲自实验过就乱发!!!
在这里插入图片描述
最后都放弃了,结果参照这篇博客超详细spiderflow实践教程,又试了一把,勉强跑成功了吧!以后应该不会碰了,毕竟这玩意不安全,一不小心端上铁饭碗了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/816708.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vite+Vue3 开发UI组件库并发布到npm

一直对开源UI组件库比较感兴趣,摸索着开发了一套,虽然还只是开始,但是从搭建到发布这套流程基本弄明白了,现在分享给大家,希望对同样感兴趣的同学有所帮助。 目前我的这套名为hasaki-ui的组件库仅有两个组件&#xff0…

Meta AI研究团队新AI模型: Llama 2 大语言模型

Llama是Facebook Research团队开发的基础语言模型集,旨在提供广泛的语言理解能力。它基于转换器架构,参数范围从7B到65B。通过使用Llama模型,研究人员和开发人员可以构建更先进的自然语言处理系统。您可以在GitHub上找到相关的代码和资源&…

JIT 与 C#热更

JIT与AOT 一般程序运行有两种方式,静态编译与动态编译。 AOT: Ahead Of Time,预先(静态)编译 静态编译的程序,需要在执行之前全部翻译为机器码,运行前会使得程序安装时间相对较长,但程序运行的时候&#…

TDengine时区设置

一般来说,时序数据就是带有时间序列属性的数据。在处理时序数据时,TDengine有着自己独特的方式。但是如果没有正确理解TDengine在写入和查询上的行为,极可能会因为配置了错误的时区(timezone),而导致写入和…

《怎样顺利通过答辩:论文答辩的策略与技巧》

最近在阅读《怎样顺利通过答辩这本书》,记录一下阅读获取的关键信息和心得。 目录 第一章 答辩是什么 在答辩前你需要做到以下几件事情,核查清单如下: 答辩根据考生及其研究的质量,服务于不同的目的: 通常意义上的…

面向对象编程三大特征

1、基本介绍 面向对象编程有三大特征:封装、继承和多态。 1.1封装介绍 1.2封装的理解和好处 1.3封装的实现步骤 (三步) 2、面向对象编程-继承 2.1为什么需要继承 2.2继承基本介绍和示意图 继承可以解决代码复用,让我们的编程更加靠近人类思维.当多个类存在相同的…

rtabmap 主从机 rviz 订阅 /rtabmap/mapData 时报错

在实体小车上跑rtabmap算法,在rviz上订阅 /rtabmap/mapData 话题时不显示建图信息并且报错: [ERROR] [xxxxxxxx]: Client [/rviz] wants topic /rtabmap/mapData to have datatype/md5sum [rtabmap/mapData/xxxxxxxxxxxxx], but our version has [rtabm…

【腾讯云 Cloud Studio 实战训练营】Redisgo_task 分布式锁实现

文章目录 前言问题场景腾讯云 Cloud Studio Redisgo_task长短类型分布式场景介绍Redisgo_task实现原理SetNx(valueexpire)原子性子协程Done()时间点子协程中的Ticker Redisgo_task唯一外部依赖Redisgo_task Lock结构Redisgo_task架构健壮性设计Redisgo_task可扩展性Redisgo_tas…

ALLEGRO之FlowPlan

本文主要讲述了ALLEGRO的FlowPlan菜单。 (1)Auto Bundle:暂不清楚; (2)Create Bundle:暂不清楚; (3)Delete Bundle:暂不清楚; &…

earth靶机详解

earth靶机复盘 靶场下载地址:https://download.vulnhub.com/theplanets/Earth.ova 这个靶场还是非常有意思的,值得去打一下。 我们对拿到的ip进行一个单独全面的扫描,发现有两个DNS解析。 就把这两条解析添加到hosts文件中去,要…

IO进程线程第三天(7.31)time,localtime,文件io函数:open,umask,close,write,read,lseek,stat,

用read函数完成图片文件拷贝 #include<stdio.h> #include<head.h> int main(int argc, const char *argv[]) {//umask(0);//将文件权限掩码改为0&#xff0c;使得其他用户可写int fd open("/home/ubuntu/图片/2.jpg",O_RDONLY,0777);//打开图片if(fd&l…

无线蓝牙耳机有什么推荐?怎么选择适合自己的耳机?七款蓝牙耳机分享

随着信息技术的不断发展&#xff0c;蓝牙耳机的不断发展也是必然的&#xff0c;可以说蓝牙耳机在大部分人们的生活中是不可缺少的一部分。那么我们该怎么去挑选出适合我们自己的需求的“蓝”朋友呢&#xff1f; 第一款&#xff1a;南卡小音舱lite2蓝牙耳机 推荐指数&#xff…

Android 之 AudioManager ( 音频管理器 )

本节引言&#xff1a; 在多媒体的第一节&#xff0c;我们用SoundPool写了个Duang的示例&#xff0c;小猪点击一个按钮后&#xff0c;突然发出"Duang"的 一声&#xff0c;而且当时的声音很大&#xff0c;吓死宝宝了 &#xff0c;好在不是上班时间&#xff0c;上班时间…

项目管理专业人员能力评价等级证书(CSPM)含金量高吗?

最近 CSPM 证书很热门&#xff0c;CSPM证书虽然发起的时间不长&#xff0c;但获取 CSPM 证书也是目前发展的一个趋势。如果打算在项目管理领域发展的强烈建议尽快获取 CSPM&#xff0c;提前为自己积攒一些资本。 一、什么是 CSPM证书&#xff1f;跟PMP是什么关系&#xff1f; …

SpringBoot中ErrorPage(错误页面)的使用--【ErrorPage组件】

SpringBoot系列文章目录 SpringBoot知识范围-学习步骤–【思维导图知识范围】 文章目录 SpringBoot系列文章目录本系列校训 SpringBoot技术很多很多环境及工具&#xff1a;必要的知识深层一些的知识 上效果图在Spring Boot里使用ErrorPage还要注意的是 配套资源作业&#xff…

IPv6 over IPv4隧道配置举例

配置IPv6 over IPv4手动隧道示例 组网需求 如图1所示&#xff0c;两台IPv6主机分别通过SwitchA和SwitchC与IPv4骨干网络连接&#xff0c;客户希望两台IPv6主机能通过IPv4骨干网互通。 图1 配置IPv6 over IPv4手动隧道组网图 配置思路 配置IPv6 over IPv4手动隧道的思路如下&…

【AI底层逻辑】——篇章5(下):机器学习算法之聚类降维时间序列

续上&#xff1a; 目录 4、聚类 5、降维 6、时间序列 三、无完美算法 往期精彩&#xff1a; 4、聚类 聚类即把相似的东西归在一起&#xff0c;与分类不同的是&#xff0c;聚类要处理的是没有标签的数据集&#xff0c;它根据样本数据的分布特性自动进行归类。 人在认知是…

Apache RocketMQ 远程代码执行漏洞(CVE-2023-37582)

​ 漏洞简介 Apache RocketMQ是一款低延迟、高并发、高可用、高可靠的分布式消息中间件。CVE-2023-37582 中&#xff0c;由于对 CVE-2023-33246 修复不完善&#xff0c;导致在Apache RocketMQ NameServer 存在未授权访问的情况下&#xff0c;攻击者可构造恶意请求以RocketMQ运…

51单片机学习--串口通信

首先需要配置寄存器&#xff1a; 下面这里SCON配0x40和0x50都可以&#xff0c;因为暂时还不需要接受信息&#xff0c;所以REN置1置0都可 void Uart_Init(void) //4800bps11.0592MHz {PCON | 0x80; //使能波特率倍速位SMODSCON 0x50; //8位数据,可变波特率TMOD & 0x0F…