1、简介spider-flow 是一个爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫 官网地址:https://www.spiderflow.org/ 2、spiderflow的初步使用2.1拉取,配置和启动从gitee上拉取 执行db里面的sql 里面会有6张表 修改配置文件里面的数据库连接的账号密码和地址 修改配置文件里面的开启定时任务,设置为true时定时任务才生效 spider.job.enable=true 直接启动,访问端口号即可,启动成功 2.2参照实例写一个爬虫2.2.1爬取站点分析 https://www.piaohua.com/html/dongzuo/ 这是一个电影网站 我想爬取的是电影名称,类别,产地等信息 首先查看网页源代码,看获取的信息是否能从网页中拿到,有的是js动态加载的不能直接获取 这种可以直接获取 然后试着分析页码,点不同页码的时候连接会发生变化,点第四页,数字就变成了4 然后确定要爬取的信息 2.2.2开始写爬虫 2.2.2.1新建爬虫 2.2.2.2配置爬虫url 在url中使用${}来放动态参数,类似jquery。(参考官网表达式语法--基本用法--动态拼接url) 2.2.2.3配置页码和拉取信息 三元运算符和java中的一样(参考官网表达式语法--三元运算符) 获取页面内容 获取页面中class='col-md-6'的所有内容(参考官网 函数说明--抽取函数--selectors) 2.2.2.4 遍历 上面的movieList是一个集合,遍历这个集合 参考官网(快速入门--循环节点),list.length是获取集合的长度,参考官网(函数说明--list--length) 2.2.2.5设置翻页条件 当页码<=10的时候继续爬取 流转条件:当表达式返回 参考官网(快速入门--连接线) 2.2.2.6 定义变量 2.2.2.7输出节点 2.2.2.8测试 点击左上角的测试即可看到输出内容 2.2.2.9输出到数据库 1.在输出节点选中输出到数据库 2.添加数据源 3.输出字段和数据库字段保持一致即可 |