免费爬虫软件“HyperlinkCollector超链采集器v0.1”

news2024/9/25 21:26:15

HyperlinkCollector超链采集器单机版v0.1

软件采用python的pyside2和selenium开发,暂时只支持window环境,抓取方式支持普通程序抓取和selenium模拟浏览器抓取。软件遵守robots协议。

首先下载后解压缩,然后运行app目录下的HyperlinkCollector.exe

运行后,我们先创建一个采集项目。

主要是填写项目名称和起始页url,如果采集多个列表页,可以添加完成后在“设置起始页”中进行修改。

创建好项目后,我们右键选择一个起始页,然后选择“抓取测试”,运行后,会在下面显示抓取到的url。

这里我以抓取东方财富网新闻为例:我们要抓取文章的内容,设置一下内容页URL的规则,比如这里我们在“url必须包含”中填写“finance.eastmoney.com/a/”。

然后再重新右键选择起始页进行抓取测试。这时候获取的url就是根据我们设置的规则获取的内容url。然后继续选择其中一条内容url,右键选择“抓取测试”。这时候,测试结果里会显示抓取的内容字段(系统默认添加了一个title和一个body)。

点击切换到“预览”标签,这里显示的是内容页url的预览 ,可以鼠标划取要抓取的内容部分,比如我们要抓取文章内容,我们可以只划取内容开头的一段文字,这时候会弹出一个快捷菜单,可以获取所选内容的xpath或者css选择器名称。

我这里以css选择器为例,点击“获取css选择器”之后,弹出窗口中,显示了包含所选内容的所有”css选择器名称”,这里可以对给出的css选择器进行测试,我们选择其中一个对应的。这里需要注意:获取的css选择器是当前选择内容的css选择器,实际中可能需要的是它的父级,这个要根据实际情况进行调节。比如我要抓取整篇文章,但划取后给出的css选择器是“html>body>div.main>div.contentwrap>div.contentbox>div.mainleft>div.zwinfos>div.txtinfos>p” ,只是其中我划取的那一段。这时候可以直接在文本框中修改,使用当前的父级“html>body>div.main>div.contentwrap>div.contentbox>div.mainleft>div.zwinfos>div.txtinfos”,然后再点击测试按钮,看看获取的内容是否正确。

设置完成后,选择”添加到采集字段”,将设置的 “css选择器”添加到采集字段

然后写一个字段名称保存。然后可以再进行一次测试看是否正常。

最后选择”保存当前项目设置”,设置任何修改后,要记得保存,否则采集时还是按以前的规则采集。

做完上面设置后,我们可以在左边的 项目列表中,右键选择刚刚设置的项目,然后选择“运行所选项目”

然后软件就会进行抓取。

数据保存,可以设置保存为excel或导出到接口,默认情况时保存到excel。但实际应用中更实用的时通过一个接口程序保存,以便根据自己的需求对采集数据进行二次加工处理。保存到接口时,数据是以json格式post提交的。设置中给了一个php接收的示例,您可以根据实际情况进行修改。

CSDN下载地址:

免费爬虫软件“HyperlinkCollector超链采集器v0.1”单机版

软件现在免费使用,有些功能还在不断完善中,如果您在使用软件中有什么问题,或者有开发需求,可以与我联系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2126027.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网页与App无缝衔接,揭秘拉起应用的黑科技!

随着移动互联网的飞速发展,App已经成为了我们日常生活中不可或缺的一部分。然而,在推广和运营App的过程中,如何让用户更便捷地从网页跳转到App,一直是困扰推广者的难题。今天,我们就来聊聊网页拉起应用这一黑科技&…

开源 AI 智能名片 S2B2C 商城小程序中的全渠道供应策略

摘要:本文深入探讨在开源 AI 智能名片 S2B2C 商城小程序的情境下,全渠道供应的运行机制。阐述各环节企业相互配合的重要性,重点分析零售企业在其中的关键作用,包括协调工作、信息传递、需求把握等方面,旨在实现高效的全…

Python中的上下文管理器:提升代码的优雅与安全

在编写Python程序时,处理资源(如文件、网络连接、数据库会话等)的正确打开和关闭至关重要。不当的资源管理可能导致内存泄漏、数据损坏等问题。幸运的是,Python提供了一种优雅的方式来解决这个问题——上下文管理器。本文将探讨上…

象过河轮胎进销存,轻松管理进出库以及废旧轮胎回收

在轮胎行业,高效的进销存管理与废旧轮胎的回收是两大核心挑战,象过河轮胎进销存应运而生。软件专为轮胎行业量身定制,从进货,销售,到库存盘点,财务,轮胎废旧回收等一体化管理,以科技…

【每日刷题】Day118

【每日刷题】Day118 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. 123. 买卖股票的最佳时机 III - 力扣(LeetCode) 2. 188. 买卖股票的最佳时…

如何用python打开csv文件路径

python读取CSV文件方法: 方法1:可先用以下代码查看当前工作路径,然后将CSV文件放在该路径下。 import os os.getcwd() 方法2:(绝对路径) import pandas as pd iris_trainpd.read_csv(E:\Study\DataSets\ir…

树莓派最强大的应用商店,你知道嘛?

Pi-Apps —— Raspberry Pi 最强大的应用商店 不久前,我获得了我的第一台Raspberry Pi。和大多数从Windows转移到Linux(特别是Raspberry Pi用户)的用户一样,我被这些问题困扰得快要疯了: 如何在我的Raspberry Pi上安装…

vue3 响应式API customRef()

使用ref()定义响应式数据&#xff1a; <template><div><div>{{ inputValue }}</div><input type"text" v-model"inputValue"></div> </template> <script setup lang"ts"> import { ref } fro…

测测万用表?合宙功耗分析仪Air9000Air9000P齐出动

当心&#xff01;那个被你遗忘的万用表&#xff0c;可能正在偷偷“吃”电&#xff01; 万用表不关是一个常见的错误&#xff0c; 指的是在使用万用表进行测量后&#xff0c;没有关闭或断开电路而直接离开。 这样做可能会导致电池耗尽&#xff0c;影响测量结果&#xff0c;甚…

解决报错 ‘numpy‘ has no attribute ‘bool8‘. Did you mean: ‘bool‘?

定位到报错的文件中 将所有bool8都修改为bool_ 一开始按照错误信息提示修改源码为bool还是会显示错误 这是因为&#xff1a; 目前最新的的NumPy版本版本中布尔类型的接口已经改为bool_。 通过查找可以定位到所有错误使用了bool8的位置&#xff08;上图是我修改之后再次查询…

什么是CPU、GPU、NPU?(包懂+会)

目录 举例子 CPU&#xff1a;主厨 GPU&#xff1a;大量的厨房助理 NPU&#xff1a;面包机 总结 讲理论 CPU&#xff08;中央处理器&#xff09; GPU&#xff08;图形处理单元&#xff09; NPU&#xff08;神经网络处理单元&#xff09; 对比分析 举例子 CPU&#xff…

【CAPL实战】解决调用LIN函数不生效问题

测试背景&#xff1a; 被测样件为LIN节点&#xff0c;进行LIN唤醒测试。添加LDF文件后&#xff0c;在vTESTstudio中编写CAPL自动化脚本通过调用LINwakeup()函数来实现唤醒测试。测试结果是唤醒不成功&#xff0c;通过示波器观测发现并没有唤醒脉冲发出&#xff0c;也就是说调用…

JVM基础概念

一、JVM概述 1. 为什么要学习JVM&#xff1f; 线上系统突然宕机&#xff0c;系统⽆法访问&#xff0c;甚⾄直接 OOM &#xff1b; 线上系统响应速度太慢&#xff0c;优化系统性能过程中发现 CPU 占⽤过⾼&#xff0c;原因是因为 JVM 的 GC 次 数过于频繁&#xff1b; 新项⽬…

OJ 最接近的三数之和

题目&#xff1a; 给你一个长度为 n 的整数数组 nums 和 一个目标值 target。请你从 nums 中选出三个整数&#xff0c;使它们的和与 target 最接近。返回这三个数的和。假定每组输入只存在恰好一个解。 提示&#xff1a; 3 < nums.length < 1000-1000 < nums[i] < …

【计算机毕设-软件开发类】基于SpringBoot的食品安全管理平台

&#x1f497;博主介绍&#xff1a;✌全平台粉丝5W,高级大厂开发程序员&#x1f603;&#xff0c;博客之星、掘金/知乎/华为云/阿里云等平台优质作者。 【源码获取】关注并且私信我 【联系方式】&#x1f447;&#x1f447;&#x1f447;最下边&#x1f447;&#x1f447;&…

c++188深拷贝和浅拷贝

在全局区字符串 浅拷贝 拷贝指针变量的值而不是内存空间 obj2已经析构了 又进行了一次析构 深拷贝&#xff1a; #define _CRT_SECURE_NO_WARNINGS #include<iostream> using namespace std;class Name { public:Name(const char* myp){//开辟一个内存把dhfka传入int le…

Java综合实践——学生成绩查询系统

此系列文章收录大量Java经典代码题&#xff08;也可以算是leetcode刷题指南&#xff09;&#xff0c;剩余文章指路Java题集。希望可以与大家一起探索Java的神秘。3、2、1&#xff0c;请看&#xff01; 本篇文章将带大家一起来写一个学生成绩查询系统。 目录 系统呈现效果 前…

亚马逊跨境蓝海选品思路和方法(实操建议版)

跨境电商中&#xff0c;“七分靠选品&#xff0c;三分靠运营”。这句话强调了产品在店铺中的重要性&#xff0c;选品的好坏直接影响到后续推广的成败。 如何正确选择产品我们先从思路入手&#xff0c;明确自己的选品思路。以下是几点选品思路的总结和使用店雷达选品的技巧。 …

硅外延片行业分析:未来几年年复合增长率CAGR为5.3%

硅外延晶片是通过在抛光晶片上添加数微米厚的单层碳化硅晶体层制成的。需要精确控制厚度、掺杂&#xff08;载流子浓度&#xff09;和缺陷密度&#xff0c;才能使半导体制造设备生产出高产量的功率器件。外延主要是为了增强晶片的功能。近年来&#xff0c;技术已成为制造高集成…

集运企业运营过程中有哪些痛点?集运系统如何解决?

在集运行业的激烈竞争中&#xff0c;企业面临着诸多运营痛点&#xff0c;这些痛点不仅影响了企业的运营效率&#xff0c;也制约了客户体验的提升。 易境通集运系统&#xff0c;作为一款专为集运行业设计的智能化管理系统&#xff0c;通过技术创新和流程优化&#xff0c;为集运…