Scraperr能从网页中抓取数据

news2025/2/22 9:23:02

在这里插入图片描述

什么是 Scraperr ?

Scraperr 是一个自托管的 Web 应用程序,允许用户通过 XPath 指定元素从网页中抓取数据。用户可以提交要抓取的 URL 和相应元素,结果将显示在表格中。用户可以下载作业结果的 Excel 表,以及重新运行该作业的选项。

反向代理

安装完成后,如果直接用 IP 访问,虽然能看到主界面,但是点什么都反应,所以我们需要通过反代实现域名的解析。

官方用的是 traefik,这个老苏不熟悉,所以换成了 nginx proxy manager

因为无公网访问需求,本文采用了 tailscale + npm 方案

文章传送门:用自定义域名访问tailscale节点

假设我们实际访问地址为: https://pc.xxsu.cf

域名局域网地址备注
pc.xxsu.cfhttp://192.168.0.197:8124Scraperr 的访问地址

npm 中的设置

SSL 都勾选了

安装

在群晖上以 Docker 方式安装。

在注册表中搜索 scraperr ,选择第一个 jpyles0524/scraperr,只有一个 latest 版本,双击直接下载

采用 docker-compose 安装,将下面的内容保存为 docker-compose.yml 文件

version: '3'

services:
  scraperr:
    image: jpyles0524/scraperr:latest
    container_name: webscrape-app
    init: True
    ports:
      - 8124:8000
    volumes:
      - /var/run/docker.sock:/var/run/docker.sock
    environment:
      - MONGODB_URI=mongodb://root:example@webscrape-mongo:27017
      - SECRET_KEY=your_secret_key
      - ALGORITHM=HS256
      - ACCESS_TOKEN_EXPIRE_MINUTES=600
      - HOSTNAME=pc.xxsu.cf
    
  mongo:
    image: mongo:4.4.29
    container_name: webscrape-mongo
    restart: always
    volumes:
      - ./data:/data/db
    environment:
      MONGO_INITDB_ROOT_USERNAME: root
      MONGO_INITDB_ROOT_PASSWORD: example

注意事项:

  1. 为避免在某些机器上出现指令不兼容的情况,WARNING: MongoDB 5.0+ requires a CPU with AVX support, and your current system does not appear to have that!,老苏用了 mongo:4.4.29,而不是 mongo:latest
  2. 如果 MONGO_INITDB_ROOT_USERNAMEMONGO_INITDB_ROOT_PASSWORD 修改了, MONGODB_URI 要相应的变化;
  3. HOSTNAME :设置为域名;

然后执行下面的命令

# 新建文件夹 scraperr 和 子目录
mkdir -p /volume1/docker/scraperr/data

# 进入 scraperr 目录
cd /volume1/docker/scraperr

# 将 docker-compose.yml 放入当前目录

# 一键启动
docker-compose up -d

运行

在浏览器中输入 https://pc.xxsu.cf 就能看到主界面,

第一次要注册账号,点 Login --> NO ACCOUNT? SIGN UP

注册成功会有提示

登录成功后

用法

测试抓个标题看看,还是以老苏的博客为例

  • URL:老苏的博客地址为 https://laosu.tech
  • Multi-Page Scrape:看需要,这里没有勾选,所以只会抓取第一个(后来测试勾选了会失败)
  • Name:因为是抓标题,所以输入了 title
  • XPath:可以在浏览器中获取到/html/body/main/div[2]/div[1]/article/header/h2/a

+ 号添加,可以设定多个条件

submit 提交到任务队列

很快就有结果

可以下载 Excel 文件

API

Scraperr 提供了 API ,打开 https://pc.xxsu.cf/docs 可以找到该 API 的文档页面

参考文档

jaypyles/Scraperr: Self-hosted webscraper.
地址:https://github.com/jaypyles/Scraperr

Update to Self-Hosted Webscraper “Scraperr” : r/selfhosted
地址:https://www.reddit.com/r/selfhosted/comments/1e8ryua/update_to_selfhosted_webscraper_scraperr/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1956378.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在这个只有病人去的场所,你看到了哪些意料之外的举动?--医者仁心:医院里的温情奇迹

在这个只有病人去的场所,你看到了哪些意料之外的举动? --医者仁心:医院里的温情奇迹 在繁忙与喧嚣交织的医院里,每一天都上演着生与死的较量,但在这片看似冷漠的土地上,却也悄然绽放着无数温暖人心的花朵。今天&…

prompt输入框模拟禁用弹窗

this.$prompt(确认取消申报申请吗?, 提示, {confirmButtonText: 确定,cancelButtonText: 取消,

新款 GPT-4o mini、Llama 3.1、Mistral NeMo 12B 和其他 GenAI 趋势指南

作者使用 GPT-4o 创建的图像,用于表示不同的模型 欢迎来到雲闪世界。自 2022 年 11 月推出 ChatGPT 以来,几乎每周都会出现新的模型、新颖的提示方法、创新的代理框架或其他令人兴奋的 GenAI 突破。2024 年 7 月也不例外:仅在本月&#xff0c…

UDP connect 内核源码分析

1 从诡异开始 最近遇到一个线上问题,client 发了一个 udp 请求,服务器回了一个响应,但诡异的是,client 的 log 却看不到对应的处理日志。抓包发现内核发出了一个指示 udp 目的端口不可达的 icmp 报文,类似这样的&#…

【基于PSINS】UKF/SSUKF对比的MATLAB程序

UKF与SSUKF UKF是:无迹卡尔滤波 SSUKF是:简化超球面无迹卡尔曼滤波 UKF 相较于传统的KF算法,UKF能够更好地处理非线性系统,并且具有更高的估计精度。它适用于多种应用场景,如机器人定位导航、目标跟踪、信号处理等。…

机器学习 | 计算分类算法的ROC和AUC曲线以随机森林为例

受试者工作特征(ROC)曲线和曲线下面积(AUC)是常用的分类算法评价指标,本文将讨论如何计算随机森林分类器的ROC 和 AUC。 ROC 和 AUC是量化二分类区分阳性和阴性类别能力的度量。ROC曲线是针对不同分类阈值的真阳性率&…

Mac电脑 系统监测工具 System Dashboard Pro【简单操作,小白轻松上手】

Mac分享吧 文章目录 效果一、下载软件二、开始安装1、双击运行软件,将其从左侧拖入右侧文件夹中,等待安装完毕2、应用程序显示软件图标,表示安装成功 三、运行测试安装完成!!! 效果 一、下载软件 下载软件…

opencascade AIS_PlaneTrihedron 源码学习

AIS_PlaneTrihedron 前言 构建一个可选择的2D轴系在3D绘图中。 这个轴系可以放置在3D系统中的任何位置,提供一个用于在平面中绘制曲线和形状的坐标系。 有三种选择模式: 模式0 选择整个平面“trihedron” 模式1 选择平面“trihedron”的原点 模式2 选择…

Nuxt.js 路由管理:useRouter 方法与路由中间件应用

title: Nuxt.js 路由管理:useRouter 方法与路由中间件应用 date: 2024/7/28 updated: 2024/7/28 author: cmdragon excerpt: 摘要:本文介绍了Nuxt 3中useRouter方法及其在路由管理和中间件应用中的功能。内容包括使用useRouter添加、移除路由&#xf…

Cesium高性能渲染海量矢量建筑

0、数据输入为类似Geojson的压缩文件和纹理图片,基于DrawCommand命令绘制; 1、自定义建筑几何,包括顶点、法线、纹理等; 2、自定义纹理贴图,包括按建筑高度贴图、mipmap多级纹理; 3、自定义批处理表&…

我的新书《Android系统多媒体进阶实战》正式发售了!!!

我的新书要正式发售了,把链接贴在下面,感兴趣的朋友可以支持下。 ❶发售平台:当当,京东,抖音北航社平台,小红书,b站 ❷目前当当和京东已开启预售 ❸当当网 https://u.dangdang.com/KIDHJ ❹…

22 B端产品经理与MySQL基本查询、排序(2)

MySQL基本常识 MySQL:一种关系型数据库管理系统。是按照数据结构来组织、存储和管理数据的仓库。 数据库:是一些关联数据表的集合。 数据表:表是数据的矩阵,看起来像电子表格,如下图:user表和admin表。 …

⌈ 传知代码 ⌋ 红外小目标检测

💛前情提要💛 本文是传知代码平台中的相关前沿知识与技术的分享~ 接下来我们即将进入一个全新的空间,对技术有一个全新的视角~ 本文所涉及所有资源均在传知代码平台可获取 以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦&#x…

keil5导入程序到stm32的开发板

如图, 1,安装mdk_514.exe 2,安装Keil.STM32F1xx_DFP.1.0.5.pack 3,注册方法(仅限学生使用):http://www.openedv.com/thread-69384-1-1.html 点击keil程序的上面魔法棒, 在device中…

类中的function无法正确被matlab所识别,该怎么操作呢?

🏆本文收录于《CSDN问答解惑-专业版》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收…

【Linux】CentOS更换国内阿里云yum源(超详细)

目录 1. 前言2. 打开终端3. 确保虚拟机已经联网4. 备份现有yum配置文件5. 下载阿里云yum源6. 清理缓存7. 重新生成缓存8. 测试安装gcc 1. 前言 有些同学在安装完CentOS操作系统后,在系统内安装比如:gcc等软件的时候出现这种情况:&#xff08…

SpringBoot3如何整合Redis?

SpringBoot应该不用介绍!它是Spring当前最火的一个框架,整合Spring Boot 3和Redis可以显著提升应用程序的性能,特别是在处理大量数据和需要快速访问的场景下。 在Spring Boot中,从1.x版本到2.x版本的Redis连接方式发生了变化&…

点脂成金携手北京新颜兴医疗美容医院,共启战略合作新篇章

2024年7月24日上午,点脂成金品牌方与北京新颜兴医疗美容医院在京举行了隆重的签约仪式,宣布达成战略合作关系,共同开启医疗美容领域的设备共享新篇章。 签约仪式在北京纯脂医疗美容门诊部有限公司举行,现场氛围热烈而庄重。点脂成…

使用 WebSocket 实现实时聊天

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…

基于opencv的人脸识别(实战)

前言 经过这几天的学习,我已经跃跃欲试了,相信大家也是,所以我决定自己做一个人脸识别程序。我会把自己的思路和想法都在这篇博客内讲清楚,大家可以当个参考,🌟仅供学习使用🌟。 &#x1f31f…