x-cmd pkg | trafilatura - 网络爬虫和搜索引擎优化工具

news2024/9/23 5:24:10

目录

    • 简介
    • 首次用户
    • 技术特点
    • 竞品和相关作品
    • 进一步阅读

简介

trafilatura 是一个用于从网页上提取文本的命令行工具和 python 包:

  1. 提供网络爬虫、下载、抓取以及提取主要文本、元数据和评论等功能
  2. 可帮助网站导航和从站点地图和提要中提取链接
  3. 无需数据库,输出即可转换为各种常用格式(txt,csv,json,xml,xmltei)
  4. 可用于搜索引擎优化

首次用户

  1. 使用 x env use trafilatura 即可自动下载并使用

    • 在终端运行 eval "$(curl https://get.x-cmd.com)" 即可完成 x 命令安装, 详情参考 x-cmd 官网
  2. x-cmd 提供1分钟教程,其中包含了 trafilatura 命令常用功能的 demo 示例,可以帮你快速上手 trafilatura 。

  3. 使用案例

    trafilatura-1min-cn

    # 安装 trafilatura
    x env use trafilatura
    
    # 提取指定网页的主要内容
    trafilatura -u "https://www.x-cmd.com/start"
    
    # 使用站点地图抓取 x-cmd 关于 7za 的网站
    trafilatura --sitemap "https://www.x-cmd.com" --list | grep 7za > list.txt
    
    # 批量处理 URL 列表,并存储结果到目录中
    trafilatura -i list.txt -o txtfiles
    
    # 优化 bing 搜索结果
    trafilatura --links --xml -u "https://www.bing.com/search?q=gitea"
    

技术特点

  1. 稳健高效的提取:
    1. 除了可以提取主要文本之外,还可以提取元数据(标题、作者、日期、网站名称、类别和标签),结构化信息(段落、标题、列表、引号、代码、换行符、行内文本格式)
    2. 从原始 HTML 转换为关键部分,去除由重复出现的元素(页眉和页脚、广告、链接/博客等)组成的噪音
  2. 支持 URL 管理(黑名单、过滤和重复数据删除)
  3. 支持可选附加组件:
    1. 对提取内容进行语言检测
    2. 图形用户界面 (GUI)
    3. 速度优化
  4. 更加高效、准确。从官方给出的评估和替代方案的数据来看,该工具的性能明显优于其他开源解决方案。

竞品和相关作品

  1. goose3:用 Java 编写的文章提取器。
  2. readabilipy:Python 中的简单 HTML 内容提取器。
  3. news-please:是一个开源、易于使用的新闻爬虫,可以从几乎所有新闻网站中提取结构化信息。

进一步阅读

  • trafilatura 源代码 - trafilatura 项目的源代码托管在 GitHub,你可以在这里找到最新版本的 trafilatura 和参与社区贡献。
  • trafilatura 官网 - 提供了非常丰富的使用案例和技术分析文档。
  • 使用 Trafilatura 进行文本抓取 - 该文章介绍了如何使用 trafilatura 快速提取网页问题。

X-CMD 官网

  • x-cmd-pkg

  • x-cmd-1min

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1353640.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入了解Apache 日志,Apache 日志分析工具

Apache Web 服务器在企业中广泛用于托管其网站和 Web 应用程序,Apache 服务器生成的原始日志提供有关 Apache 服务器托管的网站如何处理用户请求以及访问您的网站时经常遇到的错误的重要信息。 什么是 Apache 日志 Apache 日志包含 Apache Web 服务器处理的所有事…

相关性与P值

相关性与P值 0 FQA:1 相关性与显著性的关系2 相关性分析3 使用medcalc进行相关性分析:参考文章: 0 FQA: 主要描述相关性和p值分别代表什么意义? 以及如何使用medcalc计算相关性和p值。 Q1:p值代表什么意义…

离线部署的MinIO

网络有不同的部分,例如 DMZ、公共、私有、堡垒等。这实际上取决于您的组织和网络要求。在部署应用程序时,任何应用程序,我们都需要考虑类型以及它是否需要位于网络的特定部分。 例如,如果要部署数据库,则不希望它位于…

Power Apps 学习笔记 - IOrganizationService Interface

文章目录 1. IOrganization Interface1.1 基本介绍1.2 方法分析 2. Entity对象2.1 Constructor2.2 Properties2.3 Methods 3. 相关方法3.1 单行查询 Retrive3.2 多行查询 RetriveMultiple3.3 增加 Create3.4 删除 Delete3.5 修改 Update 4. 数据查询的不同实现方式4.1 QueryExp…

CloudManager大数据本地环境标准部署文档

一、基本信息 文档目的:标准化、规范化Hadoop在本地化环境中部署所涉及的操作和流程,以便高效、高质地落地本地化环境部署的工作。 二、安装介质 FTP服务器: http://172.16.246.252:81/hadoopteam/cloudmanager/CDH-5.8.2-1.cdh5.8.2.p0.3…

Document对象详解

前言 在前端开发中,DOM(文档对象模型)扮演着重要的角色。它允许我们使用JavaScript来与网页文档进行交互,实现动态的网页效果。DOM的核心部分之一就是Document对象,它代表了整个HTML文档。在本篇博客中,我们…

C++基本语言:1.10类型转换:static_cast等

C基本语言包含10章节内容,存于C从入门到精通专栏 目录 一、隐式类型转换 ​编辑二、显式类型转换(强制类型转换) (1)static_cast:静态转换 可用于 不可用于 (2)dynamic_cast …

.NET国产化改造探索(一)、VMware安装银河麒麟

随着时代的发展以及近年来信创工作和…废话就不多说了,这个系列就是为.NET遇到国产化需求的一个闭坑系列。接下来,看操作。 安装银河麒麟 麒麟系统分银河麒麟和中标麒麟,我选择的是银河麒麟服务器版的,关于如何下载,…

长沙竟然有这么多芯片公司!

从英特尔的持续裁员,美满团队撤出国内市场,再到哲库解散,星际魅族放弃芯片业务,再到年底摩尔等公司大裁员,TCL控股子公司摩星半导体解散,都让每个ICer对市场失去信心。 目前,长沙集成电路产业布…

C++ 实现Windows WIFI管理器

文章目录 前言一、代码二、补充知识三、遇到的问题字符集转换 四、剩余问题总结 前言 出于项目需要,需要用C开发一个wifi界面,实现wifi扫描、wifi连接与断开、wifi密码记住的基础功能。 一、代码 话不多说,直接上代码。 #pragma once #inc…

Godot4.2——爬虫小游戏简单制作

目录 一、项目 二、项目功能 怪物 人物 快捷键 分数 游戏说明 提示信息 三、学习视频 UI制作 游戏教程 四、总结 一、项目 视频演示:Godot4爬虫小游戏简单制作_哔哩哔哩bilibili 游戏教程:【小猫godot4入门教程 C#版 已完结】官方入门案例 第…

利用MATLAB绘制折线图

x20:20:140;%x轴上的数据,第一个值代表数据开始,第二个值代表间隔,第三个值代表终止a[0.85, 2.2, 3.45, 2.65, 1.5, 1.9, 1.25]; %a数据y值plot(x,a,-*b); %线性,颜色,标记 axis([0,160,0,4]) %确定x轴与y轴框图大小 …

Redis - 挖矿病毒 db0 库 backup 反复出现解决方案

问题描述 腾讯云的服务器,使用 Docker 部署了 Redis 之后,发现 DB0 中总是出现 4 条 key,分别是 backup01backup02backup03backup04 而自己每次存入 db0 中的数据过一会就会被无缘无故删除掉。 原因分析 挖矿病毒 解决方案 在启动的时候…

Android测试——(下篇)

Android测试(五):Instrumented 单元测试 Instrumented 单元测试是在真机并且可以上运行的测试,它利用Android框架API和支持的API(如Android测试支持库)。如果你的测试需要访问工具信息(例如目标…

基于果蝇算法优化的Elman神经网络数据预测 - 附代码

基于果蝇算法优化的Elman神经网络数据预测 - 附代码 文章目录 基于果蝇算法优化的Elman神经网络数据预测 - 附代码1.Elman 神经网络结构2.Elman 神经用络学习过程3.电力负荷预测概述3.1 模型建立 4.基于果蝇优化的Elman网络5.测试结果6.参考文献7.Matlab代码 摘要:针…

Jmeter的安装与快速使用(做并发测试)

1、了解 JMeter是一款开源的性能测试工具,它主要用于模拟多种负载条件下的应用程序或服务器的性能和功能。JMeter可以发送不同类型的请求,如HTTP、HTTPS、FTP、SOAP、REST等,并且可以模拟多种负载类型,例如并发用户、线程组、定时…

洛谷普及组P1044栈,题目讲解(无数论基础,纯打表找规律)

[NOIP2003 普及组] 栈 - 洛谷 我先写了个打表的代码&#xff0c;写了一个小时&#xff0c;o(╥﹏╥)o只能说我真不擅长dfs。 int n; std::unordered_map<std::string, int>map; void dfs(std::vector<int>&a, int step,std::stack<int>p, std::string …

【K8S 资源管理】声明式资源管理

目录 一、常用的发布方式 1、蓝绿发布&#xff1a; 2、金丝雀发布&#xff08;灰度发布&#xff09;&#xff1a; 3、滚动更新&#xff08;deployment的默认更新方式&#xff09;&#xff1a; 二、声明式管理方法&#xff08;yaml文件&#xff09; 1、三种发布命令&#x…

C语言中灵活多变的动态内存,malloc函数 free函数 calloc函数 realloc函数

文章目录 &#x1f680;前言&#x1f680;管理动态内存的函数✈️malloc函数✈️free函数✈️calloc函数✈️realloc函数 &#x1f680;在使用动态内存函数时的常见错误✈️对NULL指针的解引用✈️ 对动态开辟空间的越界访问✈️对非动态开辟内存使用free释放✈️使用free释放一…

三、C语言中的分支与循环—for循环 (6)

本章分支结构的学习内容如下&#xff1a; 三、C语言中的分支与循环—if语句 (1) 三、C语言中的分支与循环—关系操作符 (2) 三、C语言中的分支与循环—条件操作符 与逻辑操作符(3) 三、C语言中的分支与循环—switch语句&#xff08;4&#xff09;分支结构 完 本章循环结构的…