5 个不错的开源 AI 网络爬虫工具

news2024/10/5 20:20:41

你好,我是坚持分享干货的 EarlGrey,翻译出版过《Python编程无师自通》、《Python并行计算手册》等技术书籍。

如果我的分享对你有帮助,请关注我,一起向上进击。

简单地说,网络爬虫就是从网站上抓取数据和内容,然后以 XML、Excel 或 SQL 的形式保存数据。除了潜在客户挖掘、竞争对手监控和市场调研之外,网络爬虫工具还可用于实现数据收集过程的自动化。

在人工智能网络爬虫工具的帮助下,可以解决手动或纯粹基于代码的爬虫工具的局限性:动态或非结构化网站现在也可以轻松处理,都无需人工干预。

在此,我们将介绍几款开源 AI 网络爬虫工具供您选择。

  • Reader

  • LLM Scraper

  • Firecrawl

  • ScrapeGraphAI

  • LangChain

Reader

70d19061a8442a8c5b58dbcd5a4832d3.jpeg

reader-star-history

Reader是 Jina AI 推出的一款产品。当你将任意网址附加到https://r.jina.ai/之后,它可以将任何 URL 转换为 LLM 友好的输入,并免费获得可用于 RAG 系统的结构化输出。

自上个月(确切地说是 4 月 15 日)首次发布以来,全球累计请求量已超过 1800 万个请求,而项目本身也已经获得了 4.5K 个星标。

7c5327ccf73959c03ab0c042c52ac374.jpeg
reader

除了爬取任意 URL 之外,Jina 还发布了另一项功能,即可以使用 https://s.jina.ai/YOUR_SEARCH_QUERY 搜索互联网上的最新知识。搜索结果包括标题、LLM友好的markdown文本 和注明来源的 URL。

这样就可以为 LLM、智能体和 RAG 系统构建一个全面的解决方案。

2309597c353ace545c29754301ca35fe.jpeg
reader-knowledge

LLM Scraper

4e1afd6f1a61cd3e9db3e9c718db5956.jpeg

llm-scraper-star-history

LLM Scraper 是一个 TypeScript 库,可通过 LLM 将任何网页转换为结构化数据。本质上,它使用函数调用将网页转换为结构化数据。

与 Reader 类似,它也是上个月才开源的。它目前支持本地(GGUF)、OpenAI 和 Groq 聊天模型。显然,作者正在努力通过 llama.cpp 支持本地 LLM,以降低使用 LLM 进行网络爬取的成本。

e0f9f076bf5be81bde477bef336e229c.jpeg
reader

Firecrawl

cdfae1360fd65e51a798520b43cefc4f.jpeg
firecrawl-star-history

Firecrawl是一个 API 服务,可将 URL 转换为简洁、格式良好的markdown文本。这种格式非常适合 LLM 应用程序,它提供了一种结构化而又灵活的方式来表示网页内容。

3bf27c79121b0e51bc18aff35029e964.jpeg
reader

该工具专为 LLM 工程师、数据科学家、人工智能研究人员和开发人员量身定制,他们希望利用网络数据来训练机器学习模型、进行市场研究和内容聚合。它简化了数据准备过程,使专业人员能够专注于洞察力和模型开发,您还可以根据自己的喜好自行托管它。

ScrapeGraphAI

ee6977502b2a77c6afce2e7a0f8551b0.jpeg

scrapegraphai-star-history

ScrapeGraphAI是一个 Python 库,它使用 LLM 和直接图逻辑来创建网站和本地文档(XML、HTML、JSON 等)的爬取管道。使用 ScrapeGraphAI,您可以准确指定要提取的数据类型。

64e21f1319bb0478333cad3d8478931f.jpeg

scrapegraphai

ScrapegraphAI 充分利用了 LLM 的强大功能,因此可以适应网站结构的变化,减少了开发人员不断干预的需要。这种灵活性确保了即使网站布局发生变化,爬虫也能保持正常运行。

它目前支持的 LLM 包括 GPT、Gemini、Groq、Azure、Hugging Face 以及本地模型。

LangChain

d6c2cfa22764fa64abba815b6a025daa.jpeg
langchain-star-history

有什么是 LangChain 做不到的?[网络爬虫]也能做(https://python.langchain.com/v0.1/docs/use_cases/web_scraping/)。

网络爬虫的最大挑战之一是网站的布局和内容不断变化,这就需要修改脚本以适应变化,而 LangChain 还利用了带有提取链的功能(如 OpenAI),这样当网站发生变化时,您就不必不断修改代码了。

如果你正在做研究,只想从《华尔街日报》网站上爬取新闻文章的名称和摘要,它就能满足你的需求。

f6015b9a300b20ec757bfc87df484aed.jpeg
langchain

小结

当然,没有放之四海而皆准的网络搜刮工具。你是喜欢传统的老式网络爬虫,还是喜欢由 LLM 驱动的网络搜爬虫工具?

英文原文:star-history.com

- EOF -

文章已经看到这了,别忘了在右下角点个“赞”和“在看”鼓励哦~

推荐阅读  点击标题可跳转

1、Python 项目工程化最佳实践

2、Python 可以比 C 还要快!

3、streamlit,一个超强的 Python 库

4、豆瓣8.9分的C++经典之作,免费送!

5、Python 3.12 版本有什么变化?

最近我开了一家淘宝店,名字叫【打破壁垒】,主打程序开发相关付费素材、工具的共享类商品,帮助大家降低试错和使用成本。欢迎大家关注。

0cfb5e4686861bfc644222cffb3d7826.jpeg

长按扫描下方二维码,然后点击页面中的【打开淘宝】,即可进入店铺:

f4651677342e76a28dad2267018a0cd5.png

回复下方「关键词」,获取优质资源

回复关键词「 pybook03」,领取进击的Grey与小伙伴一起翻译的《Think Python 2e》电子版

回复关键词「书单02」,领取进击的Grey整理的 10 本 Python 入门书的电子版

👇关注我的公众号👇

告诉你更多细节干货

ab20822bb3f463b5a54287c33a127707.jpeg

欢迎围观我的朋友圈

👆每天更新所想所悟

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1705101.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Qt】Qt框架文件处理精要:API解析与应用实例:QFile

文章目录 前言:1. Qt 文件概述2. 输入输出设备类3. 文件读写类3.1. 打开open3.2. 读read / readline/ readAll3.3. 写write3.4. 关闭close 4. 读写文件示例5. 文件件和目录信息类总结: 前言: 在现代软件开发中,文件操作是应用程序…

云计算-无服务器计算与AWS Lambda (Serverless Computing with AWS Lambda)

AWS Lambda 无服务器计算与AWS Lambda AWS Lambda支持无服务器计算,不需要任何预配置和管理,同时还能最大限度地降低成本。我们将看到如何创建一个简单的Lambda函数,以及如何将其与AWS事件映射。在现实生活中,任何托管在线的应用…

Eureka全面解析:轻松实现高效服务发现与治理!

一、引言 Eureka是Netflix开源的一款服务发现框架,它提供了一种高效的服务注册和发现机制,适用于大规模分布式系统。本文将详细介绍Eureka的相关知识。 二、Eureka简介 Eureka是一个基于REST的服务发现框架,它提供了一种简单的服务注册和发…

签到打卡页面如何设计?

设计一个UI签到打卡页面时,以下是一些建议和注意事项: 页面布局:将签到打卡按钮放置在页面的显眼位置,以便用户快速找到。可以考虑将其他相关信息,如签到日期、时间、地点等也显示在页面上,以增加用户的参…

Modbus工业网关

随着工业自动化程度的不断提高,设备之间的数据通信与交互变得至关重要。在这一背景下,Modbus协议凭借其简单、可靠、开放的特点,成为了工业自动化领域中最常用的通信协议之一。而HiWoo Box网关作为一款支持Modbus协议的工业网关设备&#xff…

C++ std::reference_wrapper:让引用更强大

std::reference_wrapper 的通俗易懂解释 一、简介二、std::reference_wrapper 的初衷三、常用示例3.1、与 make_pair 和 make_tuple 一起使用3.2、引用容器3.3、通过 std::thread 按引用传递参数给启动函数3.4、引用作为类成员3.5、按引用传递函数对象3.6、与绑定表达式一起使用…

Megatron-LM源码系列(八): Context Parallel并行

1. Context Parallel并行原理介绍 megatron中的context并行(简称CP)与sequence并行(简称SP)不同点在于,SP只针对Layernorm和Dropout输出的activation在sequence维度上进行切分,CP则是对所有的input输入和所有的输出activation在sequence维度上进行切分&…

「小明赠书活动」第四期《Java开发坑点解析:从根因分析到最佳实践》

⭐️ 赠书 - 《Java开发坑点解析:从根因分析到最佳实践》 这是一本帮助Java开发人员规避常见错误的书。从业务代码开发、项目技术设计、代码安全3个层面剖析150多个常见坑点。 业务代码开发层面,近20个方面的坑,涉及多线程、数据访问、池技术…

【VTKExamples::Utilities】第四期 CameraModifiedEvent

很高兴在雪易的CSDN遇见你 VTK技术爱好者 QQ:870202403 公众号:VTK忠粉 前言 本文分享VTK样例CameraModifiedEvent,希望对各位小伙伴有所帮助! 感谢各位小伙伴的点赞+关注,小易会继续努力分享,一起进步! 你的点赞就是我的动力(^U^)ノ~YO 1. CameraModifi…

521源码-免费音乐源码-最新流媒体在线音乐系统网站源码| 英文版源码| 音乐社区 | 多语言 | 开心版

免费音乐源码 一键自动安装:安装用翻译看提示操作即可 本源码下载地址:最新流媒体在线音乐系统网站源码| 英文版源码| 音乐社区 | 多语言 | 开心版 - 521源码 更多网站源码学习教程,请点击👉-521源码-👈获取最新资源…

APM2.8如何供电

APM2.8飞控供电有两种, 1.电流计供电, 2.带BEC(稳压功能)的电调供电 飞控有一个JP1,它是一个供电选择接口,当插入跳线帽时,飞控用带BEC电调供电,当不插入时,用电流计供…

基于springboot的论坛管理系统(含源码+sql+视频导入教程)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 基于springboot的论坛管理系统3拥有两种角色 管理员:用户管理、公告管理、帖子管理、分类管理、留言管理、系统管理等 用户:登录注册、查看发布帖子等 1.1 背景…

深度学习论文: YOLOv10: Real-Time End-to-End Object Detection

深度学习论文: YOLOv10: Real-Time End-to-End Object Detection YOLOv10: Real-Time End-to-End Object Detection PDF: https://arxiv.org/pdf/2405.14458 PyTorch代码: https://github.com/shanglianlm0525/CvPytorch PyTorch代码: https://github.com/shanglianlm0525/PyTo…

如何评价 OpenAI 最新发布支持实时语音对话的模型GPT-4o?OpenAI发完GTP-4o,国内大模型行业还有哪些机会?

文章目录 OpenAI发完GTP-4o,国内大模型行业还有哪些机会?详细了解一下OpenAI最新发布的支持实时语音对话的模型GPT-4o国内大模型如何寻找发展机会?想要发展技术必须要创新与追赶或许应用场景拓展也是一种出路产业生态构建 ChatGPT 问世才 17 …

隆道专属商城 | 助力企业跨平台整合优势资源,解决采购寻源比价难题!

数字化采购时代,企业面临着日益激烈的市场竞争,如何优化资源配置、降低采购成本、提高采购效率成为企业追求的核心目标。当前,网上商城凭借其强大的供应链资源整合能力,为企业内部采购商城的搭建提供了独特的优势,已然…

【Lexus.4】Executive Sedan——Dismantling Follow-up

文章目录 【碰撞测试】前后防撞钢梁偏置碰撞A/B/C柱,边梁抗拉、屈服强度 【底盘】平整度护板(发动机,底盘)前副车架结构前悬架形式后悬架形式与材质簧下质量 【发动机】【轮上马力】【零部件供应商】 来自2021《懂车大爆炸》——是…

网络风暴:揭秘DDoS攻击的幕后黑手

在数字化时代的浪潮中,网络攻击已成为一种新型的战争手段。其中,分布式拒绝服务攻击(DDoS)以其强大的破坏力和隐蔽性,成为网络安全领域的一大挑战。DDoS攻击通过发动海量的恶意流量,如同狂风暴雨般席卷目标…

Springboot项目——博客平台

前言:为巩固之前学习的知识,同时锻炼自己的代码能力,项目经验,熟悉前后端交互方式等,特此完成一个博客平台系统。(总之,为了学习,为了进步) 博客平台:本项目…

干货|图生代码实例整理,让你的代码更高效

前言 “图生代码”。这项新功能允许开发人员直接利用产品设计图一键生成相应的代码,极大地提高了编程效率和研发速度。甚至会未来软件开发可能迎来一场革命性的变革。但图生代码究竟能直到什么程度?本文结合一款图生代码的实例程序整理了一些有代表意义…

如何在 DigitalOcean Droplet 云主机上创建 Ubuntu 服务器

在本文中,你将通过 DigitalOcean 的管理面板创建一个 Ubuntu 服务器,并将其配置为使用你的 SSH 密钥。设置好服务器后,你可以在其上部署应用程序和网站。 本教程是DigitalOcean云课程简介的一部分,它指导用户完成将应用程序安全地…