智能爬虫ScrapeGraphAI尝鲜

news2024/9/19 21:03:32

ScrapeGraphAI是一个创新的Python库,它融合了大型语言模型(LLM)和直接图逻辑,为用户提供了一种高效的方法,用于构建针对网站、文档和XML文件的爬虫流水线。以下是关于ScrapeGraphAI的详细介绍:

一、核心特点

  1. 智能化
    • ScrapeGraphAI能够智能地将用户的需求转化为有效的爬取策略,利用先进的自然语言处理技术和图形结构,自动识别和解析网页元素,以提取所需信息。
    • 它支持多种交互方式,包括Ollama、Docker、OpenAI模型、Groq、Azure以及Gemini等,确保在各种环境下都能灵活运作。
  2. 易用性
    • 提供了简洁的API设计,允许用户通过简单的指令来实现复杂的网页数据抽取任务。
    • 详尽的文档和示例,助力用户快速学习和应用。
  3. 灵活性
    • 支持多种大型语言模型和运行环境,如GPT、Gemini、Groq、Azure等,以及本地模型。
    • 提供了多种抓取管道,如SmartScraperGraph(用于单页网站抓取)、SearchGraph(用于多页网站抓取)、SpeechGraph(从网站提取信息并生成音频文件)等,满足不同场景的需求。
  4. 可扩展性
    • 易于整合新的数据源和解析策略,随着技术的发展和用户需求的变化,ScrapeGraphAI能够持续进化。

二、应用场景

ScrapeGraphAI可以在多个领域发挥作用,包括但不限于:

  • 自动化数据收集:如市场趋势分析、竞争对手监控等。
  • 网站维护和更新:定期检查页面变化,确保网站内容的准确性和时效性。
  • 内容管理系统的填充:自动导入结构化信息,提高内容管理效率。
  • 学术研究:从在线资源中抓取相关文献信息,为学术研究提供数据支持。

三、安装与配置

要使用ScrapeGraphAI,用户需要按照以下步骤进行安装和配置:

1、安装Python环境:确保您的计算机上已安装Python,版本>3.8。

2、创建虚拟环境:使用Python的venv模块创建一个虚拟环境,以隔离项目依赖。

conda create -n Scrapegraph python=3.10 -y
conda activate Scrapegraph

        ​​

3、安装ScrapeGraphAI:使用pip命令安装ScrapeGraphAI库和Playwright。

pip install pytest-playwright
pip install scrapegraphai
playwright install

4、配置LLM模型:根据需要配置LLM模型,包括模型名称、温度参数、输出格式等。

本文中采用ollama模型,如何安装请参考网上的教程。

编写抓取脚本:使用ScrapeGraphAI提供的API编写抓取脚本,指定要抓取的网页和数据类型。

四、示例代码

以下是一个使用ScrapeGraphAI的SmartScraperGraph类的示例代码,希望抓取csdn博文的关键信息:

from scrapegraphai.graphs import SmartScraperGraph

graph_config = {
    "llm": {
        "model": "ollama/qwen2:7b",
        "temperature": 0,
        "format": "json",  # Ollama needs the format to be specified explicitly
        "base_url": "http://10.33.19.16:11434",  # set Ollama URL
    },
    "embeddings": {
        "model": "ollama/quentinz/bge-large-zh-v1.5:lates",
        "base_url": "http://10.33.19.16:11434",  # set Ollama URL
    },
    "verbose": True,
}

smart_scraper_graph = SmartScraperGraph(
    prompt="获取文章的标题、作者、发布时间、阅读量、点赞数、收藏数",
    # also accepts a string with the already downloaded HTML code
    source="https://blog.csdn.net/m0_59235945/article/details/140333596",
    config=graph_config
)

result = smart_scraper_graph.run()
print(result)

运行结果如下(通过json格式输出):

原始博文如下:

对比发现,该工具很多属性都解析错误了,而且最大的问题就是它将原文内容进行了润色翻译,导致严重失真。所以该工具的实用场景有待进一步论证,总体来讲,还有很多无法解决的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1994721.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【简历】黑龙某一本大学:JAVA秋招简历指导,面试通过率低

注:为保证用户信息安全,姓名和学校等信息已经进行同层次变更,内容部分细节也进行了部分隐藏 简历说明 这是一份25届黑龙江某一本大学的java简历。校招第一法则就是我们一定要先定求职层次,是大厂中厂还是小厂。因为校招时间点和…

达梦数据库(九) -------- JAVA 的连接配置方式

连接单机数据库配置如下: 集群配置连接如下: 在 dm_svc.conf 文件中配置服务名,通过服务名连接集群可实现故障自动重连。 Window 环境 Windows 平台 dm_svc.conf 文件位 %SystemRoot%\system32 目录下: Linux 环境 Linux 平台…

分布式任务调度与计算框架PowerJob

PowerJob是一款基于Java开发的企业级分布式任务调度与计算框架,它旨在为企业级应用提供统一的调度中心和分布式计算能力,从而简化任务调度的复杂性并降低分布式计算的门槛。 以下是对PowerJob的详细介绍: 一、主要功能特性 使用简单&#x…

Java面试题精选:消息队列(一)

1、为什么使用消息队列 问题用意: 其实就是想问一下消息队列有哪些使用场景,你项目中什么业务场景用到了消息队列,有什么技术挑战。使用MQ后给你带来了什么好处 规范回答: 消息队列的常见使用场景很多,但比较核心的…

WPF学习(12)-Image图像控件+GroupBox标题容器控件

Image图像控件 Image也算是独门独户的控件,因为它是直接继承于FrameworkElement基类。 Image控件就是图像显示控件。Image类能够加载显示的图片格式有.bmp、.gif、.ico、.jpg、.png、.wdp 和 .tiff。要注意的是,加载.gif动画图片时,仅显示第…

58 mysql 存储引擎之 MEMORY

前言 我们这里来看一下 MEMORY 存储引擎, 我们常见的那些 临时表什么的, 都是基于 MEMORY 在之前 我们也曾经调试过 相关内存临时表的信息 它主要是 使用 hp_scan, hp_find_record 等等 api 来操作内存中的信息 我们这里基于 information_schema.TABLES 这张基于 MEMORY 的…

6.3.面向对象技术-设计模式

设计模式 设计模式创建型模型速记口诀 结构型设计模式速记口诀 行为型设计模式速记口诀 练习题 设计模式 上午2-4分,记忆点很多 要具体了解推荐看书籍《大话设计模式》 架构模式:软件设计中的高层决策,例如C/S结构就属于架构模式&#xff0…

赛盈分销亮相AI科技大会暨亚马逊新增长大会,与企业共话跨境品牌发展新机遇!

八月开端,由知无不言与xmars和钱老师课堂联合主办的2024年AI科技大会暨亚马逊新增长大会在深圳宝安顺利开展,为期2天的跨境峰会吸引了上千位优秀的卖家朋友前来感受一场盛夏大狂欢。在本次跨境峰会里,邀请了多位不同领域的先锋人物&#xff0…

在国产芯片上实现YOLOv5/v8图像AI识别-【2.4】导出RKNN模型(第一部分:模型修改)更多内容见视频

本专栏主要是提供一种国产化图像识别的解决方案,专栏中实现了YOLOv5/v8在国产化芯片上的使用部署,并可以实现网页端实时查看。根据自己的具体需求可以直接产品化部署使用。 B站配套视频:https://www.bilibili.com/video/BV1or421T74f 基础…

挖矿木马攻破了服务器

最近被国外的挖矿木马攻破了服务器 根据非法登录,用 #last指令查看登录ip 首先删掉登录主机 #kill -9 pts/0 第二步 #top 看看什么占用cpu高 第三步杀死狂刷CPU的服务 过一分钟后,服务又开始狂刷cpu。 第四步根据pid查到服务地址 #systemctl status…

frameworks 之ServiceManager

frameworks 之ServiceManager 解析启动入口启动AIDL实现类客户端Bp发送讲解1. 获取 BpServiceManager创建代理类 ServiceManagerShim 返回调用对应AIDL方法调用驱动通知 服务端Bn接收讲解注册Binder回调监听Binder消息处理 备注 ServiceManager 作为android中的路由器提供服务注…

正则表达式扩展应用

使用扩展正则表达式 egrep 首先来看一条前面章节学习过的用来去除空白行和注释行的指令: grep -v ^$ regular_express.txt |grep -v ^# 可见,通常的 grep 指令需要使用两次管线命令。那么如果使用扩展正则表达式,则可以简化为:…

4K YouTube to MP3 Pro:跨平台音频提取与转换的好用工具

4K YouTube to MP3 Pro是一款专为追求高品质音频体验的用户设计的跨平台(支持Mac与Windows)音频提取与转换软件。该软件以其卓越的音频提取能力和简便的操作流程,在同类产品中脱颖而出,成为众多用户的心头好。 功能强大&#xff…

股吧评论自动采集工具推荐,一学就会

股市波动无常,股民情绪更是难以捉摸。但想象一下,如果能即时掌握东方财富网股吧里股民的热议话题与情绪倾向,那将对您的投资决策带来怎样的影响?本文将为您揭晓一款易于上手的股民评论自动采集工具,助您把握市场脉搏&a…

钉耙编程(5)

1008 猫咪们狂欢 分析&#xff1a; 会创建一个二分图 代码&#xff1a; #include <bits/stdc.h> #define ll long long #define INF 1e9 using namespace std; const int N10005; const int M100010; struct edge{ll v,c,ne; }e[M]; int h[N],idx1; int d[N],cur[N]; …

武汉流星汇聚:跨境电商行业的快速崛起者,以实力与口碑铸就辉煌

在跨境电商这片充满机遇与挑战的蓝海中&#xff0c;武汉流星汇聚电子商务有限公司如同一颗迅速升起的新星&#xff0c;以其独特的经营模式、专业的服务团队和卓越的业绩表现&#xff0c;在短短几年内实现了跨越式的发展&#xff0c;成为了业界内外瞩目的焦点。 自2019年成立以…

【重要通知】关于公众号、淘宝店铺、CSDN等平台更名的公告

尊敬的粉丝/用户朋友们&#xff1a; 您们好&#xff01; 感谢您一直以来对我们平台的支持与信任&#xff01;由于我们已经取得了作品登记证书&#xff0c;平台的名称和登记证书著作权人名称不一致&#xff0c;在打击盗版、防伪标识方面&#xff0c;对我们造成了一定的困扰 &am…

【漏洞复现】某赛通数据泄露防护(DLP)系统 NetSecConfigAjax SQL注入漏洞

0x01 产品简介 某赛通新一代数据泄露防护系统&#xff08;简称 DLP&#xff09;&#xff0c;以服务企事业单位进行数据资产梳理、数据安全防护为目标。系统采用平台化管理&#xff0c;将终端DLP、网络DLP、邮件DLP、存储扫描DLP、API 接口DLP 进行统一管理&#xff0c;模块化控…

共话肿瘤免疫壮丽里程 —— I-O Asia亚洲肿瘤诊疗与药物创新峰会9月广州启程

在2024年的今天&#xff0c;癌症的阴影依然笼罩着全球&#xff0c;它以其无声的侵袭&#xff0c;成为威胁人类健康的隐形杀手。根据国际癌症研究机构&#xff08;IARC&#xff09;的最新数据&#xff0c;全球癌症的发病率持续上升&#xff0c;预计在未来几年内&#xff0c;新发…

事务性邮件接口API如何集成以实现自动化?

事务性邮件接口API有哪些优势&#xff1f;邮件接口API集成方法&#xff1f; 通过集成事务性邮件接口API&#xff0c;企业可以实现邮件发送的自动化&#xff0c;提高效率&#xff0c;增强用户体验。AokSend将探讨如何集成事务性邮件接口API以实现自动化&#xff0c;并提供一些最…