5分钟制作可直接导入GPTs知识库中的自动爬虫

news2025/1/10 20:40:34

它能从一个或多个网址爬取网站内容,然后生成JSON文件格式。这样爬取的内容可以直接导入到GPTs知识库中,方便你创建自定义知识库的GPTs。比如你有自己的网站或者资料库,但是整理起来太麻烦,就可以使用这个工具。

主要功能:

  • 爬取网站内容:用户通过配置文件设置目标网址和选择器,GPT-Crawler 自动从这些网站上收集信息。

  • 生成知识文件:爬取的内容被整理成 JSON 文件,这个文件包含了从网站上获取的所有知识。

  • 创建自定义 GPT:利用这个知识文件,用户可以在 OpenAI 平台上创建自己定制的 GPT 聊天机器人。

  • 也可以使用爬取的内容创建Assistant自定义助手,这样你就可以通过一个 API来访问这些生成的知识。可以将这些知识集成到你自己的产品或应用中去。

简单来说,就是提供了一种方式,让你能够在你的软件或产品中使用这些爬取并整理好的知识。

具体步骤:

确保您已安装 Node.js 版本大于等于 16

克隆存储库

git clone https://github.com/builderio/gpt-crawler

安装依赖项

npm i


如果您没有安装 Playwright:

npx playwright install

配置爬虫

打开 config.ts 文件并编辑 url 和 selectors 属性以满足您的需求。

例如,要爬取 Builder.io 文档以创建我们自定义的 GPT,您可以使用:

export const config: Config = {url: "https://www.builder.io/c/docs/developers",match: "https://www.builder.io/c/docs/**",selector: `.docs-builder-container`,maxPagesToCrawl: 50,outputFileName: "output.json",};

查看文件顶部的类型定义,了解您可以配置的内容:

type Config = {/** URL to start the crawl */url: string;/** Pattern to match against for links on a page to subsequently crawl */match: string;/** Selector to grab the inner text from */selector: string;/** Don't crawl more than this many pages */maxPagesToCrawl: number;/** File name for the finished data */outputFileName: string;/** Optional function to run for each page found */onVisitPage?: (options: {page: Page;pushData: (data: any) => Promise<void>;}) => Promise<void>;/** Optional timeout for waiting for a selector to appear */waitForSelectorTimeout?: number;};

运行爬虫

npm start

上传你的数据到OpenAI

爬取将在项目的根目录生成一个名为 output.json 的文件。将其上传到 OpenAI 以创建您的自定义助手或自定义 GPT。

创建自定义 GPT 使用此选项可以通过用户界面访问您生成的知识,并轻松与他人共享

注意:您可能需要一个付费的 ChatGPT 计划来创建和使用自定义 GPT。

1.前往https://chat.openai.com/

2.单击左下角的您的姓名

3.在菜单中选择“我的 GPT”

4.选择“创建一个 GPT”

5.选择“配置”

6.在“知识”下选择“上传文件”并上传您生成的文件

5c7db691851b16c737653dc5435d16ae.jpeg


创建自定义助手

使用此选项可以通过 API 访问生成的知识,以便将其集成到您的产品中。

1.前往https://platform.openai.com/assistants

2.单击“+ 创建”

3.选择“上传”并上传您生成的文件

203471cf19f38a5d23c1b009332f199a.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1230898.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

算法分析与设计课后练习21

某工业生产部门根据国家计划的安排,拟将某种高效率的5台机器,分别分配给A,B,C三个工厂,各工厂在获得不同数量的这种机器后,可以为国家盈利如下表所示。请找出一种5台机器的分配方式,使得这5台机器盈利最大。 使用动态规划,令dp[i][j]=max(dp[i-1][j-k]+profit[i][k])…

【计算机网络学习之路】UDP socket编程

文章目录 前言一. 网络通信本质端口号TCP与UDP网络字节序 二. socket编程接口socket()和sockaddr结构体 三. 简单echo服务结束语 前言 本系列文章是计算机网络学习的笔记&#xff0c;欢迎大佬们阅读&#xff0c;纠错&#xff0c;分享相关知识。希望可以与你共同进步。 一. 网…

【UE】线框材质

一、方式1 新建一个材质&#xff0c;混合模式设置为“已遮罩”&#xff0c;勾选“双面” 勾选“线框” 然后可以随便给一个自发光颜色&#xff0c;这样最基本的线框材质就完成了 二、方式2 新建一个材质&#xff0c;混合模式设置为“已遮罩”&#xff0c;勾选“双面”&#x…

yolo系列模型训练数据集全流程制作方法(附数据增强代码)

yolo系列的模型在目标检测领域里面受众非常广&#xff0c;也十分流行&#xff0c;但是在使用yolo进行目标检测训练的时候&#xff0c;往往要将VOC格式的数据集转化为yolo专属的数据集&#xff0c;而yolo的训练数据集制作方法呢&#xff0c;最常见的也是有两种&#xff0c;下面我…

AC修炼计划(AtCoder Beginner Contest 328)

传送门&#xff1a; Toyota Programming Contest 2023#7&#xff08;AtCoder Beginner Contest 328&#xff09; - AtCoder 本章对于自己的提升&#xff1a;dfs的运用&#xff0c;带权并查集&#xff0c;以及状压dp。 A&#xff0c;B&#xff0c;C题比较简单&#xff0c;直接…

Adult数据集预处理

因为adult数据集没有列名&#xff0c;先设置列名 df pd.read_csv(adult.csv, header None, names [age, workclass, fnlwgt, education, education-num, marital-status, occupation, relationship, race,sex, capital-gain, capital-loss, hours-per-week, native-countr…

【Qt开发流程之】布局管理

介绍 一个界面呈现&#xff0c;如果要让用户有更好的观感&#xff0c;布局必不可少。 【Qt之布局】QVBoxLayout、QHBoxLayout、QGridLayout、QFormLayout介绍及使用 链接: https://blog.csdn.net/MrHHHHHH/article/details/133915208 qt布局类图&#xff1a; Qt布局是Qt图形…

Jmeter监听器

Jmeter监听器 一、监听器介绍二、监听器的类型三、监听器详解3.1 察看结果树3.2 Summary Report3.3 聚合报告3.4 后端监听器3.5 Aggregate Graph3.6 Comparison Assertion Visualizer&#xff08;比较断言可视化器&#xff09;3.7 JSR223 Listener3.8 Response Time Graph3.9 S…

一份WhatsApp矩阵账号营销模式全解,有你不知道的玩法吗?

将WhatsApp营销践行到底&#xff0c;是傲途针对海外Social营销一直在做的事。在WhatsApp全球营销范围越来越广泛、营销模式越来越深入的当下&#xff0c;我们也在实践中积累了一套比较系统而全面的差异化矩阵营销模式&#xff0c;帮助大中小不同类型企业获得了有价值的结果。 …

Linux CentOS7配置网络参数

CentOS6及以前版本中主要使用ifconfig工具&#xff0c;查看、配置网络参数。后来对推荐使用ip命令查看配置网络参数。而centos7中&#xff0c;不再赞成使用ifconfig工具&#xff0c;取而代之的是nmcli工具&#xff0c;服务管理也是以systemctl工具取代了service,这些之前版本的…

HarmonyOS ArkTS语言,运行Hello World(二)

一、认识DevEco Studio界面 进入IDE后&#xff0c;我们首先了解一下基础的界面。整个IDE的界面大致上可以分为四个部分&#xff0c;分别是代码编辑区、通知栏、工程目录区以及预览区。 代码编辑区 1、中间的是代码编辑区&#xff0c;你可以在这里修改你的代码&#xff0c;以…

clickhouse 业务日志告警

一、需求 对入库到clickhouse的业务日志进行告警&#xff0c;达阀值后发送企业微信告警。 方法一、 fluent-bit–>clickhouse(http)<–shell脚本,每隔一分钟获取分析结果 --> 把结果保存到/dev/shm/目录下 <-- node_exporter读取指标入库到prometheus<-- rules…

未来之路:互联网技术驱动汽车行业的创新浪潮

在互联网迅猛发展的今天&#xff0c;它的触角已延伸至各行各业&#xff0c;其中最引人注目的莫过于汽车行业。随着互联网技术的融合&#xff0c;汽车正变得越来越智能&#xff0c;预示着一场关于出行方式的革命。 首先&#xff0c;自动驾驶技术的发展正日益成熟。依托先进的传感…

物联网AI MicroPython学习之语法 PWM脉宽调制模块

学物联网&#xff0c;来万物简单IoT物联网&#xff01;&#xff01; PWM 介绍 模块功能: PWM脉宽调制驱动模块 接口说明 PWM - 构建PWM对象 函数原型&#xff1a;PWM(ch, freq, duty)参数说明&#xff1a; 参数类型必选参数&#xff1f;说明chobjectYPin对象例如&#xf…

pytest-rerunfailures插件之测试用例失败重跑

环境前提&#xff1a; 只有同时满足一下先决条件才能使用pytest-rerunfailures ①python的版本不能过低&#xff1b; ②pytest 5.0或更高版本&#xff1b; 背景&#xff1a; 平时在做接口测试的时候&#xff0c;经常会遇到网络抖动或者环境问题导致测试用例运行失败&#x…

Python的简单web框架flask快速实现详解

文章目录 简介web框架的重要组成部分快速上手flaskflask的第一个应用 flask中的路由不同的http方法静态文件使用模板 总结关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包项目源码合集①Python工具包②Python实战…

UDS诊断入门

UDS定义的是诊断服务&#xff0c;属于应用层的内容&#xff0c;实现诊断通信的底层总线技术有很多&#xff0c;比如CAN&#xff0c;LIN&#xff0c;Ethernet&#xff0c;Flexray等&#xff0c;由于法规强制的OBD接口是CAN总线的&#xff0c;所以绝大多数场景中诊断都是基于CAN实…

kafka原理看这一篇就够了

为何使用消息队列 异步。接口方式实现多个系统协作&#xff0c;如图A系统作为用户请求接收方&#xff0c;需要调用多个系统的接口&#xff0c;这些接口还有可能是在A系统里同步调用&#xff0c;所以最后的接口耗时是多个系统接口耗时的总和&#xff1b;mq方式则可以异步发送消…

netty整合websocket(完美教程)

websocket的介绍&#xff1a; WebSocket是一种在网络通信中的协议&#xff0c;它是独立于HTTP协议的。该协议基于TCP/IP协议&#xff0c;可以提供双向通讯并保有状态。这意味着客户端和服务器可以进行实时响应&#xff0c;并且这种响应是双向的。WebSocket协议端口通常是80&am…

Spring源码-5.aop代理

&#x1f44f;作者简介&#xff1a;大家好&#xff0c;我是爱吃芝士的土豆倪&#xff0c;24届校招生Java选手&#xff0c;很高兴认识大家&#x1f4d5;系列专栏&#xff1a;Spring源码、JUC源码&#x1f525;如果感觉博主的文章还不错的话&#xff0c;请&#x1f44d;三连支持&…