网页可读内容抽取 API 数据接口

news2024/11/16 19:26:28

网页可读内容抽取 API 数据接口

智能提取文章关键元素信息,智能抽取,多种元素信息。

gugudata_api_cover

1. 产品功能

  • 智能提取网页可阅读内容;
  • 提供网页可阅读内容的 HTML 代码;
  • 支持传递网页 HTML 或网页 URL 参数;
  • 支持多种元素信息抽取,包括文章标题、作者、文字方向、语言、内容、内容(不包含 HTML 标签,按段落分割)、文章长度、文章摘要、网站名称、文章发布时间;
  • 秒级解析性能,支持高并发;
  • 数据持续更新与维护;
  • 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
  • 全面兼容 Apple ATS;
  • 全国多节点 CDN 部署;
  • 接口极速响应,多台服务器构建 API 接口负载均衡;
  • 接口调用状态与状态监控

2. API 文档

接口详情: https://www.gugudata.com/api/details/readability

接口地址: https://api.gugudata.com/websitetools/readability

返回格式: application/json; charset=utf-8

请求方式: POST

请求协议: HTTPS

请求示例: https://api.gugudata.com/websitetools/readability

数据预览: https://www.gugudata.com/preview/readability

接口测试: https://api.gugudata.com/websitetools/readability/demo

3. 请求参数

参数名参数类型是否必须默认值备注
appkeystringYOUR_APPKEY付费后获取的 APPKEY
htmlstringYOUR_VALUE需要抽取的网页 HTML 内容,与参数 url 二选一
urlstringYOUR_VALUE需要抽取的网页 URL 地址,与参数 html 二选一。(我们不处理因源站反爬而不能正常请求网页内容进行后续处理的问题)

4. 返回参数

参数名参数类型备注
DataStatus.RequestParameterstring接口请求参数
DataStatus.StatusCodeint接口返回状态码
DataStatus.StatusDescriptionstring接口返回状态说明
DataStatus.ResponseDateTimestring接口数据返回时间
DataStatus.DataTotalCountint此条件下的总数据量,一般用于分页计算
Data.Titlestring文章标题
Data.Bylinestring文章作者
Data.Dirstring文章文字方向
Data.Langstring文章语言
Data.Contentstring文章内容
Data.TextContentstring文章内容(不包含 HTML 标签,按段落分割)
Data.Lengthint文章长度
Data.Excerptstring文章摘要
Data.SiteNamestring网站名称
Data.PublishedTimestring[]文章发布时间

5. 接口 HTTP 响应标准状态码

状态码状态码解释备注
200接口正常响应业务状态码参见下方 接口自定义状态码
403请求频率超限CDN 层通过 IP 请求频率智能判断,一般的高频请求不会触发此状态码

6. 接口响应状态码

自定义状态码自定义状态码解释备注
200正常返回
400参数错误
402APPKEY 错误请检查传递的 APPKEY 是否为开发者中心获取到的值
403账号欠费请及时关注订单到期短信提醒
429请求频率受限每秒请求不能超过 100 次
500接口响应错误

7. 开发语言请求示例代码

示例代码包含的开发语言:C#, Go, Java, jQuery, Node.js, Objective-C, PHP, Python, Ruby, Swift 等,其他语言进行对应的 RESTful API 请求实现即可。

code demo

8. 常见问题 Q&A

  • Q: 数据请求有缓存吗?

    A: 所有的数据都是直接返回的,部分周期性数据在更新周期内数据是缓存的。

  • Q: 如何保证请求时 key 的安全性?

    A: 一般建议将对我们 API 的请求放置在您应用的后端服务中发起,您应用的所有前端请求都应该指向您自己的后端服务,这样的架构也更加地纯粹且易维护。

  • Q: 接口可以用于哪些开发语言?

    A: 可以使用于所有可以进行网络请求的开发语言,用于您项目快速地进行数据构建。

  • Q: 接口的性能可以保证吗?

    A: 接口后台架构和我们给企业提供的商业项目架构一致,您可以通过访问测试接口查看接口相关返回性能与信息。


咕咕数据,专业的数据提供商,提供专业全面的数据接口、商业数据分析,让数据成为您的生产原料。

image-20200716141435988

咕咕数据基于我们七年来为企业客户提供的千亿级数据存储与性能优化、相关海量基础数据支撑,将合规的部分通用数据、通用功能抽象成产品级数据 API,大大满足了用户在产品开发过程中对基础数据的需求,同时降低了海量数据的存储与运维成本,以及复杂功能的技术门槛与人力开发成本。

除了我们已开放的分类数据与功能接口外,还有海量数据正在整理、清洗、整合、构建中,后期会开放更多的数据与云端功能接口 API 供用户使用。

目前已开放的数据接口 API

  • [条码工具] 通用二维码生成
  • [条码工具] Wi-Fi 无线网二维码生成
  • [条码工具] 通用条形码生成
  • [图像识别] 通用文件流 OCR 到文本
  • [图像识别] 通用 OCR
  • [图像识别] 通用图片 OCR 到 Word
  • [图像识别] HTML 转 PDF
  • [图像识别] HTML 转 Word
  • [图像识别] Markdown 转 PDF
  • [图像识别] PDF 解析格式化输出
  • [区域/坐标] 全国大学高校基础信息
  • [区域/坐标] 地理坐标逆编码
  • [区域/坐标] IP 地址定位
  • [区域/坐标] 全国省市区街道区域信息
  • [区域/坐标] 地理坐标系转换
  • [元数据/字典] 历年高考省录取分数线
  • [元数据/字典] 历年高考高校录取分数线
  • [元数据/字典] 历年高考专业录取分数线
  • [元数据/字典] 全国大学高校专业数据
  • [新闻/资讯] 软件开发技术博文头条
  • [新闻/资讯] 获取任意链接文章正文
  • [新闻/资讯] 公众号头条文章
  • [新闻/资讯] 获取任意链接正文图片
  • [新闻/资讯] 获取公众号文章封面
  • [新闻/资讯] 幽默笑话大全
  • [短信/语音] 手机归属地查询
  • [短信/语音] 国际手机号码检查纠正
  • [文字/文本] 中文文本分词
  • [文字/文本] 中英文排版规范化
  • [文字/文本] 百万中国对联数据
  • [文字/文本] 国际标准书号 ISBN
  • [文字/文本] 简体繁体互转
  • [文字/文本] 唐诗宋词大全
  • [文字/文本] 关键字摘要智能提取
  • [文字/文本] 文本语义相似度检测
  • [文字/文本] NLP中文智能纠错
  • [文字/文本] 人工智能对联生成
  • [文字/文本] NLP 语种检测
  • [天气/空气质量] 全国天气预报信息
  • [天气/空气质量] 全国实时空气质量指数
  • [天气/空气质量] 日出与日落时间
  • [天气/空气质量] 农历与二十四节气
  • [网站工具] 获取任意站点标题与图标
  • [股票行情] 美股实时行情数据
  • [股票行情] 美股历史行情数据
  • [股票行情] 美股分时交易数据
  • [股票行情] 美股历年基本财务数据
  • [股票行情] 港股实时行情数据
  • [股票行情] 港股历史行情数据
  • [股票行情] 港股分时交易数据
  • [股票行情] 港股上市公司公告
  • [股票行情] 港股历年三大财务报表
  • [股票行情] A 股实时行情数据
  • [股票行情] A 股历史行情数据
  • [股票行情] A 股分时交易数据
  • [股票行情] A 股历年三大财务报表
  • [股票行情] 中国股票指数数据
  • [股票行情] A 股个股信息查询
  • [股票行情] A 股历年财务指标
  • [股票行情] A 股指数成分数据
  • [股票行情] A 股指数历史数据
  • [股票行情] A 股盘前数据
  • [股票行情] A 股分笔交易数据
  • [股票行情] A 股交易日历
  • [股票行情] 期权实时行情数据
  • [股票行情] 基金基本信息列表
  • [股票行情] A 股股票代码
  • [股票行情] 指数型基金基本信息
  • [股票行情] 开放式基金净值实时数据
  • [股票行情] 开放式基金净值历史数据
  • [股票行情] 科创板历史行情数据
  • [股票行情] 美股粉单实时行情数据
  • [股票行情] 分类美股实时行情数据
  • [股票行情] 公募开放式基金实时数据
  • [股票行情] 公募开放式基金历史数据
  • [股票行情] 场内交易基金实时数据
  • [股票行情] 场内交易基金历史数据
  • [股票行情] 场内交易基金分时行情
  • [股票行情] 开放式基金实时排行
  • [股票行情] 开放式场内交易基金排行
  • [股票行情] A 股指数分时行情数据
  • [股票行情] 开放式基金净值估算数据
  • [股票行情] 港股指数实时行情数据
  • [股票行情] 港股指数历史行情数据
  • [股票行情] 港股基础信息数据
  • [股票行情] A 股个股资金流排行
  • [股票行情] A 股个股资金流
  • [股票行情] A 股买卖盘口数据
  • [股票行情] 国际货币汇率
  • [体育/比赛] 历年奥运比赛数据
  • [网站工具] 获取任意站点标题与图标

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1418327.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Springboot入门教程详解

Springboot入门教程详解 博客主页:划水的阿瞒的博客主页 欢迎关注🖱点赞🎀收藏⭐留言✒ 系列专栏:Springboot入门教程详解首发时间:🎞2024年1月29日🎠 如果觉得博主的文章还不错的话&#xff0c…

深入解析美颜SDK和动态贴纸技术的工作原理与应用

美颜SDK和动态贴纸技术作为图像处理领域的瑰宝,为用户提供了实时、高质量的美化效果。 一、美颜SDK的工作原理 美颜SDK是一种集成在移动应用、直播平台中的处理工具,通过算法实现实时美颜效果。 1.人脸检测与关键点定位 美颜的第一步是识别图像中的人…

Python基础篇: python安装

Python的安装 一、了解python二、官网找到下载链接三、安装3.1、选择自定义安装,并且选择添加系统变量3.2、选择软件安装位置,尽量安装在C盘之外的盘内,并且安装路径不要有中文3.3、等待进度条的完成,该过程会比较慢,请…

go语言(二十一)---- channel的关闭

channel不像文件一样需要经常去关闭,只有当你确实没有任何发送数据了,或者你想显示的结束range循环之类的,才去关闭channel。关闭channel后,无法向channel再发送数据,(引发pannic错误后,导致接收…

(Sping Xml方式整合第三方框架)学习Spring的第十天

Spring整合mybatis 1 . 导入Mybatis整合Spring的相关坐标 <dependency><groupId>org.springframework</groupId><artifactId>spring-jdbc</artifactId><version>5.2.13.RELEASE</version></dependency><dependency><…

C#使用OpenCvSharp4库中5个基础函数-灰度化、高斯模糊、Canny边缘检测、膨胀、腐蚀

C#使用OpenCvSharp4库中5个基础函数-灰度化、高斯模糊、Canny边缘检测、膨胀、腐蚀 使用OpenCV可以对彩色原始图像进行基本的处理&#xff0c;涉及到5个常用的处理&#xff1a; 灰度化 模糊处理 Canny边缘检测 膨胀 腐蚀 1、测试图像lena.jpg 本例中我们采用数字图像处…

微搭低代码从入门到精通01应用介绍

目录 1 学习路线图2 应用介绍3 编辑器介绍总结 低代码的概念于2014年由 Forrester 首次正式提出。其将低代码定义为&#xff1a;能够以“最少的手写代码”和设置快速开发应用、配置和部署业务应用程序。 不同应用厂商的解法不一样&#xff0c;Gartner评估了400多款低代码/无代码…

2024Cypress自动化测试开发指南!

cypress是基于JavaScript语言为编写语言的自动化测试开发工具&#xff0c;配合使用cucumber测试开发框架&#xff0c;以node.js为服务进程&#xff0c;可以简单的帮助测试人员完成需要人工手点的所有页面人机交互操作&#xff0c;可以模拟键盘和鼠标输入&#xff0c;快捷完成ca…

C++STL之map、set的使用和模拟实现

绪论​&#xff1a; “我这个人走得很慢&#xff0c;但是我从不后退。——亚伯拉罕林肯”&#xff0c;本章是接上一章搜索二叉树中红黑树的后续文章&#xff0c;若没有看过强烈建议观看&#xff0c;否则后面模拟实现部分很看懂其代码原理。本章主要讲了map、set是如何使用的&am…

qemu搭建arm64 linux kernel环境

一、环境准备 ubuntu 22.04 内核源码&#xff1a;linux-6.6.1 &#xff08;直接上最新版&#xff09; 下载链接&#xff1a;The Linux Kernel Archives 交叉编译工具链&#xff1a; sudo apt-get install gcc-12-aarch64-linux-gnu 具体能用的版本gcc-XX-arch64-linux-gnu…

Demo: 前端生成条形码并打印

前端生成条形码并打印 安装依赖&#xff1a; npm i print-js // 打印 npm i jsbarcode // 生成条形码 <template><div id"printContent" style"display: none;"><div id"elTable"><div class"name">名称&…

SpringBoot + Mybatis 快速入门实战

一.创建Spring项目 出现报错的话&#xff0c;换一个jdk创建&#xff0c;一般java 8 选择Spring Web 测试一下 默认端口8080&#xff0c;但是Vue也需要8080&#xff0c;因此&#xff0c;后端设置一个端口3000 再次测试&#xff0c;成功 此处&#xff0c;如何kill一个端口占…

人生,就是一场断舍离

常言道&#xff1a;“尽人事&#xff0c;听天命。”人世间&#xff0c;除了生死皆是小事&#xff0c;不必过度留恋&#xff0c;不必消耗自己&#xff0c;当你不懂得断舍离&#xff0c;你会发现&#xff0c;人生会痛苦不少。有时候&#xff0c;我们不会被难题所击倒&#xff0c;…

一键部署私有化的思维导图SimpleMindMap

简介 SimpleMindMap 是一个可私有部署的web思维导图工具。它提供了丰富的功能和特性&#xff0c;包含插件化架构、多种结构类型&#xff08;逻辑结构图、思维导图、组织结构图等&#xff09;、节点内容支持文本、图片、图标、超链接等&#xff0c;支持拖拽、导入导出功能、快捷…

cocos creator 调用预设体Prefab中的方法(调用另一个节点的方法)

调用预设体中的方法 通过cc.instantiate(this.star)创建这个预设体实例这个star预设体中添加了一个脚本组件star.ts 获取到这个脚本组件star.getComponent(‘star’).test()&#xff0c;并调用其中的test()方法同理可以用该方式像另一个节点中传值 //星星预设体property(cc.Pr…

最新GPT4.0使用教程,AI绘画-Midjourney绘画,GPT语音对话使用,DALL-E3文生图+思维导图一站式解决

一、前言 ChatGPT3.5、GPT4.0、GPT语音对话、Midjourney绘画&#xff0c;文档对话总结DALL-E3文生图&#xff0c;相信对大家应该不感到陌生吧&#xff1f;简单来说&#xff0c;GPT-4技术比之前的GPT-3.5相对来说更加智能&#xff0c;会根据用户的要求生成多种内容甚至也可以和…

【C++杂货铺】详解类和对象 [中]

博主&#xff1a;代码菌-CSDN博客 专栏&#xff1a;C杂货铺_代码菌的博客-CSDN博客 目录 &#x1f308;前言&#x1f308; &#x1f4c1; 类的6个默认成员函数 &#x1f4c1; 构造函数 &#x1f4c2; 概念 &#x1f4c2; 特性&#xff08;灰常重要&#xff09; &#x1f4c…

用友U8接口-部署和简要说明(1)

概括 本专栏文章目的说明对目前用友U8ERP接口介绍对底层接口二次封装的介绍 说明 过去发布过介绍U8接口文章简介&#xff0c;参考以下链接。 U8接口开发方式 本专栏文章与下面的HTTP接口相辅相成&#xff0c;主要是写给正在使用&#xff0c;或未来使用本套接口的开发人员&am…

Harmony的自定义组件和Page的数据同步

在开发过程中会经常使用自定义组件,就会遇到一个问题,在页面中引入组件后,如何把改变的值传递到自定义组件中呢,这就用到了装饰器,在这是单向传递的,用的装饰器是@State和@Prop @State在page页面中监听数据的变化 @Prop在自定义组件中监听page页面传递过来的变化值,并赋…

关于开展人工智能从业人员“计算机视觉处理设计开发工程师”专项培训(第二期)的通知!

近日我们刚刚结束了《计算机视觉处理设计开发工程师》证书第一期培训&#xff0c;培训效果良好&#xff0c;所有学员均通过工信部统一线上考试&#xff0c;坐等证书了。鉴于学员们的反应我们第二期课程如约而至。 证书出台背景&#xff1a;为进一步贯彻落实中共中央印发《关于深…