网页可读内容抽取 API 数据接口
智能提取文章关键元素信息,智能抽取,多种元素信息。
1. 产品功能
- 智能提取网页可阅读内容;
- 提供网页可阅读内容的 HTML 代码;
- 支持传递网页 HTML 或网页 URL 参数;
- 支持多种元素信息抽取,包括文章标题、作者、文字方向、语言、内容、内容(不包含 HTML 标签,按段落分割)、文章长度、文章摘要、网站名称、文章发布时间;
- 秒级解析性能,支持高并发;
- 数据持续更新与维护;
- 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
- 全面兼容 Apple ATS;
- 全国多节点 CDN 部署;
- 接口极速响应,多台服务器构建 API 接口负载均衡;
- 接口调用状态与状态监控
2. API 文档
接口详情: https://www.gugudata.com/api/details/readability
接口地址: https://api.gugudata.com/websitetools/readability
返回格式: application/json; charset=utf-8
请求方式: POST
请求协议: HTTPS
请求示例: https://api.gugudata.com/websitetools/readability
数据预览: https://www.gugudata.com/preview/readability
接口测试: https://api.gugudata.com/websitetools/readability/demo
3. 请求参数
参数名 | 参数类型 | 是否必须 | 默认值 | 备注 |
---|---|---|---|---|
appkey | string | 是 | YOUR_APPKEY | 付费后获取的 APPKEY |
html | string | 否 | YOUR_VALUE | 需要抽取的网页 HTML 内容,与参数 url 二选一 |
url | string | 否 | YOUR_VALUE | 需要抽取的网页 URL 地址,与参数 html 二选一。(我们不处理因源站反爬而不能正常请求网页内容进行后续处理的问题) |
4. 返回参数
参数名 | 参数类型 | 备注 |
---|---|---|
DataStatus.RequestParameter | string | 接口请求参数 |
DataStatus.StatusCode | int | 接口返回状态码 |
DataStatus.StatusDescription | string | 接口返回状态说明 |
DataStatus.ResponseDateTime | string | 接口数据返回时间 |
DataStatus.DataTotalCount | int | 此条件下的总数据量,一般用于分页计算 |
Data.Title | string | 文章标题 |
Data.Byline | string | 文章作者 |
Data.Dir | string | 文章文字方向 |
Data.Lang | string | 文章语言 |
Data.Content | string | 文章内容 |
Data.TextContent | string | 文章内容(不包含 HTML 标签,按段落分割) |
Data.Length | int | 文章长度 |
Data.Excerpt | string | 文章摘要 |
Data.SiteName | string | 网站名称 |
Data.PublishedTime | string[] | 文章发布时间 |
5. 接口 HTTP 响应标准状态码
状态码 | 状态码解释 | 备注 |
---|---|---|
200 | 接口正常响应 | 业务状态码参见下方 接口自定义状态码 |
403 | 请求频率超限 | CDN 层通过 IP 请求频率智能判断,一般的高频请求不会触发此状态码 |
6. 接口响应状态码
自定义状态码 | 自定义状态码解释 | 备注 |
200 | 正常返回 | |
400 | 参数错误 | |
402 | APPKEY 错误 | 请检查传递的 APPKEY 是否为开发者中心获取到的值 |
403 | 账号欠费 | 请及时关注订单到期短信提醒 |
429 | 请求频率受限 | 每秒请求不能超过 100 次 |
500 | 接口响应错误 |
7. 开发语言请求示例代码
示例代码包含的开发语言:C#, Go, Java, jQuery, Node.js, Objective-C, PHP, Python, Ruby, Swift 等,其他语言进行对应的 RESTful API 请求实现即可。
8. 常见问题 Q&A
-
Q: 数据请求有缓存吗?
A: 所有的数据都是直接返回的,部分周期性数据在更新周期内数据是缓存的。
-
Q: 如何保证请求时 key 的安全性?
A: 一般建议将对我们 API 的请求放置在您应用的后端服务中发起,您应用的所有前端请求都应该指向您自己的后端服务,这样的架构也更加地纯粹且易维护。
-
Q: 接口可以用于哪些开发语言?
A: 可以使用于所有可以进行网络请求的开发语言,用于您项目快速地进行数据构建。
-
Q: 接口的性能可以保证吗?
A: 接口后台架构和我们给企业提供的商业项目架构一致,您可以通过访问测试接口查看接口相关返回性能与信息。
咕咕数据,专业的数据提供商,提供专业全面的数据接口、商业数据分析,让数据成为您的生产原料。
咕咕数据基于我们七年来为企业客户提供的千亿级数据存储与性能优化、相关海量基础数据支撑,将合规的部分通用数据、通用功能抽象成产品级数据 API,大大满足了用户在产品开发过程中对基础数据的需求,同时降低了海量数据的存储与运维成本,以及复杂功能的技术门槛与人力开发成本。
除了我们已开放的分类数据与功能接口外,还有海量数据正在整理、清洗、整合、构建中,后期会开放更多的数据与云端功能接口 API 供用户使用。
目前已开放的数据接口 API
- [条码工具] 通用二维码生成
- [条码工具] Wi-Fi 无线网二维码生成
- [条码工具] 通用条形码生成
- [图像识别] 通用文件流 OCR 到文本
- [图像识别] 通用 OCR
- [图像识别] 通用图片 OCR 到 Word
- [图像识别] HTML 转 PDF
- [图像识别] HTML 转 Word
- [图像识别] Markdown 转 PDF
- [图像识别] PDF 解析格式化输出
- [区域/坐标] 全国大学高校基础信息
- [区域/坐标] 地理坐标逆编码
- [区域/坐标] IP 地址定位
- [区域/坐标] 全国省市区街道区域信息
- [区域/坐标] 地理坐标系转换
- [元数据/字典] 历年高考省录取分数线
- [元数据/字典] 历年高考高校录取分数线
- [元数据/字典] 历年高考专业录取分数线
- [元数据/字典] 全国大学高校专业数据
- [新闻/资讯] 软件开发技术博文头条
- [新闻/资讯] 获取任意链接文章正文
- [新闻/资讯] 公众号头条文章
- [新闻/资讯] 获取任意链接正文图片
- [新闻/资讯] 获取公众号文章封面
- [新闻/资讯] 幽默笑话大全
- [短信/语音] 手机归属地查询
- [短信/语音] 国际手机号码检查纠正
- [文字/文本] 中文文本分词
- [文字/文本] 中英文排版规范化
- [文字/文本] 百万中国对联数据
- [文字/文本] 国际标准书号 ISBN
- [文字/文本] 简体繁体互转
- [文字/文本] 唐诗宋词大全
- [文字/文本] 关键字摘要智能提取
- [文字/文本] 文本语义相似度检测
- [文字/文本] NLP中文智能纠错
- [文字/文本] 人工智能对联生成
- [文字/文本] NLP 语种检测
- [天气/空气质量] 全国天气预报信息
- [天气/空气质量] 全国实时空气质量指数
- [天气/空气质量] 日出与日落时间
- [天气/空气质量] 农历与二十四节气
- [网站工具] 获取任意站点标题与图标
- [股票行情] 美股实时行情数据
- [股票行情] 美股历史行情数据
- [股票行情] 美股分时交易数据
- [股票行情] 美股历年基本财务数据
- [股票行情] 港股实时行情数据
- [股票行情] 港股历史行情数据
- [股票行情] 港股分时交易数据
- [股票行情] 港股上市公司公告
- [股票行情] 港股历年三大财务报表
- [股票行情] A 股实时行情数据
- [股票行情] A 股历史行情数据
- [股票行情] A 股分时交易数据
- [股票行情] A 股历年三大财务报表
- [股票行情] 中国股票指数数据
- [股票行情] A 股个股信息查询
- [股票行情] A 股历年财务指标
- [股票行情] A 股指数成分数据
- [股票行情] A 股指数历史数据
- [股票行情] A 股盘前数据
- [股票行情] A 股分笔交易数据
- [股票行情] A 股交易日历
- [股票行情] 期权实时行情数据
- [股票行情] 基金基本信息列表
- [股票行情] A 股股票代码
- [股票行情] 指数型基金基本信息
- [股票行情] 开放式基金净值实时数据
- [股票行情] 开放式基金净值历史数据
- [股票行情] 科创板历史行情数据
- [股票行情] 美股粉单实时行情数据
- [股票行情] 分类美股实时行情数据
- [股票行情] 公募开放式基金实时数据
- [股票行情] 公募开放式基金历史数据
- [股票行情] 场内交易基金实时数据
- [股票行情] 场内交易基金历史数据
- [股票行情] 场内交易基金分时行情
- [股票行情] 开放式基金实时排行
- [股票行情] 开放式场内交易基金排行
- [股票行情] A 股指数分时行情数据
- [股票行情] 开放式基金净值估算数据
- [股票行情] 港股指数实时行情数据
- [股票行情] 港股指数历史行情数据
- [股票行情] 港股基础信息数据
- [股票行情] A 股个股资金流排行
- [股票行情] A 股个股资金流
- [股票行情] A 股买卖盘口数据
- [股票行情] 国际货币汇率
- [体育/比赛] 历年奥运比赛数据
- [网站工具] 获取任意站点标题与图标