PDF 解析格式化输出 API 数据接口

news2024/10/5 21:15:13

PDF 解析格式化输出 API 数据接口

支持输出 TEXT HTML XML TAG,多种格式输出,超精准识别率。

gugudata_api_cover

1. 产品功能

  • 通用的识别接口, 支持标准 PDF 文件解析;
  • 多种格式输出,支持 TEXT HTML XML TAG;
  • HTML 包含完美排版格式;
  • 基于机器学习不断提高的识别率;
  • 1M 文件毫秒级识别性能;
  • 数据持续更新与维护;
  • 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
  • 全面兼容 Apple ATS;
  • 全国多节点 CDN 部署;
  • 接口极速响应,多台服务器构建 API 接口负载均衡;
  • 接口调用状态与状态监控

2. API 文档

接口详情: https://www.gugudata.com/api/details/pdf2format

接口地址: https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}

返回格式: application/json; charset=utf-8

请求方式: POST

请求协议: HTTPS

请求示例: https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}

数据预览: https://www.gugudata.com/preview/pdf2format

接口测试: https://api.gugudata.com/imagerecognition/pdf2format/demo

3. 请求参数

参数名参数类型是否必须默认值备注
appkeystringYOUR_APPKEY付费后获取的 APPKEY
typestringYOUR_VALUE定义输出格式,可选 text|html|xml|tag
pdffilefileYOUR_VALUE文件格式参数,待转换的 PDF 文件

4. 返回参数

参数名参数类型备注
DataStatus.StatusCodeint接口返回状态码
DataStatus.StatusDescriptionstring接口返回状态说明
DataStatus.ResponseDateTimestring接口数据返回时间
DataStatus.DataTotalCountint此条件下的总数据量,一般用于分页计算
Data.Datastring接口解析 PDF 返回数据,格式由 type 参数决定

5. 接口 HTTP 响应标准状态码

状态码状态码解释备注
200接口正常响应业务状态码参见下方 接口自定义状态码
403请求频率超限CDN 层通过 IP 请求频率智能判断,一般的高频请求不会触发此状态码

6. 接口响应状态码

状态码状态码解释备注
100正常返回可通过判断此状态码断言接口正常返回
-1请求失败请求处理请求失败
501参数错误请检查您传递的参数个数以及参数类型是否匹配
502请求频率受限一般建议每秒请求不超过 100 次
503APPKEY 权限超限/订单到期请至开发者中心检查您的 APPKEY 是否到期或是否权限超限
504APPKEY 错误请检查传递的 APPKEY 是否为开发者中心获取到的值
505请求的次数超出接口限制请检查对应接口是否有请求次数限制以及您目前的接口请求剩余次数
900接口内部响应错误接口可用性为 99.999%,如获取到此状态码请邮件联系我们

7. 开发语言请求示例代码

示例代码包含的开发语言:C#, Go, Java, jQuery, Node.js, Objective-C, PHP, Python, Ruby, Swift 等,其他语言进行对应的 RESTful API 请求实现即可。

code demo

8. 常见问题 Q&A

  • Q: 数据请求有缓存吗?

    A: 所有的数据都是直接返回的,部分周期性数据在更新周期内数据是缓存的。

  • Q: 如何保证请求时 key 的安全性?

    A: 一般建议将对我们 API 的请求放置在您应用的后端服务中发起,您应用的所有前端请求都应该指向您自己的后端服务,这样的架构也更加地纯粹且易维护。

  • Q: 接口可以用于哪些开发语言?

    A: 可以使用于所有可以进行网络请求的开发语言,用于您项目快速地进行数据构建。

  • Q: 接口的性能可以保证吗?

    A: 接口后台架构和我们给企业提供的商业项目架构一致,您可以通过访问测试接口查看接口相关返回性能与信息。


咕咕数据,专业的数据提供商,提供专业全面的数据接口、商业数据分析,让数据成为您的生产原料。

image-20200716141435988

咕咕数据基于我们七年来为企业客户提供的千亿级数据存储与性能优化、相关海量基础数据支撑,将合规的部分通用数据、通用功能抽象成产品级数据 API,大大满足了用户在产品开发过程中对基础数据的需求,同时降低了海量数据的存储与运维成本,以及复杂功能的技术门槛与人力开发成本。

除了我们已开放的分类数据与功能接口外,还有海量数据正在整理、清洗、整合、构建中,后期会开放更多的数据与云端功能接口 API 供用户使用。

目前已开放的数据接口 API

  • [条码工具] 通用二维码生成
  • [条码工具] Wi-Fi 无线网二维码生成
  • [条码工具] 通用条形码生成
  • [图像识别] 通用 OCR
  • [图像识别] 通用图片 OCR 到 Word
  • [图像识别] HTML 转 PDF
  • [图像识别] HTML 转 Word
  • [图像识别] Markdown 转 PDF
  • [图像识别] PDF 解析格式化输出
  • [区域/坐标] 全国大学高校基础信息
  • [区域/坐标] 地理坐标逆编码
  • [区域/坐标] IP 地址定位
  • [区域/坐标] 全国省市区街道区域信息
  • [区域/坐标] 地理坐标系转换
  • [元数据/字典] 历年高考省录取分数线
  • [元数据/字典] 历年高考高校录取分数线
  • [元数据/字典] 历年高考专业录取分数线
  • [新闻/资讯] 软件开发技术博文头条
  • [新闻/资讯] 获取任意链接文章正文
  • [新闻/资讯] 公众号头条文章
  • [新闻/资讯] 获取任意链接正文图片
  • [新闻/资讯] 获取公众号文章封面
  • [新闻/资讯] 幽默笑话大全
  • [短信/语音] 手机归属地查询
  • [短信/语音] 国际手机号码检查纠正
  • [文字/文本] 中文文本分词
  • [文字/文本] 中英文排版规范化
  • [文字/文本] 百万中国对联数据
  • [文字/文本] 国际标准书号 ISBN
  • [文字/文本] 简体繁体互转
  • [文字/文本] 唐诗宋词大全
  • [文字/文本] 关键字摘要智能提取
  • [文字/文本] 文本语义相似度检测
  • [文字/文本] NLP中文智能纠错
  • [文字/文本] 人工智能对联生成
  • [文字/文本] NLP 语种检测
  • [天气/空气质量] 全国天气预报信息
  • [天气/空气质量] 全国实时空气质量指数
  • [天气/空气质量] 日出与日落时间
  • [天气/空气质量] 农历与二十四节气
  • [网站工具] 获取任意站点标题与图标
  • [股票行情] 美股实时行情数据
  • [股票行情] 美股历史行情数据
  • [股票行情] 美股分时交易数据
  • [股票行情] 美股历年基本财务数据
  • [股票行情] 港股实时行情数据
  • [股票行情] 港股历史行情数据
  • [股票行情] 港股分时交易数据
  • [股票行情] 港股上市公司公告
  • [股票行情] 港股历年三大财务报表
  • [股票行情] A 股实时行情数据
  • [股票行情] A 股历史行情数据
  • [股票行情] A 股分时交易数据
  • [股票行情] A 股历年三大财务报表
  • [股票行情] 中国股票指数数据
  • [股票行情] A 股个股信息查询
  • [股票行情] A 股历年财务指标
  • [股票行情] A 股指数成分数据
  • [股票行情] A 股指数历史数据
  • [股票行情] A 股盘前数据
  • [股票行情] A 股分笔交易数据
  • [股票行情] A 股交易日历
  • [股票行情] 期权实时行情数据
  • [股票行情] 基金基本信息列表
  • [股票行情] 指数型基金基本信息
  • [股票行情] 开放式基金净值实时数据
  • [股票行情] 开放式基金净值历史数据
  • [股票行情] 科创板历史行情数据
  • [股票行情] 美股粉单实时行情数据
  • [股票行情] 分类美股实时行情数据
  • [股票行情] 公募开放式基金实时数据
  • [股票行情] 公募开放式基金历史数据
  • [股票行情] 场内交易基金实时数据
  • [股票行情] 场内交易基金历史数据
  • [股票行情] 场内交易基金分时行情
  • [体育/比赛] 历年奥运比赛数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/390060.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

蒙特卡洛树搜索(MTCS)

一、目标 一种启发式的搜索算法,在搜索空间巨大的场景下比较有效 算法完成后得到一棵树,这棵树可以实现:给定一个游戏状态,直接选择最佳的下一步 二、算法四阶段 1、选择(Selection) 父节点选择UCB值最…

【ONE·C || 文件操作】

总言 C语言:文件操作。    文章目录总言1、文件是什么?为什么需要文件?1.1、为什么需要文件?1.2、文件是什么?2、文件的打开与关闭2.1、文件指针2.2、文件打开和关闭:fopen、fclose2.3、文件使用方式3、文…

windows下go安装并使用protobuf

go使用protobuf的过程以及可能出现的问题1. 下载proto windows版本并安装2. 安装protoc-gen-go3. proto文件转go文件报错protoc-gen-go: unable to determine go import path for "xxxx.proto"4. 生成的go文件中google.golang.org/protobuf/reflect/protoreflect依赖…

Zookeeper3.5.7版本——客户端命令行操作(znode 节点数据信息)

目录一、命令行语法二、znode 节点数据信息2.1、查看当前znode中所包含的内容2.2、查看当前节点详细数据2.3、节点详细数据解释一、命令行语法 命令行语法列表 命令基本语法功能描述help显示所有操作命令ls path使用 ls 命令来查看当前 znode 的子节点 [可监听]-w 监听子节点变…

粒子群优化最小二乘支持向量机SVM回归分析,pso-lssvm回归预测

目录 支持向量机SVM的详细原理 SVM的定义 SVM理论 SVM应用实例,粒子群优化最小二乘支持向量机SVM回归分析 代码 结果分析 展望 支持向量机SVM的详细原理 SVM的定义 支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大…

视觉SLAM十四讲ch6 非线性优化笔记

视觉SLAM十四讲ch6 非线性优化笔记本讲目标上讲回顾状态估计问题非线性最小二乘Gauss-Newton:高斯牛顿Levenburg-Marquadt:列文伯格-马夸尔特小结实践:CERES实践:G2O本讲目标 理解最小二乘法的含义和处理方式。 理解Gauss-Newton…

CopyOnWriteArrayList 源码解读

一、CopyOnWriteArrayList 源码解读 在 JUC 中,对于 ArrayList 的线程安全用法,比较推崇于使用 CopyOnWriteArrayList ,那 CopyOnWriteArrayList是怎么解决线程安全问题的呢,本文带领大家一起解读下 CopyOnWriteArrayList 的源码…

Day908.joinsnljdist和group问题和备库自增主键问题 -MySQL实战

join&snlj&dist和group问题和备库自增主键问题 Hi,我是阿昌,今天学习记录的是关于join&snlj&dist和group问题和备库自增主键问题的内容。 一、join 的写法 join 语句怎么优化?中,在介绍 join 执行顺序的时候&am…

基础复习第二十三天  File类与IO流的使用

java.io.File类:文件或文件目录路径的抽象表现形式,与平台无关。概述File能新建、删除、重命名文件或目录,但File不能访问文件内容本身。如果需要访问文件内容本身,则需要使用输入/输出流。想要在Java程序中表示一个真实存在的文件或目录&…

【Java并发编程】CountDownLatch

CountDownLatch是JUC提供的解决方案 CountDownLatch 可以保证一组子线程全部执行完牛后再进行主线程的执行操作。例如,主线程启动前,可能需要启动并执行若干子线程,这时就可以通过 CountDownLatch 来进行控制。 CountDownLatch是通过一个线程…

6. unity之脚本

1. 说明 当整个游戏运行起来之后,我们无法再借助鼠标来控制物体,此时可以使用脚本来更改物体的各种姿态,驱动游戏的整体运动逻辑。 2. 脚本添加 首先在Assets目录中,新创建一个Scripts文件夹,在该文件内右键鼠标选择…

opengl、opengl es、webgl介绍与opengl开发入门

1、OpenGL OpenGL(英语:Open Graphics Library,译名:开放图形库或者“开放式图形库”)常用于CAD、虚拟现实、科学可视化程序和电子游戏开发。OpenGL的高效实现(利用了图形加速硬件)存在于Windo…

HCIP-5OSPF区域类型学习笔记

1、OSPF区域类型 OSPF提出了区域的概念(AREA),区域是将所有运行OSPF 的路由器人为的分成不同的组,以区域ID来标示。在区域内路由计算的方法不变,由于划分区域之后,每个区域内的路由器不会很多,…

【Python从入门到进阶】10、流程控制语句-循环语句(for-while)

接上篇《9、流程控制语句-条件语句(if-else)》 上一篇我们学习了Python的控制流语句的概念,以及其中的条件语句(if/else),本篇我们来学习控制流语句中的循环语句(for/while)。 一、Python中的循环 Python的循环结构就是让程序“杀个回马枪”&#xff0…

修复电子管

年前在咸鱼捡漏买到了10根1G4G电子管,这是一种直热三极管,非常的少见。买回来的时候所有的灯丝都是通的,卖家说都是新的,库存货,但是外观实在是太糟糕了,看着就像被埋在垃圾场埋了几十年的那种,…

ECharts可视化库--常用组件

目录 一.series系列 二.常见组件 1.标题title 2.图例legend 3.工具栏toolbox 4.提示框tooltip 5.坐标轴 xAxis yAsix 6.series系列 上一篇已经介绍了ECharts库的导入工作和绘制基本的图标,今天我们来了解一下常用的组件,如果对数据可视化感兴…

嵌入式安防监控项目——前期知识复习

目录 一、概述 二、C语言 三、数据结构 四、IO进程 五、网络 六、ARM体系结构和接口技术 七、系统移植 八、内核驱动 一、概述 我再报班之前学过51和32,不过都是自学的。报班开始先从应用层入手的,C语言和数据结构。只要是个IT专业的大学这都是必…

【剑指Offer】JZ14--剪绳子

剪绳子详解1.问题描述2.解题思路3.具体实现1.问题描述 2.解题思路 首先想到的思路:因为是求乘积的最大值,所以如果截取剩下的是1,那还是它本身就没有意义。从此出发,考虑绳子长度是2、3、4、5…通过穷举法来找规律。 值–》拆分–…

Keychron K7 Pro 轻薄矮轴机械键盘开箱体验

文章目录1. 拆箱2. 零件3. 外观4. 声音5. 特点5.1 有线 / 无线5.2 RGB背光5.3 轻薄5.4 mac / win / iphone 切换5.5 人体工程学支持5.6 扁平双射PBT键帽5.7 重新设计的稳定器5.8 扁平Gateron(佳达隆)轴体5.9 热插拔5.10 支持 QMK / VIA 改键6. 对比6.1 K7 与 K7 Pro 参数对比6.…

Windows10下使用CMake编译ITK5.2.1步骤

编译环境:Windows10VS2017Cmak3.24.0ITK5.2.1 编译步骤: 1、下载ITK到本地:ITK官网Download | ITK,ITK5.2.1下载地址 https://github.com/InsightSoftwareConsortium/ITK/releases/download/v5.2.1/InsightToolkit-5.2.1.zip ​…