发布中文文档类资源仓库-ChineseDocumentPDF

news2025/1/11 17:50:59

引言

今天中午,排队打饭间隙,刷到新闻,说是:360AILAB-NLP团队开源了中文论文、研报文档场景的轻量化版式分析模型360LayoutAnalysis。

面向中文论文及研报两个场景的轻量化版式分析模型已经开源:

  • Github地址:https://github.com/360AILAB-NLP/360LayoutAnalysis,
  • 模型权重huggingface地址:https://huggingface.co/qihoo360/360LayoutAnalysis

巧的是,这一直是我前一段时间以来想做并且在做的事情,只是刚开了一个小头。

版式分析

因为我发现版式分析是一个很关键的模块,尤其是现阶段RAG广泛应用的前提下,版式分析显得尤为重要。这一点可以用我在RapidStructure中画的框图来说明:
在这里插入图片描述

通过版式分析模型,我们就可以提前知道给定文档中,哪里是表格、哪些是图表,哪些是公式,哪些是文本段落等。因此,版式分析是后续一切工作的基础。

而当前现状是中文文档场景数据集较少,不像英文文档有arXiv网站,国内中文论文并没有一个类似arXiv的聚集地,中文论文都是散落在各个期刊自建网站上。或者是被收录到知网、维普、万方等付费网站上。

因此,我就考虑能否收集一些在线可获取的中文文档,并对它们做标注,算是促进中文文档智能的发展吧!这不360先做了,我就把前期收集的PDF链接做了整理,就有了Chinese Document PDF仓库。

Chinese Document PDF

该仓库主要放置自己爬取国内一些中文论文网站、证券报告的PDF。

因涉及到版权问题,我这里只放置PDF链接和对应的下载脚本,小伙伴可以自行下载。

该资源可以与360发布的版面分析模型相结合使用,具体来说,用他们的模型给新的PDF图像打标注 → 人工校验 → 再次训练模型,迭代更多数据,模型就会越来越准。

在这里插入图片描述
ChineseDocumentPDF: https://github.com/SWHL/ChineseDocumentPDF

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1820214.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

wms海外仓系统排名分析:哪个才更适合中小海外仓

对中小型海外仓来说,想在竞争激烈的市场下生存,关键就在于是否能改变自己落后的仓储管理模式,提升客户满意度和业务流畅度。 wms海外仓系统作为这一领域的关键工具,可以说在很大程度上决定了海外仓的业务标准化程度发展。不过现在…

VMware安装Debian,Debian分区,虚拟机使用NAT模式联网,Linux设置静态IP

官网 https://www.debian.org/download stable是稳定版 win下amd64就行,macOs装arm架构的 安装Debian虚拟机 教程里没有的只管往下点就完了 哪个都行 选镜像 选安装位置 别超过宿主机内核就行 看你需求 NAT模式 虚拟 看你需求 其他的也检查一下 图形安装 选中文 继…

C++:SLT容器-->deque

C:SLT容器-->deque 1. 构造函数2. deque 赋值操作3. deque 大小操作4. deque 插入和删除5. deque 容器数据存取6. deque 排序操作 双端数组&#xff0c;可以对头部和尾部进行插入删除操作 需要导入头文件#include <deque> 1. 构造函数 deque deqT; // 默认构造函数 de…

6.13.1 使用残差神经网络堆叠集成进行乳腺肿块分类和诊断的综合框架

计算机辅助诊断 (CAD) 系统需要将肿瘤检测、分割和分类的自动化阶段按顺序集成到一个框架中&#xff0c;以协助放射科医生做出最终诊断决定。 介绍了使用堆叠的残差神经网络 (ResNet) 模型&#xff08;即 ResNet50V2、ResNet101V2 和 ResNet152V2&#xff09;进行乳腺肿块分类…

单向桥式整流电容滤波电路

假设&#xff1a;1.忽略整流电路内阻&#xff1b;2. 足够大。 一、空载情况 刚开始上升&#xff0c;通过D1、D3给后面供电&#xff0c;这种情况下电容就要被充电&#xff0c;根据前面的假设&#xff0c;设整流电路没有内阻&#xff0c;所以电容充电速度非常快&#xff0c;随着…

Java—集合简述

集合类继承结构图 Collection|---------------------| | | Set List Queue| | | SortedSet ArrayList Deque| LinkedList | NavigableSet Vector ArrayDeque| Stack | TreeSet …

外卖跑腿APP开发指南:探索同城O2O系统源码技术要点

同城O2O系统作为这类服务的技术支撑平台&#xff0c;承载了外卖跑腿APP的开发与运行。本篇文章&#xff0c;小编将深入探讨同城O2O系统源码的技术要点&#xff0c;为外卖跑腿APP的开发提供指导与参考。 一、同城O2O系统概述 同城O2O系统是一种基于地理位置的线上到线下服务平台…

centos7.9部署k8s的几种方式

文章目录 一、常见的k8s部署方式1、使用kubeadm工具部署2、基于二进制文件的部署方式3、云服务提供商的托管 Kubernetes 服务4、使用容器镜像部署或自动化部署工具 二、使用kubeadm工具部署1、硬件准备&#xff08;虚拟主机&#xff09;2、环境准备2.1、所有机器关闭防火墙2.2、…

【docker 不希望每次sudo docker cmd】

一、背景 ubuntu系统下安装好了docker 不希望每次sudo docker cmd&#xff0c;这样每次多输入很多字&#xff0c;比较麻烦 二、原理 在 Ubuntu 等 Linux 发行版上&#xff0c;使用 Docker 命令时常常需要使用 sudo 命令&#xff0c;这是因为 Docker 的服务是以 root 权限运行…

vite工程化搭建vue项目之自动按需导入

背景 当我们在使用vue3组合式开发的时候&#xff0c;大多数情况下我们的代码可能是这样的 <script setup lang"ts"> import { ref, reactive, toRefs, onMounted, computed } from vue; defineProps({}); </script><template><div></di…

【介绍下ERP,什么是ERP?】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…

C++回溯算法

迷宫的所有路径 #include<bits/stdc.h> using namespace std; void func(int,int,int); bool a[110][110]; int b[110]; int c[110]; int top1; int n; int main() {cin>>n;for(int i1;i<n;i)for(int j1;j<n;j)a[i][j]true;b[0]1;c[0]1;a[1][1]false;func(1,…

两条单链表相交求交点-链表题

面试题 02.07. 链表相交 - 力扣&#xff08;LeetCode&#xff09; A和B两个链表&#xff0c;A走完再走BD&#xff0c;B走完再走AD&#xff1b; 这样走的路程一样&#xff0c;动手画一下就发现D点他们会碰到 class Solution { public:ListNode *getIntersectionNode(ListNode …

「PS图像软件下载」Adobe Photoshop专业图像处理软件资源获取!

Photoshop&#xff0c;无论是对于初学者还是资深设计师&#xff0c;Photoshop都以其易上手且深度足够的特性&#xff0c;赢得了广泛的赞誉。 在修图方面&#xff0c;Photoshop的表现尤为出色。无论是调整色彩平衡、裁剪图片&#xff0c;还是去除瑕疵、增强细节&#xff0c;Phot…

02 Pytorch_NLP

1. N-gram n决定关联信息 2. TF____IDF TF&#xff1a;词频 IDF&#xff1a;逆向序列 假如&#xff1a;TF * IDF 就是当前的文件&#xff0c;那么乘积反而更大&#xff01; 因为它只出现在 特定的文章中&#xff01; TF-IDF 简介 TF-IDF&#xff08;Term Frequency-Inverse…

bugku---misc---赛博朋克

1、下载附件解压之后是一个txt文本&#xff0c;查看文本的时候看到头部有NG的字样 2、把txt改为png后缀得到一张图片 3、binwalk没发现奇怪的地方&#xff0c;分离出来还是图片 4、stegslove分析&#xff0c;切换图片没有发现奇怪地方 5、将通道rgb置为0。出现了flag但是flag不…

微信小程序-uniapp-切换tab时数据列表如何切换?

如图&#xff1a; 这里有两个tab&#xff0c;要保证每次切换后列表保持不变&#xff0c;就必须在运行时要有两个持久化的数据源&#xff0c;每个tab是一个列表&#xff0c;让我们来设计一下这样的数据结构。 首先我们的数据结构是这样的&#xff1a; 体现在vue的data是这样的&a…

opencv 通过滑动条调整阈值处理、边缘检测、轮廓检测、模糊、色调调整和对比度增强参数 并实时预览效果

使用PySimpleGUI库创建了一个图形用户界面(GUI),用于实时处理来自OpenCV摄像头的图像。它允许用户应用不同的图像处理效果,如阈值处理、边缘检测、轮廓检测、模糊、色调调整和对比度增强。用户可以通过滑动条调整相关参数。 完整代码在文章最后,可以运行已经测试; 代码的…

【C++取经之路】继承

目录 继承的概念及定义 单继承的格式 继承方式和访问限定符 继承后子类访问基类成员的权限 基类和派生类对象赋值转换 切片 继承中的作用域 引申&#xff1a;重载和隐藏的区别 派生类的默认成员函数 继承与友元 继承与静态成员 如何实现一个不能被继承的类 复杂的…

Ubuntu 24.04 屏蔽snap包

Ubuntu 24.04 屏蔽snap包 屏蔽 这里所说的屏蔽指的是&#xff1a;禁止sudo apt install firefox时安装snap版本的包。 如需卸载snap&#xff0c;请使用关键词搜索。 命令行 cat <<EOF | sudo tee /etc/apt/preferences.d/snap-apps-disable Package: chromium* firef…