1. 起因
- 由于某些原因需要在大量的文献中查找相关内容,手动实在是太慢了,所以选择了GROBID库进行文献批量解析
2. GROBID介绍
- GROBID是一个机器学习库,用于将PDF等原始文档提取、解析和re-structuring为结构化的XML/TEI编码文档,特别关注技术和科学出版物。
- 能够提取文献中的标题、文本、图表及参考文献等信息
- GROBID目前仅支持Linux及macOS;windows系统需要通过docker调用
3. Docker安装
- 已经安装docker请跳过这一步骤
3.1 Docker介绍[来自GPT]:
- Docker 是一个开源的应用容器引擎,它允许开发者将应用程序与其环境一起打包(称作容器化),从而在任何支持Docker的环境中部署和运行。这项技术提供了一种简化的方法,可以将复杂的应用程序快速、一致地部署在不同的环境中——不管是在本地开发机器上,还是在外部的测试环境或云平台上。
3.1.1 Docker的主要组件:
- Docker 引擎:负责创建、运行和管理容器的核心服务。
- Docker 容器:运行应用程序的轻量级、独立的环境。容器在从图片(Image)实例化时创建,其中包含了运行应用所需的代码、运行库、环境变量和配置文件。
- Docker 镜像:是一个只读的模板,用于创建容器。镜像包含了运行特定应用所需的所有内容——代码、运行时、库等。
- Docker Hub:是一个Docker容器镜像的公共仓库,类似于GitHub,可以用来存放、共享和管理镜像。
- Docker 仓库:存放Docker镜像的地方,可以是公共的也可以是私有的。
- Dockerfile:是一个文本文件,包含了一系列的指令,用于自动构建一个新的Docker镜像。
- Docker Compose:是一个工具,允许您使用YAML文件定义多个容器的应用服务,并且通过一个命令来启动和停止这些服务。
3.1.2 Docker的工作原理
Docker 使用容器来隔离和运行应用程序。容器是一种轻量级的虚拟化,它运行在同一个操作系统内核上,但保持应用程序的隔离。容器比传统的虚拟机(VM)更加高效,因为它们共享宿主机的内核,而不需要为每个虚拟机运行一个完整的操作系统。
3.1.3 Docker的优势
- 快速,一致地交付您的应用程序:Docker可以快速构建、测试并部署代码,因为容器化的应用可以在不同的环境中保持一致。
- 响应性强的部署和扩展:容器可以几乎即时启动,这使得扩展和自动化部署变得简单快捷。
- 在同一个硬件上运行更多的工作负载:由于容器共享宿主机的系统核心,它们使用更少的资源,这意味着你可以在相同的硬件上运行更多的服务。
3.1.4 Docker的应用场景
- 提供一致的开发环境:无论开发团队成员使用何种操作系统,Docker容器保证应用能够在一致的环境中运行。
- 微服务架构:每个微服务可以被容器化,独立部署和扩展。
- 快速部署:容器显著减少了从开发生命周期到生产部署的时间。
- 应用程序隔离:保证在每个容器中运行的应用程序是相互隔离的。
- 资源优化:容器的轻量级特性意味着更有效的资源使用。
总的来说,Docker是当今极为重要的DevOps工具之一,它极大地促进了应用程序的快速开发、测试和部署流程。
3.2 Windows版本
- 笔者的系统为win11家庭版,接下来将以此为基础进行介绍
3.3打开Hyper-V
- 将以下代码复制到txt文本中,文件名为Hyper.txt
- 将后缀改为Hyper.bat,点击bat文件重启电脑后就设置好了
pushd "%~dp0"
dir /b %SystemRoot%\servicing\Packages\*Hyper-V*.mum >hyper-v.txt
for /f %%i in ('findstr /i . hyper-v.txt 2^>nul') do dism /online /norestart /add-package:"%SystemRoot%\servicing\Packages\%%i"
del hyper-v.txt
Dism /online /enable-feature /featurename:Microsoft-Hyper-V-All /LimitAccess /ALL
- 打开任务管理器–性能,确保虚拟化已开启
- 打开控制面板-程序和功能-启用或关闭Windows功能
- 确保下面两个功能也是正常打开的
3.4 安装WSL2
- WSL2相关介绍(来自GPT):WSL2,即Windows Subsystem for Linux version 2,是微软为Windows 10和Windows 11提供的一个功能,允许用户直接在Windows上运行Linux环境,包括大多数命令行工具、实用程序和应用程序。它是WSL的第二版本,提供了更完整的Linux兼容性和更高的性能。
- 管理员权限打开cmd,WSL version只要为2就是正确的
3.5 Docker下载与安装
-
https://www.docker.com/products/docker-desktop/
-
访问上述链接,下载Windows版本
-
下载完成后,双击打开等待程序安装完成并重启电脑
-
打开后只要不报错就ok
-
报错的话自行查找原因
-
我这边遇到过两类错误:docker desktop wsl distro terminated abruptly以及unexpected wsl error,都是通过卸载关闭功能重装解决的,可以参考https://zhuanlan.zhihu.com/p/669999834
3.6 GROBID安装
-
GROBID库目前存在两个版本: full lightweight,我安装的第二个
-
Full: 可运行深度学习和 CRF 模型的完整镜像(见最新版本号)(10GB):该镜像包括所有必要的 python 和 TensorFlow 库、GPU 支持和所有 DL 模型资源。它可以提供更准确的结果,特别是在参考文献提取/解析和引文上下文识别方面。根据 GPU(推荐)的可用性与否,某些深度学习模型可能会带来更慢的运行时间和更高的内存使用率。该图像比纯 CRF 图像大得多。完整图像包含 Python 和 TensorFlow/Pytorch 库(超过 3GB)以及预加载的嵌入(约 5GB),但我们建议使用它。
-
Lightweight: 仅包含 CRF 模型的轻量级图像(300MB):该图像在运行时间和内存使用方面具有最佳性能,并限制了图像的大小,但它没有使用一些在准确性方面表现最佳的模型。图像信息可在此处找到。如果可能,请使用上述完整图像。
docker run --rm --init --ulimit core=0 -p 8070:8070 lfoppiano/grobid:0.8.0
- 输入上述代码到下面这样出现model path就完成了,此时可以访问进入网站Grobid Web Application 解析成功
4 调用API
import os
import re
import requests
import glob
import time
from bs4 import BeautifulSoup
from tqdm import *
files=glob.glob(r"...\*.pdf")
url = "http://localhost:8070/api/processFulltextDocument"
for f in tqdm(files):
try:
params = dict(input=open(f, 'rb'))
response = requests.post(url, files=params, timeout=300)
reslut=response.content.decode("utf-8")
s=BeautifulSoup(reslut,'lxml')
save=r"...\XML\{}.xml".format(f.split("\\")[-1][:-4])
with open(save, 'w', encoding='utf-8') as file:
# 写入XML声明头
file.write('<?xml version="1.0" encoding="UTF-8"?>\n')
# 写入剩余的XML数据
file.write(str(s))
time.sleep(1)
except Exception as e:
print(f)
pass
参考
- https://blog.csdn.net/yt266666/article/details/127453067?spm=1001.2014.3001.5502
- https://grobid.readthedocs.io/en/latest/Grobid-docker/
- https://zhuanlan.zhihu.com/p/669999834