pdf转markdown
-
- 安装Tesseract-OCR
- 项目拉取
- pytorch安装
- 开始转换
-
- 转换单个文件
- 转换多个文件
- 总结
github开源PDF转markdown
git clone https://github.com/VikParuchuri/marker.git
注意该项目有些包的语法需要python3.10,所以需要安装python3.10.
导入pycharm,下面选择取消
安装Tesseract-OCR
安装OCR工具
安装地址
这个从后面的实验来看,可以不安装,采用另外一个OCR工具。
选择另外的语言数据
语言包居然有310MB
首先进行进行脚本下载
安装Ghostscript
安装地址
https://github.com/ArtifexSoftware/ghostpdl-downloads/releases/
项目拉取
git clone
本着前人栽树,后人乘凉的原则,一键搞定所有包安装
在项目根目录下新建requirements.txt文件
在里面粘贴
torch==2.4.1+cu121
numpy==1.21.0
nougat-ocr
python-magic
python-magic-bin
python