Ubuntu上跑通PaddleOCR

news2025/4/13 20:49:46

书接上文。刚才说到我已经在NUC8里灌上了Windows Server 2019。接下来也顺利的启用了Hyper-V角色并装好了一台Ubuntu 22.04 LTS 的虚机。由于自从上回在树莓派上跑通了Paddle-Lite-Demo之后想再研究一下PaddleOCR但进展不顺，因此决定先不折腾了，还是从x64平台上做起，至少先能跑通体验一下。

进入Ubuntu，先做常规更新工作：
sudo apt update
sudo apt upgrade

安装一些远程工具。建议ssh装上：
sudo apt install xrdp ssh

其它实用工具，建议smbclient装上：
sudo apt install git smbclient

给$PATH添加一条路径，推荐这会儿先做掉：
cd
sudo nano ./.bashrc
最后添加一行：
export PATH=/home/ki/.local/bin:$PATH
sudo reboot

至此准备工作完毕，接下来开始安装PaddleOCR相关的软件：

sudo apt install cmake libopencv-dev python3-pip 
python3 -m pip install paddlepaddle==2.4.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
python3 -m pip install paddleocr -i https://pypi.tuna.tsinghua.edu.cn/simple

期间可能有个报错，版本依赖有问题，暂时可以忽略。

至此就算安装完毕可以测试了。

我的测试用例有一个图片和一个pdf。我是在Ubuntu上用smbclient命令访问Windows上共享目录得到的。在Windows上运行WinSCP也是个可行的办法。

先看看图片的识别效果：

命令行为：paddleocr --image_dir 图片文件名 --lang ch。lang参数指出用什么语言去解读。ch是指中英文。第一次运行时会下载一些必要的模型。

识别正确。

PDF识别稍微有点小问题，要改一下源代码。命令行和识别图片几乎一致，只要把图片文件名改成pdf文件名即可。

但会报错。解决办法也很简单粗暴，根据提示直接改就是了。一共两处。

之后就可以运行了。不妨对比下原始pdf和识别出的效果：

识别率满意。

最后，如果实在介意那个版本依赖造成的错，有人说可以这么操作算是打个补丁：

pip uninstall onnx
python3 -m pip install protobuf==3.20.1 -i https://pypi.tuna.tsinghua.edu.cn/simple
python3 -m pip install onnx==1.12.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

尚未亲测，仅供参考。

====^^^^====
测过了，没用，但似乎也没影响。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/447372.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！