PDFMathTranslate,PDF多语言翻译,批量处理,学术论文,双语对照(WIN/MAC)

news2024/12/16 6:41:27

分享一个非常实用的PDF文档翻译项目——PDFMathTranslate。作为一个经常逛GitHub的开发者,我总喜欢翻看各种项目附带的论文,虽然大多时候是瞎研究,但却乐在其中。该项目能够完美保留公式、图表、目录和注释,对于需要阅读外文文献的同学来说绝对是一个利器!(外语好的当我没说哈!)

先来看看效果,这是我用GitHub - memoavatar/memo: Memory-Guided Diffusion for Expressive Talking Video Generation该项目的论文进行翻译的结果。

论文链接https://arxiv.org/abs/2412.04448

效果非常不错,当然你不仅可以用它翻译论文,任何PDF内容都支持。

只支持PDF,如果是word等其他格式的,需要转成PDF格式来进行处理

本地部署

如果想在本地部署开发,有以下几种方式,要用整合包,可以跳过这部分。

  1. 命令行方式:
pip install pdf2zh
pdf2zh document.pdf
  1. 图形界面方式:
pip install pdf2zh
pdf2zh -i

然后在浏览器打开 http://localhost:7860 即可使用。

  1. Docker部署:
docker pull byaidu/pdf2zh
docker run -d -p 7860:7860 byaidu/pdf2zh

🔧 进阶功能:

  1. 部分翻译:如果只需要翻译特定页面,可以使用 -p 参数
pdf2zh example.pdf -p 1-3,5
  1. 自定义语言:支持指定源语言和目标语言
pdf2zh example.pdf -li en -lo ja
  1. 选择翻译服务:可以根据需求切换不同的翻译服务
pdf2zh example.pdf -s openai:gpt-4

快速上手

最简单的使用方式是访问官方提供的在线服务:PDFMathTranslate - PDF Translation with preserved formats

无需安装任何东西,直接上传PDF即可获得翻译结果。

需要注意的是在线服务考虑到服务器压力,上传的PDF文件大小不能超过5M。如果要翻译大于5M的,咱们建议还是用整合包或者本地部署。

简单说下使用方法,没什么难度。

类型

类型这里有两种选择,一种是直接上传本地的PDF文件。

一种是直接复制链接进去。

例如:https://arxiv.org/pdf/2412.04448

翻译服务

这里选择对应的翻译服务

需要注意的是某些翻译服务需要用到API,需要到对应的平台上去申请。

翻译语言设置

这个也不用过多介绍

可以看到支持的语言列表

页面范围

翻译的范围。对于大型PDF文档,建议先试译几页看看效果

批量处理

在使用的时候,考虑到有时候不是一个文档需要翻译,但是每次都要设置,然后来回点击也挺麻烦的。

于是我动动手,加了批量功能。

可以添加多个PDF进行处理。

处理好的文件点击打开默认输出文件夹即可找到

一个pdf会生成三个文件。

2412.04448v1原文件。

2412.04448v1-zh翻译后的文件。

2412.04448v1-dual翻译后的双语文件。

需要注意

💡翻译服务中例如谷歌、必应、DeepL、Azure等国外服务需开启对应的网络环境。

配置要求

WIN

WindowsN卡需2G显存

如果整合包运行报错,需要安装cuda12.4或cuda11.8

https://developer.nvidia.com/cuda-12-4-0-download-archive

MAC

MAC Apple Silicon M1/M2/M3/M4 芯片

2G内存

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

https://pan.quark.cn/s/a34b907537f0
 

https://pan.baidu.com/s/1Q8F3dFg1XUxCOD_O_QuuoQ?pwd=bzzv

如果发了关键词没回复你!记得看下复制的时候是不是把空格给粘贴进去了!

制作不易,如果本文对您有帮助,还请点个免费的赞或在看!感谢您的阅读!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2260357.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前端成长之路:CSS元素显示模式

元素显示模式 网页中的标签非常的多,在不同的地方会使用到不同类型的标签,了解这些标签的特点可以更好的布局我们的网页。 元素显示模式就是元素(标签)按照什么方式进行显示,比如:div标签会自己独占一行&a…

如何在 Ubuntu 22.04 上使用 vnStat 监控网络流量

简介 vnStat是一个免费的、开源的、基于控制台的Linux操作系统网络流量监控工具。通过vnStat,你可以在不同的时间段监控网络统计数据。它简单、轻量级,并且消耗的系统资源很小。vnStat允许你按小时、日、月、周和日生成网络流量数据。本教程将向你展示如…

解决pip下载慢

使用pip下载大量安装包,下载速度太慢了 1、问题现象 pip安装包速度太慢 2、解决方案 配置国内源 vi /root/.config/pip/pip.conf[global] timeout 6000 index-url https://mirrors.aliyun.com/pypi/simple/ trusted-host mirrors.aliyun.com

RabbitMQ中的Publish-Subscribe模式

在现代分布式系统中,消息队列(Message Queue)是实现异步通信和解耦系统的关键组件。RabbitMQ 是一个功能强大且广泛使用的开源消息代理,支持多种消息传递模式。其中,Publish/Subscribe(发布/订阅&#xff0…

专业140+总分410+浙江大学842信号系统与数字电路考研经验浙大电子信息与通信工程,真题,大纲,参考书。

考研落幕,本人本中游211,如愿以偿考入浙江大学,专业课842信号系统与数字电路140,总分410,和考前多次模考预期差距不大(建议大家平时做好定期模考测试,直接从实战分数中,找到复习的脉…

Unity类银河战士恶魔城学习总结(P178 Archer s arrow 弓箭手的箭)

【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili 教程源地址:https://www.udemy.com/course/2d-rpg-alexdev/ 本章节制作了一个弓箭手的箭 Arrow_Controller.cs 1.OnTriggerEnter2D方法 功能:检测箭矢与其他对象的碰撞。逻辑&#xff1…

后端接受前端传递数组进行批量删除

问题描述:当我们需要做批量删除功能的时候,我们循环单次删除的接口也能进行批量删除,但要删除100条数据就要调用100次接口,或者执行100次sql,这样系统开销是比较大的,那么我们直接采用接收的数组格式数据sq…

ByteCTF2024

wp参考: 2024 ByteCTF wp 2024 ByteCTF WP- Nepnep ByteCTF 2024 writeup by Arr3stY0u 五冠王!ByteCTF 2024 初赛WriteUp By W&M ByteCTF 2024 By W&M - W&M Team ByteCTF Re WP - 吾爱破解 - 52pojie.cn 2024 ByteCTF - BediveRe_R…

Envoy 服务发现原理大揭秘与核心要点概述

1 Envoy动态配置介绍 动态资源,是指由envoy通过xDS协议发现所需要的各项配置的机制,相关的配置信息保存 于称之为管理服务器(Management Server )的主机上,经由xDS API向外暴露;下面是一个 纯动态资源的基…

转盘抽奖功能(附加代码)

写在开头 上期代码主要实现PC端电商网站商品放大效果,本期就来实现积分随机抽奖效果,开发久了很多功能都是通过框架组件库来完成,但是如果组件满足不了开发需求,还需要开发人员手动封装组件,专门出这样一期文章&#x…

【CSS in Depth 2 精译_075】12.2 Web 字体简介 + 12.3 谷歌字体的用法

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第四部分 视觉增强技术 ✔️【第 12 章 CSS 排版与间距】 ✔️ 12.1 间距设置 12.1.1 使用 em 还是 px12.1.2 对行高的深入思考12.1.3 行内元素的间距设置 12.2 Web 字体 ✔️12.3 谷歌字体 ✔️12.…

ARM嵌入式学习--第七天(GPT)

GPT -介绍 GPT有一个32位向上计数器,定时计数器值可以使用外部引脚上的事件捕获到寄存器中,捕获触发器可以被编程为上升沿和下降沿。GPT还可以在输出比较引脚上生成事件,并在定时器达到编程值时产生中断。GPT有一个12位预分频器,…

搭建Tomcat(一)---SocketServerSocket

目录 引入1 引入2--socket 流程 Socket(应用程序之间的通讯保障) 网卡(计算机之间的通讯保障) 端口 端口号 实例 client端 解析 server端 解析 相关方法 问题1:ServerSocket和Socket有什么关系? ServerSocket Soc…

SpringBoot快速使用

一些名词的碎碎念: 1> 俩种网络应用设计模式 C/S 客户端/服务器 B/S 浏览器/服务器 俩者对比: 2> 集群和分布式的概念 集群: 分布式: 例子: 一个公司有一个人身兼多职 集群: 招聘N个和上面这个人一样身兼多职 分布式: 招聘N个人,分担上面这个人的工作,进行工作的拆分. 工…

【含开题报告+文档+PPT+源码】基于SpringBoot的开放实验管理平台设计与实现

开题报告 设计开放实验管理平台的目的在于促进科学研究与教学的融合。传统实验室常常局限于特定地点和时间,而开放平台可以为学生、教师和研究人员提供一个便捷的交流与共享环境。通过在线平台,他们可以分享实验资源、交流经验,从而促进科学…

分布式 漏桶算法 总结

前言 相关系列 《分布式 & 目录》《分布式 & 漏桶算法 & 总结》《分布式 & 漏桶算法 & 问题》 概述 简介 LBA Leaky Bucket Algorithm 漏桶算法是一种流行于网络通信领域的流量控制/频率限制算法。漏桶算法的核心原理是通过一个概念上的“漏桶”来…

linux glances vs top

一、安装 apt-get install glances glances top显示效果:

CTF知识集-PHP特性

title: CTF知识集-PHP特性 写在开头可能会用到的提示 call_user_func 调用的函数可以不区分大小写preg_match过滤存在长度溢出,长度超过100w检测失效。str_repeat(‘show’,250000); 生成100w个字符preg_match是无法处理数组的,例如:preg_match( n u m…

Hadoop运行Mapreduce问题集锦——Ubuntu虚拟机配置

一、端口访问问题 问题描述 运行任务前一直重连。具体来说,错误发生在尝试从czs-virtual-machine虚拟机的127.0.1.1地址连接到同一台机器的8032端口时,连接被拒绝。 如下: 2024-11-17 23:05:45,800 INFO retry.RetryInvocationHandler: java…

【经验分享】搭建本地训练环境知识点及方法

最近忙于备考没关注,有次点进某小黄鱼发现首页出现了我的笔记还被人收费了 虽然我也卖了一些资源,但我以交流、交换为主,笔记都是免费给别人看的 由于当时刚刚接触写的并不成熟,为了避免更多人花没必要的钱,所以决定公…