Python处理英文文档(添加音标和翻译)
- Python处理英文文档
- 单词标注音标
- 英文翻译
- 对word文档的操作
- 方法整合
- 待改进之处
Python处理英文文档
上英语课的时候老师总喜欢找人读文章和翻译文章,一点点的准备太浪费时间,就用Python写了一个简单的程序,实现从word文档读取文本,为复杂单词标注音标并以段落为单位进行翻译,然后保存成一个新的文档。
单词标注音标
调用Python工具库eng_to_ipa,直接pip install 安装,只需要一行代码就可以实现单词音标标注。
import eng_to_ipa as ipa
pronounce=ipa.convert("The idea of instructing computers in natural language has fascinated researchers for decades, as it promises to make the power
of computing more customizable and accessible to people without programming training")
print(pronounce)
#output
#ðə aɪˈdiə əv ˌɪnˈstrəktɪŋ kəmˈpjutərz ɪn ˈnæʧərəl ˈlæŋgwɪʤ həz ˈfæsəˌneɪtɪd ˈrisərʧərz fər ˈdɛkeɪdz, ɛz ɪt ˈprɑməsəz tɪ meɪk ðə paʊər əv kəmˈpjutɪŋ mɔr customizable* ənd ækˈsɛsəbəl tɪ ˈpipəl without* ˈproʊˌgræmɪŋ ˈtreɪnɪŋ
#有连字符或者特殊符号的单词无法正常翻译,但这种情况是少数
英文翻译
调用Python库translate,也是pip install 安装,两行代码实现英文翻译。(需要联网)
from translate import Translator
#英译中
translator=Translator(from_lang="en",to_lang="zh")
trans=translator.translate("The idea of instructing computers in natural language has fascinated researchers for decades, as it promises to make the power of computing more customizable and accessible to people without programming training")
#output
#几十年来,用自然语言教授计算机的想法一直吸引着研究人员,因为它有望使计算的力量更具可定制性和可访问性,让没有编程培训的人
#此种方法输入的最大字符长度为500
对word文档的操作
借助docx库可以实现对word文档的读取和写入,直接使用pip安装。
from docx import Document
doc = Document(path)
#读取段落
doc.paragraphs
#添加段落
doc.add_paragraph(save_para)
方法整合
借助上面所介绍的3个工具库可以实现目标功能,整合上面的3段代码,最后代码如下。
from docx import Document
from translate import Translator
translator=Translator(from_lang="en",to_lang="zh")
path = '../en_data/unit2.docx'
save_path="../en_data/unit2_trans.docx"
doc = Document(path)
save_doc=Document(save_path)
for paragraph in doc.paragraphs:
#将句子切分为单词
text=paragraph.text.split(" ")
save_para=""
save_trans_para=""
#将句子切分,防止超出最大长度
sentences=paragraph.text.split(".")
print(sentences)
for i in range(len(text)):
#只对长度大于6的单词标注音标
if len(text[i])<7:
save_para=save_para+text[i]+" "
else:
save_para=save_para+text[i]+"["+ipa.convert(text[i])+"]"+" "
save_doc.add_paragraph(save_para)
for sentence in sentences:
save_trans_para=save_trans_para+translator.translate(str(sentence))+"。"
save_doc.add_paragraph(save_trans_para)
save_doc.add_paragraph(" ")
save_doc.save(save_path)
最终保存的word文档效果如下图,基本满足日常学习的需求。
待改进之处
目前我认为存在的一个问题就是我只是用单词长度简单的区分了需要标注的单词和不需要标注的单词,这种方法有些过于草率,如果可以建立困难单词数据库的话,就能做到标注真正需要标注的单词。