文章目录
- Part.I Introduction
- Part.II 使用方法
- Chap.I 直接处理字符串
- Chap.II 处理文件
- Part.III Source Code
- Reference
Part.I Introduction
在编辑文本的过程中,尤其是在 COPY 的过程中,经常会遇到如下问题:
- 源文本数字与英文字母之间没有空格
- 源文本中文与英文之间没有空格
- 源文本中有很多空行
- …
如果没有空格的话,看起来很紧凑,不美观。作为一个强迫症患者,每次我都要一个一个地把空格敲上去。有一天,我实在受不了这枯燥的工作了,我想能不能让计算机自动来完成这项简单且枯燥的工作呢?通过一些摸索,我找到了一种完美的解决方案,本文将对其进行简单的介绍。
Part.II 使用方法
首先需要安装两个 Python 的三方库:正则表达式处理库 re
、美化中文排版工具“盘古” pangu
pip install re
pip install -U pangu
Chap.I 直接处理字符串
所用到的函数为:
import re
import pangu
def add_space_between_content(original_text):
processed_text = pangu.spacing(original_text)
pattern = r'([a-zA-Z]+)(\d+)' # Letters before numbers
def add_space(match):
return match.group(1) + ' ' + match.group(2)
processed_text = re.sub(pattern, add_space, processed_text)
pattern = r'(\d+)([a-zA-Z]+)' # Numbers followed by letter
processed_text = re.sub(pattern, add_space, processed_text)
pattern = r"\n\s*\n" # null string 空行
processed_text = re.sub(pattern, "\n", processed_text)
return processed_text
调用示例:
original_text = f"""Datawhale是一个专注于Data Science与AI领域的开源组织,汇集了众多领域院校和知名企业的优秀学习者,\
聚合了一群有开源精神和探索精神的团队成员。
双语字幕视频:吴恩达x OpenAI的Prompt Engineering课程专业翻译版
测试1.2数字test1.3ce1.4测试"""
print(original_text)
print("-" * 60)
result2 = add_space_between_content(original_text)
print(result2)
输出结果:
Datawhale是一个专注于Data Science与AI领域的开源组织,汇集了众多领域院校和知名企业的优秀学
习者,聚合了一群有开源精神和探索精神的团队成员。
双语字幕视频:吴恩达x OpenAI的Prompt Engineering课程专业翻译版
测试1.2数字test1.3ce1.4测试
----------------------------------------------------------------------------------------------------
Datawhale 是一个专注于 Data Science 与 AI 领域的开源组织,汇集了众多领域院校和知名企业的
优秀学习者,聚合了一群有开源精神和探索精神的团队成员。
双语字幕视频:吴恩达 x OpenAI 的 Prompt Engineering 课程专业翻译版
测试 1.2 数字 test 1.3 ce 1.4 测试
Chap.II 处理文件
所用到的函数(上面的 add_space_between_content
加下面的)
def add_space_between_content_file(fin,fout):
f = open(fin, encoding= 'utf-8', errors = 'ignore')
original_text = f.read()
f.close()
modified_string = add_space_between_content(original_text)
f1 = open(fout, 'w', encoding= 'utf-8', errors = 'ignore')
f1.write(modified_string)
f1.close()
调用示例:
f1=r'A:\OHanlon\Desktop\a.txt'
f2=r'A:\OHanlon\Desktop\b.txt'
add_space_between_content_file(f1,f2)
测试所用源文件
本测试名为“普通话水平测试”(PUTONGHUA SHUIPING CESHI,缩写为PSC)。
(一)读单音节字词 普通话水平测试单音共有100个音节(不包括轻声、儿化音节),限时3.5分钟,共10分。
1.目的:
测查应试人声母、韵母、声调读音标准程度。
2.要求:
(1)100个音节中,70%选自《普通话水平测试用普通话词语表》“表一”,30%选自“表二”。
(2)100个音节中,每个声母出现次数一般不少于3次,每个韵母出现次数一般不少于2次,4个声调出现次数大致均衡。
(3)音节的排列要避免同一测试要素连续出现。
3.评分:
(1)语音错误,每个音节扣0.1分;
(2)语音缺陷,每个音节扣0.05分;
(3)超时1分钟以内,扣0.5分,超时1分钟以上(含1分钟),扣1分。
输出文件
本测试名为 “普通话水平测试”(PUTONGHUA SHUIPING CESHI,缩写为 PSC)。
(一) 读单音节字词 普通话水平测试单音共有 100 个音节(不包括轻声、儿化音节),限时 3.5 分钟,共 10 分。
1. 目的:
测查应试人声母、韵母、声调读音标准程度。
2. 要求:
(1)100 个音节中,70% 选自《普通话水平测试用普通话词语表》“表一”,30% 选自 “表二”。
(2)100 个音节中,每个声母出现次数一般不少于 3 次,每个韵母出现次数一般不少于 2 次,4 个声调出现次数大致均衡。
(3)音节的排列要避免同一测试要素连续出现。
3. 评分:
(1)语音错误,每个音节扣 0.1 分;
(2)语音缺陷,每个音节扣 0.05 分;
(3)超时 1 分钟以内,扣 0.5 分,超时 1 分钟以上(含 1 分钟),扣 1 分。
Part.III Source Code
整个源码如下:
import re
import pangu
def add_space_between_content(original_text):
processed_text = pangu.spacing(original_text)
pattern = r'([a-zA-Z]+)(\d+)' # Letters before numbers
def add_space(match):
return match.group(1) + ' ' + match.group(2)
processed_text = re.sub(pattern, add_space, processed_text)
pattern = r'(\d+)([a-zA-Z]+)' # Numbers followed by letter
processed_text = re.sub(pattern, add_space, processed_text)
pattern = r"\n\s*\n" # null string 空行
processed_text = re.sub(pattern, "\n", processed_text)
return processed_text
def add_space_between_content_file(fin,fout):
f = open(fin, encoding= 'utf-8', errors = 'ignore')
original_text = f.read()
f.close()
modified_string = add_space_between_content(original_text)
f1 = open(fout, 'w', encoding= 'utf-8', errors = 'ignore')
f1.write(modified_string)
f1.close()
original_text = f"""Datawhale是一个专注于Data Science与AI领域的开源组织,汇集了众多领域院校和知名企业的优秀学习者,\
聚合了一群有开源精神和探索精神的团队成员。
双语字幕视频:吴恩达x OpenAI的Prompt Engineering课程专业翻译版
测试1.2数字test1.3ce1.4测试"""
print(original_text)
print("-" * 60)
result2 = add_space_between_content(original_text)
print(result2)
f1=r'A:\OHanlon\Desktop\a.txt'
f2=r'A:\OHanlon\Desktop\b.txt'
add_space_between_content_file(f1,f2)
Reference
- 一个小而实用的 Python 包 pangu,实现在中文和半宽字符(字母、数字和符号)之间自动插入空格
- 使用Python在字符串中的数字和字母之间添加空格