使用 Python 的正则表达式来解析多行文本通常涉及到使用多行模式(re.MULTILINE
)和 re.DOTALL
标志,以及适当的正则表达式模式来匹配你想要提取或处理的文本块。以下是一个简单的示例,展示了如何处理多行文本:
1、问题背景
有人编写了一个简单的Python脚本来解析文本文件,但正则表达式需要修改以便在第二个组中找到多行文本。以下是脚本代码:
import re
if __name__ == '__main__':
sonnik = open('sonnik.txt').read().decode('utf-8')
article = re.compile(ur'^([A-Za-zА-Яа-я0-9_\-:,\.«» ]+)[\n]{2}^[ ]{5}([A-Za-zА-Яа-я0-9_\-:,\.«» ]+)$',re.M|re.U)
result = article.findall(sonnik)
print len(result)
print '-----'
print result[0][1].decode('utf-8')
print '-----'
文本文件的示例如下:
Банкет
Видеть во сне банкет - хорошо. Друзья будут к Вам благосклонны. Видеть во сне себя в толпе веселых, нарядно одетых гостей, которые едят на дорогой посуде и пьют старые вина баснословной стоимости, предвещает огромную удачу в любых начинаниях и счастье в кругу друзей.
Видеть недружелюбие среди гостей, нелепые пустые столы - является знаком очень тяжелых недоразумений, размолвок и разочарований, ожидающих Вас.
Банкрот
Если Вам снится сон, в котором Вы не можете расплатиться с долгами и чувствуете себя банкротом - то в реальной жизни не бойтесь угрозы с этой стороны. Напротив, Ваша энергия и уверенность в себе позволяет Вам наилучшим образом организовать свои дела.
Однако иные тревоги могут смутить Вашу душу.
Если Вы видите банкротами других, то это означает, что наяву Вам встретятся люди благородные, честные в делах, хотя, возможно, излишней откровенностью они могут Вам навредить.
Молодой особе этот сон обещает небольшую размолвку с любимым, виной чему разность их взглядов.
问题是,当前的正则表达式只能匹配文本的第一行。
2、解决方案
为了修改正则表达式以找到多行文本,可以添加以下表达式:
(?:\n^[ ]{5}[A-Za-zА-Яа-я0-9_\-:,\.«» ]+)*
之后,正则表达式的最终形式如下:
^([A-Za-zА-Яа-я0-9_\-:,\.«» ]+)\n{2}^[ ]{5}([A-Za-zА-Яа-я0-9_\-:,\.«» ]+(?:\n^[ ]{5}[A-Za-zА-Яа-я0-9_\-:,\.«» ]+)*)$
这个正则表达式将匹配以新行和五个空格开头的多行文本。
以下是如何使用修改后的正则表达式来解析文本文件的示例:
import re
if __name__ == '__main__':
sonnik = open('sonnik.txt').read().decode('utf-8')
article = re.compile(ur'^([A-Za-zА-Яа-я0-9_\-:,\.«» ]+)\n{2}^[ ]{5}([A-Za-zА-Яа-я0-9_\-:,\.«» ]+(?:\n^[ ]{5}[A-Za-zА-Яа-я0-9_\-:,\.«» ]+)*)$',re.M|re.U)
result = article.findall(sonnik)
print len(result)
print '-----'
print result[0][1].decode('utf-8')
print '-----'
这个脚本将打印出解析出的文本对列表,以及第一个文本对的第二组文本内容。
这只是一个简单的示例,你可以根据实际的文本结构和需求调整正则表达式模式来解析和处理多行文本。