9、Python之文本解析:字符串格式化的逆操作?

news2024/9/21 14:46:28

引言

前面的文章中,提到了关于Python中字符串中的相关操作,更多地涉及到了字符串的格式化,有些地方也称为字符串插值操作,本质上,就是把多个字符串拼接在一起,以固定的格式呈现。

关于字符串的操作,其实还有另外一种场景,就是从固定格式的字符串中,解析、提取出我们想要的信息。实际工作中,更常用的是从用户行为日志中提取出相关信息,从而进行行为模式的识别与分析,继而辅助引导后续的运营动作。

关于从字符串中提取出所需要的信息,在老手看来,最容易想到的大概就是使用正则表达式了。

但是,正则表达式对新手不太友好,而且可读性太差,即便是熟练掌握了正则表达式的老手,隔了一段时间,回看自己写的正则表达式,也会有些吃力。

本文我们快速略过正则表达式的用法,然后重点介绍通过好用的第三方模块,来实现常规场景下的字符串内容解析、提取的工作。

用户行为日志

在系统的运营过程中,记录用户在系统中的各种访问行为,通过这些行为日志的提取、分析,学习出用户相关动作背后的特定模式,从而更好地实现产品的运营,留存用户、提高转化率等。

下面我们生成一些用户行为日志的测试数据,作为后续文本内容提取的输入,从而演示文本解析提取的运行效果。


from faker import Faker
import random

fk = Faker('zh_CN')

fp = open('./access_log.txt', 'a')

# 假设主要有以下几种行为:login, search, add2cart, buy
for i in range(100):
    print(f"{fk.future_datetime()}#{fk.user_name()}@{fk.ipv4()}:action={random.choice(['login', 'search', 'add2cart', 'buy'])}", file=fp)

fp.close()

生成的日志内容,如下:

日志的格式为:

{访问时间}#{用户名}@{ip}:action={访问行为}

正则表达式

由于正则表达式比较复杂,暂时不需要用到正则表达式,只有一些特殊复杂的文本解析提取,才可能考虑用正则表达式,这里,简单举个例子,从文本中提取出所有的ip字段:

import re

pattern = r"\d+\.\d+\.\d+\.\d+"
with open('./access_log.txt', 'r') as fp:
    text = fp.readline()
    while text:
        res = re.search(pattern, text)
        if res:
            print(res.group())
        text = fp.readline()

输出结果:

关于正则表达式不再展开,需要用到的时候再行查阅吧。

当然,不通过正则表达式,也可以实现这个需求,只需要做字符串的分割就行了。

with open('./access_log.txt', 'r') as fp:
    text = fp.readline()
    while text:
        print(text.split('@')[1].split(':')[0])
        text = fp.readline()

parse模块

除了正则表达式这个核武器,以及字符串分割的土方法。其实,还有更加灵巧、轻便的解决方案,这就要用到第三方模块parse。

安装

三方模块,使用之前,需要先安装:

pip3 install parse
文档及源码地址
https://github.com/r1chardj0n3s/parse
日志解析

先来把前面的行为日志数据解析一下:

from parse import parse

pattern = '{}#{}@{}:action={}'
with open('./access_log.txt', 'r') as fp:
    text = fp.readline()
    while text:
        res = parse(pattern, text)
        if res:
            dt, username, ip, action = res
            print(dt)
            print(username)
            print(ip)
            print(action)
        text = fp.readline()

也可以通过关键字的形式,进行解析结果的提取:


from parse import parse

# 也可以通过关键字参数,返回的结果为字典形式的
pattern = '{dt}#{username}@{ip}:action={action}'
with open('./access_log.txt', 'r') as fp:
    text = fp.readline()
    while text:
        res = parse(pattern, text)
        if res:
            dt = res['dt']
            username = res['username']
            ip = res['ip']
            action = res['action']
            print(dt)
            print(username)
            print(ip)
            print(action)
        text = fp.readline()

parse模块的其他功能:

前面解析日志中,我们只用到了parse模块中的parse()函数。
我们可以查看parse模块的源码,看下主要的功能:

parse模块的实现,依赖了正则表达式模块。
如同官网描述的一样,当我们通过:

from parse import *

只会导入4个函数:parse()、search()、findall()、with_pattern()。
关于这些函数的使用,感兴趣的可以查看源码自行研究。

其他模块

其实,关于文本数据的解析、提取,除了re、parse外,还有其他模块,分别用于更多的场景中的文本解析、提取。
比如HTML中的内容解析,可以使用lxml、beautifulsoup4,或者类似于jQuery的pyquery模块,也可以用于解析HTML文档。
这些模块在通过爬虫采集相关数据时,会更加便捷。
以后有机会,再进行相关的展开介绍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1908259.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2021版本的idea热部署的详细步骤

背景:我是自己用的是2021版本的idea,然后发现跟2023版本的热部署不太一样,所以,今天自己出一期这样的文章吧!!!其他人配置的时候根据自己的情况,来阅读吧! 第一步:方式一…

光伏项目开发合作模式

光伏项目开发合作模式多种多样,根据应用场景的不同,主要分为户用光伏项目合作模式和工商业光伏项目合作模式。本文将分别介绍这两种模式的特点和常见形式,帮助大家更好地了解光伏项目开发的市场运作。 一、户用光伏项目合作模式 1.用户全款购…

科研训练课程——2024/7/8

科研训练课程——2024/7/8 文章目录 前言课程任务(可跳过)了解1. LetPub2. Web of Science 总结 前言 本系列笔记为记录大二暑期学校课程—— 科研训练与写作,记录一下每天了解了什么吧(苦逼又无聊的学习生涯又开始了。才刚结束啊…

matlab仿真 信道(上)

(内容源自详解MATLAB/SIMULINK 通信系统建模与仿真 刘学勇编著第四章内容,有兴趣的读者请阅读原书) 1.加性高斯白噪声信道(AWGN ) clear all t0:0.001:10; xsin(2*pi*t);%原始信号 snr20;%设定加性白噪…

基于flask的猫狗图像预测案例

📚博客主页:knighthood2001 ✨公众号:认知up吧 (目前正在带领大家一起提升认知,感兴趣可以来围观一下) 🎃知识星球:【认知up吧|成长|副业】介绍 ❤️如遇文章付费,可先看…

遥感分类产品精度验证之TIF验证TIF

KKB_2020.tif KKB_2020_JRC.tif kkb.geojson 所用到的包:(我嫌geopandas安装太麻烦colab做的。。 import rasterio import geopandas as gpd import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.metrics import c…

【Threejs进阶教程-着色器篇】3. Uniform的基本用法2与基本地球昼夜效果

Uniform的基本用法2 关于本Shader教程前两篇地址,请按顺序学习本篇使用到的资源用uniform传递纹理代码分析texture类型的uniform在shader中接收uniformtexture2D()处理图片压缩修改wrapS和wrapT 切换成夜景效果切换Mix() 昼夜切换升级改动代码效果分析解决球体分界线…

Linux dig命令常见用法

Linux dig命令常见用法 一、dig安装二、dig用法 DIG命令(Domain Information Groper命令)是常用的域名查询工具,通过此命令,你可以实现域名查询和域名问题的定位,对于网络管理员和在域名系统(DNS)领域工作的小伙伴来说,它是一个非…

【大模型LLM面试合集】大语言模型架构_attention

1.attention 1.Attention 1.1 讲讲对Attention的理解? Attention机制是一种在处理时序相关问题的时候常用的技术,主要用于处理序列数据。 核心思想是在处理序列数据时,网络应该更关注输入中的重要部分,而忽略不重要的部分&…

YOLOv8改进 | 注意力机制| 引入多尺度分支来增强特征表征的注意力机制 【CVPR2021】

秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 专栏目录 :《YOLOv8改进有效…

顶会FAST24最佳论文|阿里云块存储架构演进的得与失-5.其他话题分享

4.1 可用性威胁与解决方案 挑战1:BlockServer故障影响众多VD 问题描述:单个BlockServer的故障可能会影响到多个虚拟磁盘(VDs)的正常运作,这是由于传统架构中BlockServer承担了过多的职责,其稳定性直接关系…

Eyes Wide Shut Exploring the Visual Shortcomings of Multimodal LLMs

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs 近两年多模态大模型(Multimodal LLM,MLLM)取得了巨大的进展,能够基于图片与人类对话,展现出强大的识别甚至推理能力。然而,在某些…

字符串操作(CC++)

字符串操作 1. C语言基本使用字符串操作函数 2. C3. 对比 C语言和C在字符串操作上有很大的不同,这主要是因为C标准库提供了更强大、更易于使用的字符串类(std::string),而C语言主要依赖字符数组和一系列标准库函数(如s…

Halcon Ean13 一维码读取

一 EAN码介绍 1 EAN码定义: EAN码是国际物品编码协会制定的一种商品用条码,通用于全世界。EAN码符号有标准版(EAN-13)和缩短版(EAN-8)两种。标准版表示13位数字,又称为EAN13码,缩短版表示8位数…

SSM慢性病患者健康管理系统-计算机毕业设计源码04877

目 录 摘要 1 绪论 1.1 研究意义 1.2研究目的 1.3论文结构与章节安排 2 慢性病患者健康管理系统系统分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 法律可行性分析 2.2 系统功能分析 2.2.1 功能性分析 2.2.2 非功能性分析 2.3 系统用例分…

day02_员工管理

文章目录 新增员工需求分析和设计代码开发功能测试代码完善录入的用户名已存在,抛出异常后没有处理新增员工的时候,创建人id和修改人id设置为了固定值ThreadLocal(面试题) 分页查询问题解决 启用禁用员工账号需求和分析代码设计 编…

分享外贸工作中常用英文标准表达和英文语句

常用英文表达 报拉格斯最低到岸价 quote the lowest price CIF Lagos经营纺织品多年 be in the line of textiles for many years货物受欢迎 the goods are very popular with customers / have met with a warm reception /be well received/accepted/ enjoy a wide populari…

2024年7月2日~2024年7月8日周报

目录 一、前言 二、完成情况 2.1 吴恩达机器学习系列课程 2.1.1 分类问题 2.1.2 假说表示 2.1.3 判定边界 2.2 学习数学表达式 2.3 论文写作情况 2.3.1 题目选取 2.3.2 摘要 2.3.3 关键词 2.3.4 引言部分 2.3.4 文献综述部分 三、下周计划 3.1 存在的问题 3.2 …

Nacos注册中心相关错误记录

文章目录 1,com.alibaba.cloud:spring-cloud-starter-alibaba-nacos-discovery:jar:unknown was not found1.1 定位及解决方案1.2,简要说明dependencyManagement的作用 2,nacos启动失败2.1 解决方案 1,com.alibaba.cloud:spring-c…

七大AI绘画软件大比拼!高效且免费!

在当今数字时代,人工智能技术广泛应用于各个行业,包括艺术创作。人工智能绘画软件可以帮助艺术家更快、更有效地创作。然而,市场上人工智能绘画软件的选择也令人眼花缭乱。那么,哪种人工智能绘画软件更好呢?需要明确的…