pm4py使用指南(非机翻)

news2024/11/16 21:23:46

目录

  • 1. 日志数据读取及预处理
    • (1)查看case和event数量
    • (2)查看起始事件和结束事件
    • (3)时间戳格式的问题
  • 2. 日志数据过滤
  • 3. 流程发现
  • 4. 模型转化
  • 5. 模型可视化

1. 日志数据读取及预处理

通过 pandas库 读取csv文件,每一行代表一条活动记录,一般必须要有的信息是 case_id 事件id , activity_name 活动名称,time 时间戳,此外还可以包含 事件类型、活动成本等额外的信息以供进一步分析。pm4py官网提供了一个小样本数据集可用于探索该库的使用。

case_id;activity;timestamp;costs;resource
3;register request;2010-12-30 14:32:00+01:00;50;Pete
3;examine casually;2010-12-30 15:06:00+01:00;400;Mike
3;check ticket;2010-12-30 16:34:00+01:00;100;Ellen
3;decide;2011-01-06 09:18:00+01:00;200;Sara
3;reinitiate request;2011-01-06 12:18:00+01:00;200;Sara

(1)查看case和event数量

数据读取完成之后,可以获取该事件日志的一些基本信息。注意:这里 case/ trace 表示一个案例,即一次完整的流程,每个case_id 对应了很多可分隔的步骤(也即具体的 事件event / 活动activity 。后面不再强调这一点,但都会按照这种方式进行叙述,因此需要明确区分 case 和 event 。

event_log = pandas.read_csv(file_path, sep=';')  # 读取日志文件
num_events = len(event_log)                      # 获取日志文件的活动数目
num_cases = len(event_log.case_id.unique())      # 查看有多少次完整的案例记录

(2)查看起始事件和结束事件

此外,通过pm4py提供的函数还可以查看开始活动和结束活动都是哪些。

# 指定case_id,activity_key,timestamp_key分别对应哪个数据列
event_log = pm4py.format_dataframe(event_log, case_id='case_id', activity_key='activity',
                                   timestamp_key='timestamp')
                                   
start_activities = pm4py.get_start_activities(event_log)   # 起始事件
end_activities = pm4py.get_end_activities(event_log)       # 结束事件
print("Start activities: {}\nEnd activities: {}".format(start_activities, end_activities))

pm4py.format_dataframe 将数据表转换为pm4py中的通用格式,它会创建事件日志的副本,并将分配的列重命名为pm4py中使用的标准列名,列case_id会重命名为case:concept:name,activity 列重命名为concept:name,timestamp列重命名为time:timestamp

pm4py.get_start_activitiespm4py.get_end_activities 函数返回一个字典,给出起始事件及结束事件分别出现在第一个和最后一个的次数。

(3)时间戳格式的问题

PM4Py利用内置的panda函数自动检测输入数据中的时间戳格式。但是,pandas 会孤立地查看每一行中的时间戳值。这就存在一些问题,如果提供的值是2020-01-18,即,首先是年份,然后是月份,然后是日期,在某些情况下,2020-02-01的值可能被错误地解释为1月2日,即,而不是2月1日。为了解决这个问题,可以向format_dataframe()方法提供一个额外的参数 times_format 。在本例中,时间戳格式为%Y-%m-%d%H:%m:%S%z。通常建议指定时间戳格式。

2. 日志数据过滤

现实中的日志数据通常是复杂、多变、有噪声的,为了得到良好的过程模型,有必要对数据进行仔细的过滤,PM4Py中有各种预构建的过滤器来实现这个需求。

  • filter_start_activities(log, activities, retain=True) :此函数根据给定的起点事件过滤事件日志对象。 activities 用于指定所关注的 起始事件 的集合; retain 设置为True 表示 保留所有以 activities 中的事件开头的case,为 False 则删除所有以 activities 中的事件开头的case。 activities 和 retain这两个参数在其他函数中也是一样的,因此后面不再介绍。
  • filter_end_activities(log,activities,retain=True):根据给定的终点事件过滤事件日志对象。
  • filter_event_attribute_values(log,attribute_key,values,level=“case”,retain=True):根据事件属性过滤事件日志。attribute_key 是表示要筛选的属性键的字符串,values 参数指定一组允许的值。如果level参数设置为“case”,表示在case-level进行属性值的过滤,一个case所包含的多个event中,至少一个event的属性值满足要求,那么整个case的所有事件都将被保留。如果level参数值设置为“event”,则只保留属性为指定值的事件。
  • filter_trace_attribute_values(log,attribute_key,values,retain=True):仅保留(如果retain设置为False,则删除)具有所提供attribute_key的属性值并列在相应值集合中的跟踪。
  • filter_variants(log,variants,retain=True):保留 满足特定执行顺序 的轨迹。例如,在大型日志中,我们希望保留描述执行序列“a”、“b”、“c”的所有轨迹。variations 参数是活动名称列表的集合,例如 variations=[['a','b','c']]
  • filter_directly_follows_relation(log,relationship,retain=True):此函数筛选包含指定“直接跟随关系”的所有轨迹。这样的关系只是一对活动,例如 ('a', 'b') 表示在轨迹中’a’后面直接跟着 ‘b’ ,轨迹<'a','b','c','d'>包含直接跟在后面的对(‘a’,‘b’),(‘b’,‘c’)和(‘c’,‘d’)。relationship 参数是一组元组,包含活动名称。
  • filter_eventually_follows_relation(log,relationship,retain=True):此函数的跟随关系更宽松,允许两个活动之间有其他的活动,只需要这两个活动的前后关系满足要求即可。例如,当我们调用具有关系(“a”, “b”)的函数时,在某个点观察到活动“a”,在之后某个点观察到活动“b”即可。
  • filter_time_range(log, dt1, dt2, mode=’events’) :根据时间戳 dt1 和 dt2 定义的给定时间范围过滤事件日志。时间戳的格式应为datetime.datetime。筛选器有三种模式(默认为“events”):
    • ‘events’:保留在时间范围之内的事件
    • ‘traces_contained’:保留完全在时间范围之内的轨迹
    • ‘traces_intersecting’ :保留至少有一个事件在时间范围之内的轨迹
    filtered = pm4py.filter_start_activities(log, {'register request'})

    filtered = pm4py.filter_start_activities(log, {'register request TYPO!'})

    filtered = pm4py.filter_end_activities(log, {'pay compensation'})

    filtered = pm4py.filter_event_attribute_values(log, 'org:resource', {'Pete', 'Mike'})

    filtered = pm4py.filter_event_attribute_values(log, 'org:resource', {'Pete', 'Mike'}, level='event')

    filtered = pm4py.filter_trace_attribute_values(log, 'concept:name', {'3', '4'})

    filtered = pm4py.filter_trace_attribute_values(log, 'concept:name', {'3', '4'}, retain=False)

    filtered = pm4py.filter_variants(log, [
        ['register request', 'check ticket', 'examine casually', 'decide', 'pay compensation']])

    filtered = pm4py.filter_variants(log, [
        ['register request', 'check ticket', 'examine casually', 'decide', 'reject request']])

    filtered = pm4py.filter_directly_follows_relation(log, [('check ticket', 'examine casually')])

    filtered = pm4py.filter_eventually_follows_relation(log, [('examine casually', 'reject request')])

    filtered = pm4py.filter_time_range(log, dt.datetime(2010, 12, 30), dt.datetime(2010, 12, 31), mode='events')

    filtered = pm4py.filter_time_range(log, dt.datetime(2010, 12, 30), dt.datetime(2010, 12, 31),
                                       mode='traces_contained')

    filtered = pm4py.filter_time_range(log, dt.datetime(2010, 12, 30), dt.datetime(2010, 12, 31),
                                       mode='traces_intersecting')

3. 流程发现

流程发现模块用于从事件日志中生成流程模型,pm4py实现了多种流程发现算法,并且可以生成不同种类的过程模型。PM4Py目前支持三种不同的流程建模符号,分别是:

  • BPMN,即 Business Process Modeling Notation;
  • Petri网,Petri网是一种更加数学化的建模表示,Petri网的行为通常更难理解,然而由于其数学性质,Petri网通常不那么模糊。在本教程中,我们将主要关注BPMN模型和流程树。
  • 过程树 Process Tree,过程树表示Petri网的严格子集,并以分层的方式描述过程行为。

pm4py中的流程发现根据所使用的 算法模型 对应着不同的函数,具体如下表所示(表中只是其中部分),然后本文会对这些函数的使用方法和参数进行具体的介绍:

pm4py

  • discover_petri_net_alpha()(这类函数一般都需要下面四个参数,因此后面省略不再介绍)
    • log: Union[EventLog, DataFrame] 事件日志
    • activity_key: str = ‘concept:name’ ,指定活动名称列
    • timestamp_key: str = ‘time:timestamp’,指定表示时间的列
    • case_id_key: str = ‘case:concept:name’) ,指定轨迹 id 列
    • Return type:Tuple[PetriNet, Marking, Marking]
  • discover_petri_net_ilp()
    • alpha(float):序列编码图 (sequence encoding graph)的噪声阈值,1.0=no filtering, 0.0=greatest filtering
    • Return type:Tuple[PetriNet, Marking, Marking]
  • discover_petri_net_inductive()
    • noise_threshold (float) :噪声阈值 (default: 0.0)
    • multi_processing (bool) :boolean that enables/disables multiprocessing in inductive miner(?)
    • discover_petri_net_heuristics()
    • dependency_threshold (float) : dependency threshold (default: 0.5)
    • and_threshold (float): AND threshold (default: 0.65)
    • loop_two_threshold (float) :loop two threshold (default: 0.5)

  • discover_process_tree_inductive()
    • noise_threshold (float) : noise threshold (default: 0.0)
    • multi_processing (bool) :boolean that enables/disables multiprocessing in inductive miner
    • Return type:ProcessTree
  • discover_heuristics_net()
    • dependency_threshold (float) : dependency threshold (default: 0.5)
    • and_threshold (float): AND threshold (default: 0.65)
    • loop_two_threshold (float) :loop two threshold (default: 0.5)
    • min_act_count (int):活动的最小发生次数,大于该阈值才会纳入模型中
    • min_dfg_occurrences (int):活动的最小发生次数,大于该阈值才会被作为DFG的一条弧
    • decoration (str) :弧上的标注 可选 ‘frequency’ 频率 或 ‘performance’ 性能)
    • Return type:HeuristicsNet
  • discover_bpmn_inductive()
    • noise_threshold (float) : noise threshold (default: 0.0)
    • multi_processing (bool) :boolean that enables/disables multiprocessing in inductive miner
    • Return type:BPMN

4. 模型转化

在介绍绘图之前,先介绍一下各个流程模型之间的转化。pm4py的convert模块提供了多种函数实现 petri 网,过程树,BPMN等模型的转换。

  • convert_to_bpmn():输入 petri net 或process tree,返回BPMN
  • convert_to_petri_net() :输入BPMN 或process tree,返回 petri net
  • convert_to_process_tree():输入BPMN 或 petri net ,返回process tree
    process_tree = pm4py.discover_process_tree_inductive(log)   # 流程树
    bpmn_model = pm4py.convert_to_bpmn(process_tree)            # 将流程树转换为BPMN

5. 模型可视化

  • view_petri_net()
    • petri_net (PetriNet):传入要绘制的petri网
    • initial_marking : Initial marking 起始标记 im
    • final_marking:Final marking 终点标记 fm(im和fm在前面使用流程发现函数时会随着petri网一起生成三元组)
    • format (str) :输出图片的格式
    • bgcolor (str) :背景颜色,默认白色(default: white)
    • decorations :与Petri网元素相关的装饰(颜色、标签)
    • debug (bool):启用 / 禁用debug模式
  • save_vis_petri_net()
    • 参数同上,但是多了一个 file_path 用于指定文件保存位置

BPMN,过程树绘制的函数也都类似,view_xxxx() 用于模型可视化展示,save_vis_xxxx() 用于文件保存,一般可以设置 format 文件类型bgcolor背景颜色

net, im, fm = pm4py.discover_petri_net_inductive(dataframe, activity_key='concept:name', 
                                                 case_id_key='case:concept:name', 
                                                 timestamp_key='time:timestamp')
pm4py.view_petri_net(net, im, fm, format='svg')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/920888.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PyCharm搭建Pytorch环境

&#x1f482; 个人主页:风间琉璃&#x1f91f; 版权: 本文由【风间琉璃】原创、在CSDN首发、需要转载请联系博主&#x1f4ac; 如果文章对你有帮助、欢迎关注、点赞、收藏(一键三连)和订阅专栏哦 本文是在anaconda配置好pytorch坏境下&#xff0c;使用PyCharm搭建Pytorch环境。…

vue2 element 踩坑爬坑

动态增减表单项 这个其实官网有demo&#xff0c;但是自己也调试了好久&#xff0c;记录下&#xff0c;具体写法自己查看文档&#xff1a;https://element.eleme.cn/#/zh-CN/component/form 关键地方在于key&#xff0c;新增数组时&#xff0c;要在数据里增加个key&#xff0c;…

免费插件集-illustrator插件-Ai插件-制卡专用分层分色

文章目录 1.介绍2.安装3.通过窗口>扩展>知了插件4.功能解释5.示例6.总结 1.介绍 本文介绍一款免费插件&#xff0c;加强illustrator使用人员工作效率&#xff0c;进行制卡专用分层分色。首先从下载网址下载这款插件 https://download.csdn.net/download/m0_67316550/878…

pandas(一):read_csv解决第一列Unnamed问题

先直接给答案&#xff1a;configdata pd.read_csv(savepath, encodingutf-8, index_col0)。 然后我们展开来说明&#xff1a; 首先下面这个图片是原始csv数据 1、第一列问题 上述图片可以看到&#xff0c;因为csv文件自带第一列序号&#xff0c;如果我们直接用pd.read_csv读…

【Spring】Spring循环依赖(超重要!!)

目录 什么是循环依赖问题 循环依赖具体是怎么解决的 具体的解决步骤&#xff1a; 通俗实例&#xff1a; 严谨的循环依赖解决图例 为什么使用的是三级缓存&#xff0c;二级缓存不够用吗&#xff1f; 什么是循环依赖问题 Spring的循环依赖是指在Bean之间存在相互依赖关…

MinDoc:针对IT团队的文档、笔记系统

作为一名IT从业者&#xff0c;无论是在公司团队中&#xff0c;还是在平时自己写一些笔记、博客等文档&#xff0c;我都习惯使用markdown来进行书写。在使用过许多支持markdown语法的系统或软件&#xff08;如Typora、未知、我来、思源、觅道等&#xff09;后&#xff0c;我总觉…

pytestx重新定义接口框架设计

概览 脚手架&#xff1a; 目录&#xff1a; 用例代码&#xff1a; """ 测试登录到下单流程&#xff0c;需要先启动后端服务 """test_data {"查询SKU": {"skuName": "电子书"},"添加购物车": {"sk…

异步I/O优化Python代理程序性能

作为一名爬虫程序员&#xff0c;你是否曾经遇到过需要处理大量网络请求的情况&#xff1f;你是否想要提高你的Python代理程序的性能&#xff0c;让它更快、更高效&#xff1f;别担心&#xff0c;我来给你分享一些关于异步I/O如何优化Python代理程序性能的实用知识。 首先&…

云计算技术应用专业实训室建设方案

一、 云计算技术应用系统概述 云计算技术是一种基于互联网的计算模式&#xff0c;通过将计算资源&#xff08;如服务器、存储、数据库、网络、软件等&#xff09;提供为一种服务&#xff0c;使用户能够按需获取和使用这些资源&#xff0c;而无需拥有和管理实际的物理设备。云计…

使用RAMMap+PoolMon分析Windows内存使用异常问题

1 RAMMap和PoolMon工具简介 RAMMap和PoolMon都是微软Sysinternals的工具&#xff0c;前者可以从使用类型、页列表、进程、文件、优先级&#xff0c;以及物理地址来检查内存的使用情况&#xff0c;但是无法检查尚未提交和分页的进程内存使用情况&#xff1b;后者可以是作为RAMM…

使用haproxy搭建web架构

haproxy HAProxy是一个免费的负载均衡软件&#xff0c;可以运行于大部分主流的Linux操作系统上。 HAProxy提供了可以在七层和四层两种负载均衡能力&#xff0c;它可以提供高可用性、负载均衡、及基于TCP和HTTP应用的代理。适用于负载大的Web站点&#xff0c;在运行在硬件上可…

使用 SQLStudio 进行数据库管理并通过 Docker Compose 进行部署

在现代软件开发中&#xff0c;数据库管理是一个至关重要的环节。SQLStudio 是一个强大的工具&#xff0c;可以帮助开发人员轻松管理数据库&#xff0c;现在改名成SQLynx&#xff0c;我们用的是旧的镜像&#xff0c;本文还是用SQLStudio这个名称。同时&#xff0c;使用 Docker C…

Qt双击某一文件通过自己实现的程序打开,并加载文件显示

双击启动 简述方法一方法二注意 简述 在Windows系统中&#xff0c;双击某类扩展名的文件&#xff0c;通过自己实现的程序打开文件&#xff0c;并正确加载及显示文件。有两种方式可以到达这个目的。 对于系统不知道的扩展名的文件&#xff0c;第一次打开时&#xff0c;需要自行…

ModaHub魔搭社区:WinPlan企业经营垂直大模型数据建模(二)

目录 维度模版管理 录入维度数据 经营指标 创建经营指标 经营指标管理 维度模版管理 创建维度后,可在维度库的左侧栏展示全部启用中的维度,你也可以再次编辑维度模版;如不再需要该维度,可停用,停用后可在停用管理里重新启用或删除。 1)停用:维度停用后,不会出现在…

3个方法学会:恢复指定人微信聊天记录

和朋友吵架后一怒之下把她微信删除了&#xff0c;和好之后又想把聊天记录恢复回来。网上很多方法都是直接恢复所有的微信聊天记录&#xff0c;我想问问&#xff0c;可以只恢复这个朋友的聊天记录吗&#xff1f;有什么方法吗&#xff1f; 朋友之间有一些小摩擦、小争吵是很正常的…

MyCAT命令行监控

9066端口 &#xff0c;用mysql命令行连接 Mysql –utest –ptest –P9066 show help 可显示所有相关管理命令 显示后端物理库连接信息&#xff0c;包括当前连接数&#xff0c;端口 Show backend Show connection 显示当前前端客户端连接情况&#xff0c;已经网络流量信息、…

JavaFX:根据控件内容显示tooltip

如题。当控件为空&#xff0c;没有内容时显示tooltip&#xff0c;反之不显示。示例如下&#xff1a; package ch06;import javafx.application.Application; import javafx.application.Platform; import javafx.beans.value.ObservableValue; import javafx.geometry.VPos; i…

如何将下载的安装包导入PyCharm

1. 下载安装包 这里以pyke为例。下载好之后解压缩&#xff0c;然后放入/Lib/site-packages/pyke-1.1.1 2. 打开PyCharm的终端进行安装 python setup.py install 3. 安装好之后导入即可使用 import pyke

Linux搭建SSLVpn

安装http、ssl服务 编辑http配置文件 修改http的136行&#xff0c;276行以及990行 1、136行将监听端口注释 2、276行和990行修改为自己的域名和要访问的端口 修改http文档最后那部分 新添ssl配置信息&#xff0c;将端口修改为443&#xff08;截图错了server.key应该放在/etc/…

单片机的串口通信

今天&#xff0c;完整地总结一下普中科技的单片机的串口通信的硬件与编程&#xff0c;记录一下以后如果需要也比较方便捡起来。 单片机的串口部分的电路图。开发板上集成了 1 个串口通信电路&#xff0c;是 USB 转串口模块&#xff0c;它既可下载程序也可实现串口通信功能。 对…