字符串处理【AC自动机】 - 原理 AC自动机详解

news2024/11/15 21:33:01

字符串处理【AC自动机】 - 原理 AC自动机详解

AC自动机(Aho-Corasick automaton)在1975年产生于贝尔实验室,是著名的多模匹配算法。

学习AC自动机,要有KMP和Trie(字典树)的基础知识。

KMP是单模匹配算法,即判断模式串T 是否是主串S 的子串。AC自动机是多模匹配算法,例如有多个模式串T 1 , T 2 , T 3 , …, Tk ,求主串S 包含所有模式串的次数。若使用KMP算法,则每个模式串Ti 都要和主串S 进行一次匹配,总时间复杂度为O (n ×k +m ),其中n 为主串S 的长度,m 为模式串T 1 , T 2 , T 3 , …, Tk 的长度和,k 为模式串的个数。而采用AC自动机,时间复杂度只需O (n +m )。

例如给定n个单词,再给出一段包含m 个字符的文章,找出有多少个单词在文章里出现过。

AC自动机实际上是先将KMP算法和Trie树结合,用多个模式串构建一棵字典树,然后在字典树上构建失配指针,失配指针相当于KMP算法中的next函数(匹配失败时的回退位置),最后将主串在Trie树上进行模式匹配。

AC自动机算法分为3步:①构建一棵字典树;②构建AC自动机;③进行模式匹配。

【1】构建字典树

字典树就像我们平时使用的字典一样,把所有单词都编排到一个字典里面,查找单词时,首先看单词的首字母,进入首字母所在的分支,然后看单词的第2个字母,再进入相应的分支,假如该单词在字典树中存在,则只花费单词长度的时间就可以查询到这个单词。

创建字典树指将所有字符串都插入字典树中,字典树可以采用数组或链表存储。插入一个字符串时,需要从前往后遍历整个字符串,在字典树中从根开始判断当前要插入的字符节点是否已经建成,若已建成,则沿该分支遍历下一个字符即可;若没建成,则需要创建一个新节点来表示这个字符,然后往下遍历其他字符,直到整个字符串处理完毕。

假设有单词she、he、his、hers,构建一棵字典树,如下图所示。

在这里插入图片描述
[ 算法代码]

struct node{
	
	node *fail;
	node *ch[K]; // K 为分支数
	
	int count;
	node(){
		fail = NULL;
		memset(ch , NULL , sizeof(ch));
		count = 0;
	}
};

node *superRoot, *root;   //超根, 树根, 为方便处理, 添加超根, 树根为 其儿子

void insert(char* str){ // Trie 的插入
	node *t = root;
	int len = strlen(str);
	
	for(int i = 0 ; i < len ; i ++){
		
		int x = str[i] - 'a';  //字符转数字
		if(t -> ch[x] == NULL){
			t -> ch[x] = new node;
		}
		t = t -> ch[x];
	}
	t-> count ++;
}

【2】构建AC 自动机

若了解KMP算法,那么肯定了解KMP算法中的next函数(回退函数或者fail函数)。next函数指S [i ]与T [j ]不等时j 应该回退的位置。如下图所示,

在这里插入图片描述

当S [i ]与T [j ]不等时,j 应该回退到3的位置,继续比较。

AC自动机的失配指针有同样的功能,模式串在字典树上匹配失败时,会跳转到当前节点失配指针所指向的节点,再次进行匹配操作。AC自动机之所以可以实现多模式匹配,要归功于失配指针(fail指针)。

AC自动机是由字典树及失配指针(匹配失败时转向哪里)组成的。在字典树创建完成后再给每个节点添加失配指针,AC自动机就构造完成了。上面的字典树在添加失配指针后如下图所示。

在这里插入图片描述

AC自动机的失配指针指向的节点代表的字符串是当前节点代表的字符串的后缀,且在字典树中没有更长的当前节点的后缀。上图中,5号节点的失配指针指向2号节点(字符串{he}),它是5号节点(字符串{she})的后缀,且在字典树中没有更长的5号节点的后缀。

实际上,4号节点的e子节点不为空,4号节点的e子节点的失配指针指向其失配指针的e子节点(2号节点)。5号节点的r子节点为空,5号节点的r子节点指向其失配指针的r子节点(8号节点)。

构建AC自动机实际上就是添加失配指针的过程。由于失配指针都是向上走的,所以从根节点开始进行广度优先搜索就可以得到。

构建AC自动机的过程如下。

① 树根入队。

② 若队列不为空,则取队头元素t 并出队,访问该元素的每一个子节点t ->ch[i ]:

  • 若t ->ch[i ]不为空,则t ->ch[i ]的失配指针指向t ->fail->ch[i ],t ->ch[i ]入队;
  • 若t ->ch[i ]为空,则t ->ch[i ]指向t ->fail->ch[i ]。

③ 队空时,算法结束。

void build_ac(){  //构建AC 自动机
	
	queue<node *> q;   // 队列, 广度优先搜索使用
	q.push(root);
	
	while(!q.empty()){
		node *t;
		t = q.front();
		q.pop();
	
		for(int i = 0 ; i < K ; i ++){
			if(t->ch[i]){
				t->ch[i]->fail = t->fail->ch[i];
				q.push(t->ch[i]);
			}
			else{
				t->ch[i] = t->fail->ch[i];
			}
		}
	}
}

【3】模式匹配

模式匹配指从树根开始处理模式串的每个字符,沿着当前字符的fail指针,一直遍历到u ->count=-1为止,在遍历过程中累加这些节点的u ->count,累加后将节点标记为u ->count=-1,避免重复统计。u ->count大于或等于1的节点都是可以匹配的节点。

int query(char *str){  //统计在str 中包含多少个单词
	
	int ans = 0;
	node *t = root;
	int len = strlen(str);
	
	for(int i = 0 ; i < len;  i++){
		int x = str[i] - 'a';
		t = t->ch[x];
	
		for(node *u = t ; u -> count != -1 ; u = u->fail){
			ans += u->count;
			u->count = -1;
		}
	}
	return ans;
}

例如,在字符串{shers}中包含了几个单词?首先从字典树的根开始,匹配第1个字符s,然后匹配第2个字符h,接着匹配第3个字符e,匹配成功{she},5号节点的失配指针指向2号节点,又匹配成功{he};继续匹配第4个字符r,5号节点的r子节点指向其失败指针的r子节点,因此访问8号节点,继续匹配第5个字符s,匹配成功{hers};字符串匹配完毕,包含3个单词。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/71196.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

三代全长16s助攻,轻松搞定水体研究领域10+文章

基于PacBio三代测序平台&#xff0c;可高效获得16s rRNA全长序列&#xff0c;同时不必纠结引物选择带来的结果偏差&#xff0c;令物种分类更多更精准——到达“种”水平。Pacbio平台同时兼具时间短&#xff0c;无需扩增等优势&#xff0c;伴随着三代测序成本的下降&#xff0c;…

<VSCode下载、安装、配置以及连接云服务器进行Linux开发>

目录 1.下载、安装VSCode 2.配置环境及插件 2.1 实用插件安装 2.1.1 中文汉化插件 2.1.2 Remote-ssh插件​ 连接远程云服务器&#xff1a; 远程云服务器开发&#xff1a; Xshell界面与VSCode界面对比&#xff1a; 2.1.3 C/C Extension Pack&#xff08;C/C扩展包&#xff0…

Java实现后端跨域的常见解决方式

目录一、搭建服务&#xff08;cross-server&#xff09;1.1、maven依赖1.2、接口1.3、配置二、搭建服务&#xff08;cross-web&#xff09;2.1、maven依赖2.2、接口2.3、页面2.4、配置2.5、跨域请求结果2.6、常见跨域情况三、解决方案3.1、通过 CrossOrigin 注解3.2、通过配置类…

Kafka高级特性解析之主题

1、管理 使用kafka-topics.sh脚本&#xff1a; 选项说明--config <String: namevalue>为创建的或修改的主题指定配置信息。支持下述配置条目&#xff1a; cleanup.policycompression.typedelete.retention.msfile.delete.delay.msflush.messagesflush.msfollower.repli…

不影响1,4丁炔二醇(BYD)的情况下去除铜离子的工艺

1,4-丁炔二醇BYD&#xff08;but-2-yne-1,4-diol&#xff09;是一种重要的中间体化工原料&#xff0c;广泛应用于生产丁二醇及其下游产品、维生素B6的主要原料&#xff0c;还可以用于镀镍的增亮剂、防腐抑制剂等领域。 1,4&#xff0d;丁二醇&#xff08;BDO&#xff09;是一种…

(附源码)ssm人才市场招聘信息系统 毕业设计 271621

基于jsp的人才市场招聘信息系统的设计与实现 摘 要 人才市场招聘信息系统采用B/S结构、java开发语言、以及Mysql数据库等技术。系统主要分为管理员、用户、两部分&#xff0c;管理员管理主要功能包括&#xff1a;首页&#xff0c;站点管理&#xff08;轮播图、公告栏&#xf…

实验(七):串行口实验

一、实验目的与任务 实验目的&#xff1a; 1&#xff0e;运行Keil开发环境&#xff0c;完成串行口通信软件编程&#xff1b; 2&#xff0e;利用单片机串行口方式1与主机通信&#xff0c;建立Proteus仿真模型。 3&#xff0e;完成系统仿真与调试。。 任务&#xff1a; 1.根据要求…

mongodb 存引擎及配置

上次我们分享到了 wiredTiger 引擎以及他对于以前默认的 MMAPV1 引擎的优势 关于 wiredTiger 引擎 配置这里补充一下&#xff1a; storage:journal:enabled: truedbPath: /data/xiaomotong/mongo1/directoryPerDB: trueengine: wiredTigerwiredTiger:engineConfig:cacheSizeGB:…

Kotlin 开发Android app(二十):悬浮框WindowManager和动画AnimationDrawable

安卓的悬浮框&#xff0c;悬浮框相当于对桌面的一种控制&#xff0c;在安卓中是允许这样的自定义的小窗体出现在桌面的&#xff0c;其实这种小桌面可以使某些应用调用起来非常的方便&#xff0c;而动画的展现使得程序看起来更加有爱。 悬浮框 悬浮框的使用&#xff0c;通常是跟…

【负荷预测】长短期负荷预测(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️❤️&#x1f4a5;&#x1f4a5;&#x1f4a5; &#x1f389;作者研究&#xff1a;&#x1f3c5;&#x1f3c5;&#x1f3c5;主要研究方向是电力系统和智能算法、机器学…

Python学习-8.1.3 标准库(turtle库的基础与实例)

2.3 turtle库 turtle库是能够进行基本的图形绘制的标准库。 turtle库包含100多个功能函数&#xff0c;主要包括三类&#xff1a;窗体函数、画笔运动函数、画笔状态函数 2.3.1 窗体函数 注&#xff1a;像素是指组成图像的小方格&#xff0c;每个小方格都有一个明确的位置和被…

图解LeetCode——1812. 判断国际象棋棋盘中一个格子的颜色(难度:简单)

一、题目 给你一个坐标 coordinates &#xff0c;它是一个字符串&#xff0c;表示国际象棋棋盘中一个格子的坐标。下图是国际象棋棋盘示意图。 如果所给格子的颜色是白色&#xff0c;请你返回 true&#xff0c;如果是黑色&#xff0c;请返回 false 。 给定坐标一定代表国际象…

少走弯路 → PlantUML网站推荐

PlantUML官网 Real World PlantUML 建议画图前从这里拷贝模板 PlantUML在线编辑 虽然简洁但是比官网好用的多 PlantUML 在线编辑器画面美观推荐使用 文章目录类图类图 一直都没搞懂 关联&#xff0c;依赖&#xff0c;组合&#xff0c;聚合的关系&#xff0c;看了视频稍微…

hdfs-over-ftp使用说明

hdfs-over-ftp使用说明 一、介绍 hdfs-over-ftp可以将hdfs文件系统通过ftp服务方式暴露出来,可以通过ftp客户端下载和上传hadoop文件。 二、编译及安装配置 原作者很久不更新了https://github.com/iponweb/hdfs-over-ftp 如果要支持hadoop2、hadoop3需要自己编译&#xff1b;可…

阿里妈妈展示广告召回之多场景建模算法

丨目录&#xff1a; 摘要 背景 方法 实验分析 总结 参考文献1. 摘要工业推荐系统通常拥有多个业务场景&#xff0c;并需要同时为这些场景提供推荐服务。在召回阶段&#xff0c;从大量商品库中选出的个高质量商品需要针对不同场景进行相应调整。以阿里妈妈展示广告为例&#xf…

认识 MySQL数据库和Redis缓存的数据一致性问题

文章目录1. 什么是数据的一致性2. 数据不一致情况及应对策略3. 数据一致性中需要注意的其他问题有哪些&#xff1f;1. 什么是数据的一致性 “数据一致”一般指的是&#xff1a;缓存中有数据&#xff0c;缓存的数据值 数据库中的值。 但根据缓存中是有数据为依据&#xff0c;…

微信外卖点餐小程序毕业设计,微信订餐小程序系统设计与实现,微信小程序毕业设计论文怎么写毕设源码开题报告需求分析怎么做

基于微信小程序的毕业设计题目(5)php点菜外卖小程序(含开题报告、任务书、中期报告、答辩PPT、论文模板) 项目背景和意义 目的&#xff1a;本课题主要目标是设计并能够实现一个基于微信小程序外卖点菜系统&#xff0c;前台用户使用小程序&#xff0c;后台管理使用基PHPMySql的B…

【AI入门】利用Paddle实现简单的数字识别

梳理逻辑 整个流程 准备好Paddle的环境准备好训练样本设计模型(定义模型)训练模型模型测试 1、准备好环境 #加载飞桨和相关类库 import paddle from paddle.nn import Linear import paddle.nn.functional as F import os import numpy as np import matplotlib.pyplot as plt…

Kafka 为什么那么快?

有人说&#xff1a;他曾在一台配置较好的机子上对 Kafka 进行性能压测&#xff0c;压测结果是 Kafka 单个节点的极限处理能力接近每秒 2000万 条消息&#xff0c;吞吐量达到每秒 600MB。 那 Kafka 为什么这么快&#xff1f;如何做到这个高的性能&#xff1f; 本篇文章主要从这…

梯度消失、梯度爆炸和梯度裁剪(Gradient Clipping)

消失梯度 网络训练过程中&#xff0c;如果每层网络的梯度都小于 1&#xff0c;各层梯度的偏导数会与后面层 传递而来的梯度相乘得到本层的梯度&#xff0c;并向前一层传递。该过程循环进行&#xff0c;最后导 致梯度指数级地减小&#xff0c;这就产生了梯度消失现象。这种情况…