浅谈AC自动机算法(c++)

news2024/11/14 15:37:50

文章目录

  • 自动机
    • 一些简单的自动机:
  • AC 自动机
    • 字典树构建
    • 失配指针
      • 构建指针
    • [HNOI2006] 最短母串问题
      • 题目描述
      • 输入格式
      • 输出格式
      • 样例 #1
        • 样例输入 #1
        • 样例输出 #1
      • 提示
      • 思路
      • AC代码
    • 「一本通 2.4 例 1」Keywords Search
      • AC代码

自动机

自动机是什么?
自动机的作用一般是识别字符串。一个自动机 A ,若它能识别(接受)字符串 S ,那
么 A(S) = True ,否则 A(S) = False 。
当一个自动机读入一个字符串时,从初始状态(根节点)起按照转移函数一个一个字符
地转移。如果读入完一个字符串的所有字符后位于一个接受状态,那么我们称这个自动
机 接受 这个字符串,反之我们称这个自动机 不接受 这个字符串。

一些简单的自动机:

Trie 树。其转移函数就是针对每个节点的儿子集合。其能接受的字符串就是插入到Trie 树中的字符串(或者是插入到 Trie 树中的字符串的前缀,这取决于你如何定义Trie 树的接受状态)。
子序列自动机。其能接受的字符串是给定字符串的所有子序列。其转移函数 trans(x, c) 是在字符 c 对应的 vector 里 upper_bound x得到的返回值。每个节点都可以看作接受状态。
KMP 自动机。由 s 构造的自动机能接受的字符串是以 s 为子串的串 t。其转移函数trans(x, c) 是不断跳 x 的 next 指针直到满足 sx+1 = c。可以认为匹配完 s 的状态是终止状态。

AC 自动机

AC 自动机的全称是 Aho-Corasick Automation。
我真希望是ACCEPT
其中 Aho-Corasick 是人名 Alfred Aho 和 Margaret Corasick。
接受且仅接受以指定的字符串集合中的某个元素为子串的字符串。
AC 自动机是 以 Trie 的结构为基础 ,结合 KMP 的思想 建立的。
简单来说,建立一个 AC 自动机有两个步骤:

  1. 基础的 Trie 结构:将所有的模式串构成一棵 Trie。
  2. KMP 的思想:对 Trie 树上所有的结点构造失配指针。
    然后就可以利用它进行多模式匹配了。

字典树构建

AC 自动机在初始时会将若干个模式串丢到一个 Trie 里,然后在 Trie 上建立 AC 自动机。
这个 Trie 就是普通的 Trie,该怎么建怎么建。
这里需要仔细解释一下 Trie 的结点的含义,尽管这很小儿科,但在之后的理解中极其重要。Trie 中的结点表示的是某个模式串的前缀。我们在后文也将其称作状态。一个结点表示一个状态,Trie 的边就是状态的转移。
形式化地说,对于若干个模式串 ,将它们构建一棵字典树后的所有状态的 s 1 , s 2 … s n s_1 , s_2 …s_ n s1,s2sn集合记作 Q。

失配指针

AC 自动机利用一个 fail 指针来辅助多模式串的匹配。
状态 u 的 fail 指针指向另一个状态 v ,其中 v ∈ Q ,且 v 是 u 的最长后缀(即在若干
个后缀状态中取最长的一个作为 fail 指针)。这里简单对比一下这里的 fail 指针与 KMP
中的 next 指针:

  1. 共同点:两者同样是在失配的时候用于跳转的指针。
  2. 不同点:next 指针求的是最长 Border(即最长的相同前后缀),而 fail 指针指向所
    有模式串的前缀中匹配当前状态的最长后缀。
    因为 KMP 只对一个模式串做匹配,而 AC 自动机要对多个模式串做匹配。有可能 fail 指针指向的结点对应着另一个模式串,两者前缀不同。
    当 AC 自动机的搭建只对一个串进行时,AC 自动机的 fail 指针就是 KMP 的 next 指针。

构建指针

下面介绍构建 fail 指针的基础思想(也是 AC 自动机实现的第一种方式):
构建 fail 指针,可以参考 KMP 中构造 Next 指针的思想。
考虑字典树中当前的结点u,u的父结点是u,u通过字符 c 的边指向u,即trie[p, c] = u。假设深度小于u 的所有结点的 fail 指针都已求得(只需要通过 BFS 就可以得到这个性质)(特别的,令 fail[root] = root,令深度为 1 的所有节点 x, fail[x] =root)。

  1. 如果 trie[fail[p], c] 存在:则让 u 的 fail 指针指向 trie[fail[p], c] 。相当于在p和fail[p]后面加一个字符 c ,分别对应u 和 fail[u] 。
  2. 如果fail[u]不存在:那么我们继续找到trie[fail[fail[p]], c] 。重复 1 的判断过程,一直跳 fail 指针直到根结点。
  3. 如果真的没有,就让 fail 指针指向根结点。如此即完成了fail[u] 的构建。

[HNOI2006] 最短母串问题

题目描述

给定 n n n 个字符串 ( S 1 , S 2 , . . . , S n ) (S_1,S_2,...,S_n) (S1,S2,...,Sn),要求找到一个最短的字符串 T T T,使得这 n n n 个字符串 ( S 1 , S 2 , . . . , S n ) (S_1,S_2,...,S_n) (S1,S2,...,Sn) 都是 T T T 的子串。

输入格式

输入文件第一行是一个整数 n n n,表示给定的字符串个数。接下来 n n n 行,每行有一个全由大写字母组成的字符串,。

输出格式

输出文件只有一行,为找到的最短的字符串 T T T。在保证最短的前提下,如果有多个字符串都满足要求,那么必须输出按字典序排列的第一个。

样例 #1

样例输入 #1
2
ABCD
BCDABC
样例输出 #1
ABCDABC

提示

对于 100 % 100\% 100% 的数据, n ≤ 12 n\leq 12 n12,每个字符串的长度不超过 50 50 50

思路

对于一个特定的字符串 T,如何判断 S 1 … S n S_1 …S_n S1Sn中的哪些串在其中出现过?
与前一道题很类似的,我们对 S 建 AC 自动机。接着可以认为 f a i l x fail_x failx,如果 中含有字符
S i S_i Si ,那么x中也含有字符串 S i S_i Si。这样的话每个节点会含有${S_1 …S_n}的一个子
集。考虑到 n 很小,这个集合是可以状压的。
只需要把字符串 T 丢到 AC 自动机上跑,然后对经过的所有点的集合取并就好了。
既然说这个集合是可以状压的,实际上做法已经呼之欲出了:只需要在 AC 自动机上写
一个状压 DP 就好了。
实际上甚至不能说是状压 DP,因为通过 bfs 就可以实现这个功能。
具体来说就是 diss,i 表示在节点 i,已经包含的字符串集合为 s 的最短长度。
初始态是 dis0,root = 0,只要按照由小到大的顺序去枚举字符,得到的结果自然是最小
字典序的。

AC代码

#include<bits/stdc++.h>
using namespace std;
const int N=610;
int add[N][26],fail[N],state[N],nod,ans[N*(1<<12|1)],fa[N*(1<<12|1)],n,cnt,tot;
bool vis[N][1<<12|1];
char s[N],ch[51];
queue<int>q,q1,q2;
inline void getfail(){
    for(int i=0;i<26;++i)
        if(add[0][i])q.push(add[0][i]);
    while(!q.empty()){
        int x=q.front();
        q.pop();
        for(int i=0;i<26;++i)
            if(add[x][i]){
                fail[add[x][i]]=add[fail[x]][i];
                state[add[x][i]]|=state[add[fail[x]][i]];
                q.push(add[x][i]);
            }
            else add[x][i]=add[fail[x]][i];
    }
}
int main(){
    scanf("%d",&n);
    for(int i=1;i<=n;++i){
        scanf("%s",ch);
        int now=0,ln=strlen(ch);
        for(int j=0;j<ln;++j){
            if(!add[now][ch[j]-'A'])add[now][ch[j]-'A']=++cnt;
            now=add[now][ch[j]-'A'];
        }
        state[now]|=1<<(i-1);
    }
    getfail();
    q1.push(0);
    q2.push(0);
    vis[0][0]=1;
    int Ti=0;
    while(!q1.empty()){
        int now=q1.front(),st=q2.front();
        q1.pop();q2.pop();
        if(st==((1<<n)-1)){
            while(Ti){
                s[++nod]=ans[Ti];
                Ti=fa[Ti];
            }
            for(int i=nod;i>0;--i)putchar(s[i]+'A');
            return 0;
        }
        for(int i=0;i<26;++i){
            if(!vis[add[now][i]][st|state[add[now][i]]]){
                vis[add[now][i]][st|state[add[now][i]]]=1;
                q1.push(add[now][i]);
                q2.push(st|state[add[now][i]]);
                fa[++tot]=Ti;
                ans[tot]=i;
            }
        }
        ++Ti;
    }
    return 0;
}

「一本通 2.4 例 1」Keywords Search

在这里插入图片描述

AC代码

#include <bits/stdc++.h>
using namespace std;
const int N = 5e5 + 5;
int T, n, tree[N][26], tail[N], cnt, fail[N];
string s;
void Insert() {
    int len = s.size(), now = 0;

    for (int i = 0; i < len; i++) {
        int x = s[i] - 'a';

        if (tree[now][x] == 0)
            tree[now][x] = ++cnt;

        now = tree[now][x];
    }

    tail[now]++;
}
void get_fail() {
    queue<int> q;

    for (int i = 0; i < 26; i++) {
        int x = tree[0][i];

        if (x) {
            fail[x] = 0;
            q.push(x);
        } else
            tree[0][i] = tree[fail[0]][i];
    }

    while (!q.empty()) {
        int t = q.front();
        q.pop();

        for (int i = 0; i < 26; i++) {
            int x = tree[t][i];

            if (x) {
                q.push(x);
                fail[x] = tree[fail[t]][i];
            } else
                tree[t][i] = tree[fail[t]][i];
        }
    }
}
int find() {
    int res = 0, now = 0, len = s.size();

    for (int i = 0; i < len; i++) {
        int x = s[i] - 'a';
        now = tree[now][x];

        for (int j = now; j && tail[j] != -1; j = fail[j]) {
            res += tail[j];
            tail[j] = -1;
        }
    }

    return res;
}
int main() {
    ios::sync_with_stdio(false);
    cin.tie(0);
    cout.tie(0);
    cin >> T;

    while (T--) {
        memset(tree, 0, sizeof(tree));
        memset(tail, 0, sizeof(tail));
        memset(fail, 0, sizeof(fail));
        cnt = 0;
        cin >> n;
        fail[0] = 0;

        while (n--) {
            cin >> s;
            Insert();
        }

        get_fail();
        cin >> s;
        cout << find() << endl;
    }

    return 0;
}

这是我的第二十一篇文章,如有纰漏也请各位大佬指正
辛苦创作不易,还望看官点赞收藏打赏,后续还会更新新的内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1977291.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux小组件:gcc

gcc 是C语言的编译器&#xff0c;在Linux下我们也用这个编译C语言 安装gcc sudo apt install build-essential 查看gcc版本信息 gcc --version 有时候会出现代码编译不过去的问题&#xff0c;通常可能是gcc的编译标准太低&#xff0c;不支持某些写法 比如在很多旧的编译标…

rk3588 部署yolov8.rknn

本文从步骤来记录在rk3588芯片上部署yolov8模型 主机&#xff1a;windows10 VMware Workstation 16 Pro 硬件&#xff1a;RK3588 EVB板 模型&#xff1a; RK3588.rknn 软件开发环境&#xff1a; c cmake step1: 主机上执行&#xff1a; 将rknn_model_zoo 工程文件下载…

spring:标签property

标签property对应于bean类公开的JavaBean setter方法。标签property的属性中&#xff0c;name为属性名&#xff0c;type为“”引号里面的类型&#xff0c;use为是否必须出现。 1.ref引用一个已经存在的对象,value创建一个新的对象 2.value可以赋一些简单类型的值&#xff0c;…

【MySQL】常用数据类型

目录 数据类型 数据类型分类 数值类型 tinyint类型 bit类型 小数类型 float decimal 字符串类型 char varchar 日期和时间类型 enum和set 数据类型 数据类型分类 数值类型 tinyint类型 tinyint类型只占用一个字节类似于编程语言中的字符char。有带符号和无符号两…

【系统架构设计师】二十四、安全架构设计理论与实践②

目录 三、系统安全体系架构规划框架 3.1 信息系统安全体系规划 3.2 信息系统安全规划框架 3.2.1 信息系统安全规划依托企业信息化战略规划 3.2.2 信息系统安全规划需要围绕技术安全、管理安全、组织安全考虑 3.2.3 信息系统安全规划以信息系统与信息资源的安全保护为核心…

Java——多线程(6/9):线程池、处理Runnable、Callable任务(认识线程池-线程池的工作原理,ThreadPoolExecutor构造器)

目录 认识线程池 介绍 线程池的工作原理 如何创建线程池 介绍 ThreadPoolExecutor构造器 代码实例 线程池的注意事项 线程池处理Runnable任务 ExecutorService的常用方法 代码实例 新任务拒绝策略 线程池处理Callable任务 ExecutorService的常用方法 代码实例…

二叉树的前序遍历 - 力扣(LeetCode)C语言

144. 二叉树的前序遍历 - 力扣&#xff08;LeetCode&#xff09;(点击前面链接即可查看题目) 一、题目 给你二叉树的根节点 root &#xff0c;返回它节点值的 前序 遍历。 示例 1&#xff1a; 输入&#xff1a;root [1,null,2,3] 输出&#xff1a;[1,2,3]示例 2&#xff1a; …

Datawhale AI 夏令营——AI+逻辑推理——Task4

# Datawhale AI 夏令营 夏令营手册&#xff1a;从零入门 AI 逻辑推理 比赛&#xff1a;第二届世界科学智能大赛逻辑推理赛道&#xff1a;复杂推理能力评估 代码运行平台&#xff1a;魔搭社区 赛题任务 本次任务主要采用大语言模型解决推理任务&#xff0c;如何使用大语言模…

Python3 第六十一课 -- 实例三十

目录 一. 堆排序 二. 计数排序 一. 堆排序 堆排序&#xff08;Heapsort&#xff09;是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构&#xff0c;并同时满足堆积的性质&#xff1a;即子结点的键值或索引总是小于&#xff08;或者大于&#xff…

Yolov8在RK3588上进行自定义目标检测(二)

best.pt转best.onnx Yolov8在RK3588上进行自定义目标检测(一)已经进行了配置文件修改。接下来可以直接进行模型的转换。 下面是两种转换方法&#xff1a; 1.命令行 yolo export modelbest.pt formatrknn 2.转换脚本 convert_to_onnx.py from ultralytics import YOLOmode…

数据求均值背后的原理 - 最小二乘法

1. 背景 对采集数据求均值是一种常见简单有效的数据处理手段&#xff0c;比如用直尺去测量物体的长度一般情况会多次测量然后计算平均值然后将平均值作为物体的长度&#xff0c;又如我们需要测量某电源的电压也会采取类似的方法&#xff0c;可以说对数据求均值在我们工作生活中…

【时时三省】unity test 测试框架 介绍(适用于C语言进行测试的)

1&#xff0c;关于 unity test 测试框架的介绍 unity test 是 ThrowTheSwitch.org 的一个主要工程。它是专注于为嵌入式工具链而生的C语言单元测试框架。它可以适用于大工程或者小工程都可以。它的核心文件是一个.c文件和两个头文件。 备注&#xff1a; 下载源码地址&#xff…

btslab靶场-通过xss获取他人cookie并利用

目录 安装 通过xss获取cookie cookie利用 安装 下载btslab靶场链接&#xff1a;https://pan.baidu.com/s/1I9ZgzlZEWdobINGQUhy7Jw?pwd8888 提取码&#xff1a;8888 用phpEnv或者phpStudy部署好靶场环境&#xff08;这里就省略了&#xff09; 通过xss获取cookie 先访问…

Apache和nginx!!!!

⼀、Apache 概念 1、概述 最早的 web 服务程序&#xff0c;基于 http 协议提供⽹⻚浏览服务。 2、特点 模块化设置、开放源代码、跨平台应⽤、⽀持多种 web 编程语 ⾔、运⾏稳定。 3、⼯作模式 &#xff08;1&#xff09;Prefork&#xff1a;使⽤进程处理请求&#xff0…

操作系统|day2.进程、线程、协程

文章目录 进程概念特点并行和并发进程之间的通信进程的状态进程的调度基本准则调度方式具体算法 特殊进程 线程概念线程状态转换线程状态线程调度线程同步多线程通信 线程池种类工作流程五种状态拒绝策略参数队列大小 协程概念优势 进程 概念 进程就是正在运行的程序,它会占用…

进阶SpringBoot之 yaml 语法

SpringBoot 使用一个全局的配置文件&#xff0c;名字固定 application.properties 语法结构&#xff1a;keyvalue application.yml 语法结构&#xff1a;key&#xff1a;&#xff08;空格&#xff09;value 配置文件的作用是可以修改 SpringBoot 自动配置的默认值 在 res…

【NOI-题解】1022. 百钱百鸡问题1024. 购买文具1249. 搬砖问题1250. 马克思手稿的问题1342. 怎样种树?

文章目录 一、前言二、问题问题&#xff1a;1022. 百钱百鸡问题问题&#xff1a;1024. 购买文具问题&#xff1a;1249. 搬砖问题问题&#xff1a;1250. 马克思手稿的问题问题&#xff1a;1342. 怎样种树&#xff1f; 三、感谢 一、前言 欢迎关注本专栏《C从零基础到信奥赛入门…

无心剑小诗《郑钦文,为您骄傲》

郑钦文&#xff0c;为您骄傲 在赛场上如猎豹出击 每一拍都交织着力量与智慧 郑钦文&#xff0c;您是无畏的勇士 曾经的挫折是砥砺的砂石 今日的辉煌&#xff0c;是拼搏的勋章 今晚&#xff0c;红土上您书写传奇 战胜强敌&#xff0c;您气势如虹 汗水与激情洒满整个赛场 梦想…

49 序列解包的多种形式和用法

序列解包&#xff08;Sequence Unpacking&#xff09;是 Python 中非常重要和常用的一个功能&#xff0c;可以使用非常简洁的形式完成复杂的功能&#xff0c;提高了代码的可读性&#xff0c;减少了程序员的代码输入量。 x, y, z 1, 2, 3 # 多个变量同时赋值 v_tuple (False…

openpnp - loc_*.png是没用的临时文件

文章目录 openpnp - loc_*.png是没用的临时文件概述笔记END openpnp - loc_*.png是没用的临时文件 概述 前一段时间将X轴的固定螺母动了&#xff0c;让X轴运动更顺滑些。 不得已&#xff0c;对openpnp设备重新进行了标定。 到底部相机高级矫正完成后&#xff0c;正常退出&…