编译原理笔记12:自上而下语法分析(2)非递归预测分析器、FIRST FOLLOW 集合计算

news2025/1/9 1:27:31

目录

    • 使用预测分析器的自上而下分析
        • 格局
    • 使用预测分析器进行分析的实例
    • FIRST、FOLLOW 集合的构造
        • FIRST 集合
        • FOLLOW 集合

使用预测分析器的自上而下分析

使用预测分析器进行的自上而下分析是非递归的。预测分析器模型其实是一种 PDA(下推自动机,Pushdown Definite Automata),其结构如下图所示

在这里插入图片描述

上图中的“有限状态转移控制”类似于词法分析中的自动机。下推自动机在单纯的自动机旁增加了一个下推栈。将该模型进一步具体化,即得到预测分析器模型,如下图所示。

在这里插入图片描述

这里的“驱动器”,是一个能够控制读写头读取输入记号流中记号的算法,该算法要综合读到的记号、下推栈情况和预测分析表的内容,来修改符号栈和控制输出。

PDA 可以识别形如 :ωcωr 的串,这样的串是 DFA 无法识别的,这类串也无法使用正规式进行描述。(ps. ωr 的意思是终结符序列 ω 的反转形式,比如 ababcbaba)。而对于形如 CSG 那种的 ωcω 串,则 PDA 也无法进行识别。

预测分析器通过【格局与格局的变换】进行分析。

格局

格局是一个三元组 (栈顶元素^top,剩余输入^ip,改变格局的动作),改变格局的动作通过查表确定,具体动作包括:展开非终结符、匹配终结符、报告分析成功(top=ip=#)、报告出错(遇到上述情况之外的其他情况,要调用错误恢复例程)

我们可以将预测分析器看作一个逐步运行(Step)的机器,每一个 step 都会让预测分析器到达一个新的 格局 ,直到到达接收格局为止(或者到达出错格局,即发现语法错误。比如推出来的终结符和读写头读到的终结符不一样,或者栈顶和读写头当前指向的终结符所对应的预测分析表元素为空)

使用预测分析器进行分析的实例

预测分析器需要借助预测分析表来构造语法分析树。

在进行语法分析时,预测分析器根据符号栈(下推栈)栈顶元素和驱动器读写头指向的记号流中的记号来查询预测分析表,根据预测分析表中对应项的情况来决定下一步的操作。预测分析表形式如下:

在这里插入图片描述

预测分析表的行首是非终结符,列首是终结符。

  • 当栈顶是非终结符时,展开:需要根据预测分析表查到候选项,然后使用该候选项来展开栈顶的非终结符——弹出栈顶非终结符,将表中的对应项逆序压入到下推栈中(注意顺序,产生式右部是反着压进去的,因为总要保持从左到右推导)。
  • 当栈顶时终结符时,匹配:若此时栈顶的终结符与驱动器读写头读到的终结符相同,则将该栈顶元素弹出,同时读写头向后移动一个记号。

对于消除了左递归和公共左因子的如下 CFG,我们可以根据其来构造一个预测分析表(具体构造方式留到后面再说)

L → E;L|ε
E → TE'
E' → +TE'|-TE'|ε
T → FT'
T' → *FT'|/FT'|mod FT'|ε
F → (E)|id|num

在这里插入图片描述

我们根据如下算法,来进行非递归预测分析

在这里插入图片描述

其实,就是重复进行这样的操作:根据读写头指向的终结符、栈顶元素查预测分析表,不断把表中查到的元素压入栈顶。因为是从开始符号开始推导的,所以栈中会出现【根据预测分析表查到新的非终结符入栈】的情况。如果推导时栈顶是非终结符,则读写头不需要移动,一直指向之前停下的位置。但随着推导的进行,非终结符终究会推出终结符(这个终结符也要和前面非终结符一样,被压入栈),如果这个推导出来的、当前正好在下推栈栈顶的终结符和读写头指向的符号相同,那么就是【匹配上了】

下图说明了【栈顶是非终结符时,进行展开】的过程,执行非递归预测算法插图中的第二个红色虚线框内的代码:

在这里插入图片描述

下图同时说明了【栈顶是非终结符时,进行展开】和【栈顶是终结符时,进行匹配】的过程。对于后一个过程,执行非递归预测算法插图中的第一个红色虚线框内的代码:

在这里插入图片描述

FIRST、FOLLOW 集合的构造

预测分析表,其实是一个【为我们指明推导的方向】的工具。那么如何构造这个工具呢?

构造过程分为两步:1. 根据文法给出的产生式构造 FIRST、FOLLOW 集合,2. 根据这两个集合来构造预测分析表。

因此,FIRST、FOLLOW 集合的构造是这里的重中之重。

我们根据下面的块中的产生式来学习这两个集合

L → E;L | ε
E → TE'
E' → +TE' | -TE' | ε
T → FT'
T' → *FT' | /FT' | mod FT' | ε
F → (E) | id | num

FIRST 集合

文法符号序列 α 的 FIRST 集合为:
FIRST(α) = { a | α=*> a…,a ∈ T },若 α=*>ε ,则 ε ∈ FIRST(α)

说白了,FIRST(α) 就是 α 能推出来的所有串(aka. 文法符号序列)中的第一个终结符的集合。如果从某个非终结符开始,一步推不到终结符,那就多推几次。如果直接推出来个 ε,就把 ε 也加入当前 FIRST 集合。

我们以对上面写的产生式求 FIRST 集合为例,来了解怎么求 FIRST 集合。

  1. 求 FIRST 集合的过程要顺着我们的一堆产生式从下向上进行,也就是先求 FIRST(F),最后求 FIRST(L)。对于产生式 F → (E)|id|num,容易看出, F 经过一步推导能推出的所有串的第一个终结符有:(idnum,因此 FIRST(F) = { (, id, num }
  2. 对于产生式 T' → *FT'|/FT'|mod FT'|ε,T’ 经过一步推导能推出的所有串的第一个终结符有:*/mod。而又因为 T’ 能够直接一步推导出 ε,所以 ε 也要加入到 FIRST(T’) 中,即 FIRST(T’) = {*, /, mod, ε}
  3. 对产生式 T → FT',T 没有一步推导就能得到的终结符,所以要继续推导,再推导一步会得到:T=>FT'=>(E)T'T=>FT'=>idT'T=>FT'=>numT',由此我们可以看到,T 经过两步推导能够推导出的第一个终结符有:(idnum,(由于 F 推不出 ε,也就是说 F 无法被穿透,因此关于从 T 经过推导推出的第一个终结符就都和 F 的终结符相同了),因此 FIRST(T) = FIRST(F) = { (, id, num }
  4. 对于产生式 E' → +TE'|-TE'|ε ,与上面的 2 同理,可得 FIRST(E’) = { +, -, ε }
  5. 对于产生式 E → TE',与上面的 3 同理,可得 FIRST(E) = FIRST(T) = FIRST(F) = { (, id, num }
  6. 对于产生式 L → E;L|ε,要结合上面的 3 和 2 一起理解。首先该产生式可以经过多步推导后得到终结符,这个和 3 同理。然后,该产生式本身也能推出 ε,这与 2 同理。最终可得:FIRST(T) = { ε, (, id, num }

即,最终可得:

FIRST(F/T/E) = { (  id  num }
FIRST(T’) = { *  /  mod  ε }
FIRST(E’) = { + -  ε }
FIRST(L)  = { ε  (  id  num }

FOLLOW 集合

非终结符 A 的 FOLLOW 集合如下:
FOLLOW(A) = { a | S=*> …Aa…,a∈T },若 A 是某句型的最右符号,则 #∈FOLLOW(A)

说白了,就是从开始符号可以导出的所有含 A 的文法符号序列中 A 之后的终结符。

举个例子的话大概是:FOLLOW(A) 是终结符的集合,从开始符号开始,经过多步推导得到的句型中有【Aa】,则FOLLOW集合中的元素就是这些 a。想要真正理解 FOLLOW 集合,建议尝试在脑内画一个下推栈进行推导(如果脑补不出来,那耐心点一步步画在纸上也是不错的选择),这样会简单许多。

我们以对上面写的产生式求 FOLLOW 集合为例,来了解怎么求 FOLLOW 集合。

  1. 求 FOLLOW 集合的过程要顺着产生式从上往下进行,也就是先求 FOLLOW(L),最后求 FOLLOW(F)。首先求第一个产生式 L → E;L|ε 左部的非终结符 L 的 FOLLOW 集合 FOLLOW(L)。
    因为我们想要寻找的是在经过推导后跟在 L 后面的终结符,因此我们要首先扫一眼全部的产生式,看看 L 都在哪些产生式中出现过以获取线索。很不幸,只在第一个产生式中出现过……如果选择 E;L 进行推导将导致 L 的递归——也就是说若只用这个产生式进行推导,无论怎么推都永远推不出一个紧随 L (除了#之外)的终结符,最终还是要面对只有 L 的问题。而若选择 ε 展开 L 则会导致 L 的穿透,暴露出文法的结束符号 # ,因此 FOLLOW(L) = {#}
    在这里插入图片描述

  2. 再来看第二个产生式 E → TE' ,这一步我们求该产生式左部的非终结符 E 的 FOLLOW 集合 FOLLOW(E)。
    因为我们想要寻找的是在经过推导后跟在 E 后面的终结符,因此我们先来整体看一下所有的产生式。可以发现非终结符 E 在第一行的产生式 L → E;L|ε 和最后一行的产生式 F → (E)|id|num 中都有出现。产生式 L → E;L|ε 说明,从开始符号 L 开始,经过一步推导得到 E;L ,即 L=*>…E;…因此我们要将 ; 加入到 FOLLOW(E) 中 。此外,我们还可以发现在最后一个产生式 F → (E)|id|num 中,E 后面接上了终结符 ),这说明,从开始符号 L 开始,经过多步推导,可以出现某一刻将 F 用 (E) 展开的情况——即:L=*>…(E)…,因此我们要将 ) 加入到FOLLOW(E) 中。除了这两个产生式之外,再也没有其他右部包含 E 的产生式,也就是说我们找完了 E 后面紧跟终结符的所有情况,故得到:FOLLOW(E) = { ;, ) }

  3. 再看第三个产生式 E' → +TE'|-TE'|ε ,这一步求 FOLLOW(E’)。
    经过观察,我们发现除了这个产生式本身,只有第二行的 E → TE' 中出现了 E’ 。通过观察这两个产生式,我们可以发现:下推栈中的 E’ 只有一个来源,就是被使用 E → TE' 展开 E 而来。那也就是说,之前在下推栈中【位于 E 下面的非终结符】将被 E‘ “继承“
    在这里插入图片描述

    因此, FOLLOW(E’) = FOLLOW(E) = { ;, ) }

  4. 下面来看第四个产生式 T → FT' ,这一步求 FOLLOW(T)。
    我们发现 T 还出现在第二个产生式 E → TE' 中,因此要将 FIRST(E’) 加入到 FOLLOW(T) 中。而又因为 E’ 可穿透,因此也要考虑 E’ 穿透的情况,故要将 FOLLOW(E) 也加入到 FOLLOW(T) 中。另外,因为 FOLLOW 集合中不能包含 ε,故 ε 不能被加入到 FOLLOW(T) 中。最后,FOLLOW(T) = { +, -, ;, ) }

  5. 第五个产生式 T' → *FT'|/FT'|mod FT'|ε ,这一步求 FOLLOW(T’)。
    与上面的 3 同理,FOLLOW(T) 被 FOLLOW(T’) ”继承“,得到 FOLLOW(T’) = FOLLOW(T) = {+, -, ;, ) }

  6. 第六个产生式 F → (E)|id|num ,这一步求 FOLLOW(F)。
    由产生式 T' → *FT'|/FT'|mod FT'|ε 可知,FIRST(T’) 应被加入 FOLLOW(F)。而 T’ 可穿透,故 FOLLOW(T’) 也应被加入 FOLLOW(F)。因此,*FOLLOW(F) = { , /, mod, +, -, ;, ) }

即,最终可得:

FOLLOW(L) = { # }
FOLLOW(E/E’) = { )  ; }
FOLLOW(T/T’) = { + - ; ) }
FOLLOW(F) = { + -  *  /  mod  )  ; }

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/671159.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uni-number-box【数字输入框组件】,change事件 自定义传参

关键代码&#xff1a; change"(value)>{twobindChange(item,value)}" <uni-number-box :min"1" :value"item.num" change"(value)>{twobindChange(item,value)}" /><script>//数量选择twobindChange(item, value) …

易语言读写富士通MB89R118卡 NXP15693标签源码

本示例发卡器介绍&#xff1a;Android Linux RFID读写器NFC发卡器WEB可编程NDEF文本/智能海报/-淘宝网 (taobao.com) DLL命令定义表 .版本 2 .DLL命令 蜂鸣器嘀一声, 字节型, "OUR_MIFARE.dll", "pcdbeep" .参数 xms, 整数型 .DLL命令 读取设备编号…

slam中用到的Pangolin安装问题

sudo apt-get install libglew-dev sudo apt-get install cmake sudo apt-get install libboost-dev libboost-thread-dev libboost-filesystem-dev cd ~/orbslam_ws/src$ git clone https://github.com/zzx2GH/Pangolin.git把Pangolin/src/CMakeLists.txt注释掉以下…

村田将电动汽车静噪对策用树脂成型表面贴装型MLCC商品化

株式会社村田制作所已开发出电动汽车静噪对策用树脂成型表面贴装型多层陶瓷电容器“EVA系列”。该产品虽然体积小、厚度薄(12.7 x 6.0 x 3.7 mm)&#xff0c;但是仍然确保了高电压负载所需的爬电距离(10 mm)&#xff0c;并且支持国际标准“IEC60384-14”中的Y2级。 ​ 这是一款…

【高性能计算】无监督学习之层次聚类实验

【高性能计算】基于K均值的划分聚类实验 实验目的实验内容实验步骤1、层次聚类算法1.1 层次聚类算法的基本思想1.2 层次聚类的聚类过程 2、使用Python语言编写层次聚类的源程序代码并分析其分类原理2.1 层次聚类 Python代码2.1.1 计算欧式距离函数euler_distance2.1.2 层次聚类…

每一次Http请求,Java线程是如何处理的?

每一次Http请求&#xff0c;Java线程是如何处理的&#xff1f; 文章目录 每一次Http请求&#xff0c;Java线程是如何处理的&#xff1f;前言一、Http请求处理二、两种服务器模型及处理方式1、两种服务&#xff1a;2.更好的处理方式 总结 前言 当我们写好一个项目时&#xff0c…

【go】Excelize处理excel表

文章目录 1 Excelize介绍2 相关需求与实现2.1 数据的excel文件导出2.2 带数据校验的excel文件导出 1 Excelize介绍 Excelize 是 Go 语言编写的用于操作 Office Excel 文档基础库。官方文档&#xff1a;https://xuri.me/excelize/zh-hans/ 引入方法 go get "github.com/…

【MYSQL篇】一文了解mysql事务

文章目录 MYSQL事务事务的四大特性1、原子性2、一致性3、隔离性4、持久性 事务的并发1、脏读2、不可重复读3、幻读 隔离级别Read UncommittedRead CommittedRepeatable ReadSerializable MySQL Innodb 对隔离级别的支持实现方案LBCCMVCC 总结 关于 MYSQL 事务在面试的时候&…

软件系统三基座之二:组织架构

软件系统三基座包含&#xff1a;权限管理、组织架构、用户管理。 一、组织的来源 组织是由若干个人或群体所组成的、有共同目标和一定边界的社会实体。组织是为了提升劳动效率而产生的。 从一个日常案例&#xff0c;讲讲组织是如何提升劳动效率的。 唯美食与美景不可辜负&#…

Java 基础进阶篇(十八):正则表达式匹配规则和应用

文章目录 一、正则表达式概述二、正则表达式的匹配规则三、正则表达式在方法中的应用3.1 校验手机号、邮箱和座机电话号码3.2 字符串的内容替换和分割 四、编程题目4.1 表示数值的字符串4.2 非严格递增连续数字序列 一、正则表达式概述 正则表达式是对字符串&#xff08;包括普…

I/O多路转接之select

初识select 系统提供select函数来实现多路复用输入/输出模型&#xff1a; select系统调用是用来让我们的程序监视多个文件描述符的状态变化的;程序会停在select这里等待&#xff0c;直到被监视的文件描述符有一个或多个发生了状态改变; 文章目录 初识select一&#xff1a;Sel…

Goby 漏洞发布|Avaya Aura Device Services r软件 PhoneBackup 任意文件上传漏洞

漏洞名称&#xff1a;Avaya Aura Device Services r软件 PhoneBackup 任意文件上传漏洞 English Name&#xff1a;Avaya Aura Device Services PhoneBackup File Upload Vulnerability CVSS core: 9.0 影响资产数&#xff1a;565 漏洞描述&#xff1a; Avaya Aura Device …

【linux 新机配置】

1&#xff0c;安装 node https://juejin.cn/post/7102790458132135944 2 linux 安装 Yarn https://juejin.cn/post/7102793669425496077 3 安装Nginx 安装 dnf install nginx 启动 systemctl start nginx systemctl status nginx systemctl enable nginx 配置&#xff0…

python机器人编程——差速AGV机器、基于视觉和预测控制的循迹、自动行驶(下篇)

目录 一、前言二、基于轨迹与路面重心偏离度误差的预测自动差速小车循迹控制策略三、轨迹图像的处理要点四、本篇部分核心控制策略python代码&#xff1a;五、结论 一、前言 基于最近的测试&#xff0c;得到了一种粗略控制的算法&#xff0c;其控制效果适合单线路和急转弯的情…

LLM探索:GPT类模型的几个常用参数 Top-k, Top-p, Temperature

Top-k抽样模型从最可能的"k"个选项中随机选择一个如果k10&#xff0c;模型将从最可能的10个单词中选择一个Top-p抽样模型从累计概率大于或等于“p”的最小集合中随机选择一个如果p0.9&#xff0c;选择的单词集将是概率累计到0.9的那部分Temperature控制生成文本随机性…

对比之前的组件优化说明React.memo的作用

我们之前写的react PureComponent讲述了 PureComponent 组件优化特性的强大功能 还有就是 shouldComponentUpdate 生命周期的一个解决方案 那么呢 今天我们要说另一个 也是类似于组件性能优化的新特性 打开我们的react项目 在src下的components创建一个组件 例如 我这里叫 dom…

【C++】-8.2- string〔string类模拟实现〕

文章目录 //模拟实现string类&#xff0c;并完成测试• string类的基本结构• Destructor• Construct〔构造函数〕‹ 无参构造 ›‹ 单参数构造 ›‹ 全缺省参数构造 › 〔拷贝构造〕 • operator 赋值重载• Element access&#xff08;operator[]&#xff09;补充&#xff1…

Android强大的原生调试工具adb的常用命令

文章目录 ADB简介常用命令列出链接的设备进入设备的shell环境设备日志安装应用程序卸载应用程序将本地文件复制到调试设备上将设备上的文件拉取到本地启动程序强制停止程序运行截图屏幕录制列出调试设备所有的应用的报名 结语 ADB简介 ADB&#xff08;Android Debug Bridge&am…

BioXFinder生物数据库

BioXFinder是目前国内第一个也是国内唯一一个生物信息数据库&#xff0c;由享融智云公司精心研发&#xff0c;主要针对生物科研工作者的综合性生物数据检索及分析平台&#xff0c;汇集了核酸、蛋白、蛋白结构、代谢通路和信号通路信息&#xff0c;解决海外数据访问难、访问慢的…

Adobe Creative Cloud 摄影计划 - 当图像与想象力相遇。 PS+LRc套餐 国际版 1年订阅/398

这里重点介绍国际版摄影计划套餐详情&#xff1a; 国际版包括&#xff1a;Photoshop、Lightroom Classic、Photoshop Express、Lightroom Mobile、Lightroom、云服务。中国版包括&#xff1a;Photoshop、Lightroom Classic、Photoshop Express、Lightroom Mobile 桌面应用程序…