编译原理-语法分析-自上而下分析

文章目录

语法分析器的功能
自上而下分析面临的问题
LL（1）分析法
- 左递归的消除
- - 直接左递归
  - 非直接左递归
- 消除左递归的算法
- 消除回溯、提左因子
- - FIRST
  - 提左因子
  - FOLLOW集
- LL(1)的分析条件
- - LL(1)文法
  - 构造FIRST和FOLLOW集合
  - - 构造每个文法符号的FIRST集合
    - 构造FOLLOW集合
递归下降分析程序
- 递归下降分析程序
- 文法的另一种表示方法和转换图
预测分析程序
- 预测分析程序的工作过程
- 预测分析表的构造

语法分析器的功能

语法分析器是编译过程的核心部分。任务是在词法分析识别出的单词符号串的基础上，分析并判定程序的语法结构是否符合语法规则。

自上而下分析面临的问题

左递归： ${p}->{p}{\alpha}|{\beta}$ :会使程序陷入死循环，导致不可实现
回溯：试探法就是穷举所有可能，一旦遇到不匹配就进行回溯，尝试下一种可能，这种方法只在理论上有意义，由于回溯穷举时间开销巨大所以不太具有实践意义。

LL（1）分析法

左递归的消除

直接左递归

直接左递归的形式： ${p}->{p\alpha}|{\beta}$ ${\beta}$ 不以 ${p}$ 开头
这个推导：
$p\alpha => p\alpha\alpha => ... => \beta\alpha....\alpha}$
从这个推到我们可以看出 ${p}$ 推出的串是以 ${\beta}$ 后面跟着若干个 ${\alpha}$ 组成的串
这样我没对这个串做等价变换：
${p->\beta p'}$
${p'->\alpha p'|\epsilon}$
我们可以验证这个文法是不是和上面左递归形式的文法等价，我们对这个文法做推导看看会推导出哪些串
$\beta p' => \beta \alpha p' => ... => \beta \alpha ...\alpha}$
我们得到的串同样是以 ${\beta}$ 开头后面接跟着若干个 ${\alpha}$ 的串
我们对上面的结论进行推广：
对于P的全部产生式是
$P\alpha_1|P\alpha_2|...|P\alpha_m|\beta_1|\beta_2|...|\beta_n},其中每个{\alpha}都不以{\epsilon}开头,每个\beta都不以P开头$
我们直接进行右递归改造：
$\beta_1P’|\beta_2P’\|...|beta_nP’}$
${P’->\alpha_1P’|\alpha_2P’|...|\alpha_mP'}$

例子：
${E->E+T|T}$
${T->T*F|F}$
${F->(E)|i}$
对于第一个式子有直接左递归我们进行消除，首先第一个式子最终的推导串是以 ${T}$ 开头后面若干个{+T}我们进行等价变换： ${E->TE'}$ ${E'->+TE'|\epsilon}$
对于第二个式子也是直接左递归的我们也需要进行消除，首先第二个式子最终推导出的串的形式下以 ${F}$ 开头后面若干个*F，我们根据这个进行等价变换
${T->FT'}$
${T'*FT'|\epsilon}$
最后一个式子没有直接左递归不用进行处理

非直接左递归

$文法 G (S)$
${S -> Qc|c}$
${Q -> Rb|b}$
${R -> Sa|a}$
形式上这个文法并没有直接左递归，但是实际上这个文法是左递归的，进行如下推导就可以看出
${S => Qc => Rbc => Sabc}$
经过推导我们发现S实际上是左递归的
我们从上面的文法可以看出S是由Q定义的，Q是由R定义的，R是由S定义的，那么我们可以得到下图

${S -> Qc|c}$
${Q -> Rb|b}$
${R -> Sa|a}$
我们将Q中的R替换掉

${S -> Qc|c}$
${Q -> Sab|ab|b}$
${R -> Sa|a}$
再将S中的Q替换掉

${S ->Sabc|abc|bc|c}$
${Q -> Sab|ab|b}$
${R -> Sa|a}$

消除左递归的算法

1.把文法G的所有非终结符按任意一种顺序排列成 ${P_1 P_2, ... ,P_n}$ 按此顺序执行
2.
$FOR\quad i:=1\quad TO\quad n\quad DO$
$BEG I N$
$\quad \quad FOR \quad j:=1 \quad TO \quad i-1\quad DO$
$ \quad \quad 把形如P_i->P_j \gamma 的规则改写成，P_i-> \delta_1 \gamma|\delta_2 \gamma|…|\delta_k \gamma (其中P_j -> \delta_1|\delta_2|…|\delta_k是关于P_j的所有规则) $

消除回溯、提左因子

FIRST

为了消除回溯，我们首先需要引入两个概念一个是FIRST集一个是FOLLW集
FIRST:
零G是一个不含左递归的文法，对G的所有非终结符的每一个候选 $\alpha$ 定义它的终结首符集 $FIRST(\alpha)$

那么当要求A匹配输入串时，A就能根据它所面临的第一个输入符号a，准确地指派某一个候选前去。这个候选就是那个首符集含 $a$ 的 $\alpha$

提左因子

很多文法都存在不满足所有候选式的终结首符集不两两相交的。我们采用提取公共左因子的办法
假设关于A的规则是:
${A\rightarrow \delta \beta_1 | \delta \beta_2 | ... |\delta \beta_n| \gamma_1 | \gamma_2| ... | \gamma_m} \quad ,(其中,每个 \gamma 不以 \delta 开头)$
那么可以把这些规则改写成
$\rightarrow \delta A' | \gamma_1 | \gamma_2| ... | \gamma_m}$
$\rightarrow \beta_1 | \beta_2 | ... | \beta_n}$

经过上面反复提取左因子，我们一定可以将一个非终结符的所有候选式的FIRST集两两不相交

FOLLOW集

消除左递归后的文法
$\rightarrow TE'}$
$\rightarrow +TE'|\epsilon}$
$\rightarrow FT'}$
$\rightarrow * FT'|\epsilon}$
$\rightarrow (E)|i}$
我们对$ i + i $进行至上而下的语法分析

当我们进行到这个地方的时候我们发现 $\rightarrow * FT'|\epsilon}，但是 * 不能和 + 匹配，另一个候选式是{\epsilon} ,这时我们不能选择 * FT' 去扩展，只能选择 {\epsilon}$
可以看到当候选式有 ${\epsilon}$ 时，会对我们的分析产生困难，如何消除这个困难呢？什么时候才能用 ${\epsilon}$ 去扩展呢？
这里我们就引入了 $FO LL O W 集$

LL(1)的分析条件

LL(1)文法

文法不含左递归
对文法中每一个非终结符A的各个产生式的候选终结首符集两两不相交，
$\rightarrow \alpha_1 | \alpha_2 | ... | \alpha_n$
$\alpha_i ) \cap FIRST( \alpha_j ) = \varnothing$
对文法中的每个非终结符A，若它存在某个候选首符集包含 $ { \epsilon }$
$\cap FOLLWO(A)}$

对于一个LL(1)文法，我们可以对输入串进行有效的无回溯的至上而下分析，假设我们要用非终结符 $\alpha, A$ 的所有产生式为：
$\rightarrow \alpha_1 | \alpha_2 | ... | \alpha_n$

若 $\in FIRST(\alpha_i)则指派 \alpha_i$ 匹配
若$ a $不属于任何一个候选首符集，则：
1. 若 $\epsilon \in FIRST(\alpha_i)并且a \in FOLLOW(A)则让A与 \epsilon自动匹配$
2. 否则a的出现是一种语法错误

构造FIRST和FOLLOW集合

构造每个文法符号的FIRST集合

对每一文法符号 $ X \in V_T \cup V_N构造FIRST(X) $
连续使用下面几条规则，直到每个FIRST集合不再增大为止

若 $ X \in V_T 则FIRST(X) = {X} $
若$ X \in V_N 且有产生式 X \rightarrow a …,则把a加入到FIRST(X)中；若 X \rightarrow \epsilon 也是一条产生式，则把\epsilon也加入FIRST(X) $
若 $ X \rightarrow Y 且Y \in V_N,则把FIRST(Y)中的所有非 \epsilon 元素加入到FIRST(X)中 $

构造FOLLOW集合

再回顾一遍FOLLOW集合的定义:
$\{ a| S \Rightarrow ...Aa...,a \in V_T\}$
对于文法G的每个非终结符A构造FOLLOW(A),连续使用下面的规则，直至每个FOLLOW不再增大为止

对于文法的开始符号 $\# 于FOLLOW(S)中$
若 $\rightarrow \alpha B \beta 是一个产生式，则把FIRST(B)\ \{ \beta \}加至 FOLLOW(B)中$
若 $\rightarrow \alpha B 是一个产生式，或 A \rightarrow \alpha B \beta是一个产生式，但 \beta \Rightarrow \epsilon$ 则把 $FO LL O W (A) 加入到 FO LL O W (B)$

递归下降分析程序

$文法 G (E) ：$
$\rightarrow TE'}$
$\rightarrow +TE'|\epsilon}$
$\rightarrow FT'}$
$\rightarrow * FT'|\epsilon}$
$\rightarrow (E)|i}$

文法的另一种表示方法和转换图

文法
$\rightarrow T | E + T$
$\rightarrow F | T * F$
$\rightarrow i | (E)$
用巴克斯范式可以表示为：
$\rightarrow T \{ +T \}$
$\rightarrow F \{ * F \}$
$\rightarrow i | (E)$