flex是gnu linux下的语法分析器程序(lex则是Unix下的语法分析器),它将输入文件(yyin)的内容去匹配对应的匹配规则表达式,并返回一个token。注意,flex的copyright并不是gnu的。
bison是gnu linux下的yacc(Yet Another Compiler Compiler),用于处理输入的token(bison中有两种symbol, 一种叫terminal symbol, 另一种叫nonterminal symbol, flex返回的token属于terminal symbol ). bison的copyright是gnu的。
flex/bison 按照各自的语法文件(*.l和*.y)来生成C代码。
我们以项目中可能用到的配置文件的解析为例,来简单说说如何使用这两个工具去生成配置文件的解析代码。
假如,我要解析如下配置文件:
这个配置文件定义了一个channel table,table里面有3条entry, 每条entry有3个属性,属性的值的类型有int, char[].
我们先来写对应的flex语法分析器的语法文件config_data_parser.l.
definitions section:
- include了使用到的头文件。
- 声明了使用到的变量。yylval是用于传递匹配的数据给bison, 默认是int,我们的例子中重新定义了它,为一个结构体。
- 定义了各种匹配规则表达式pattern,比如:COMMENTS, TBLNODE, ENTRYSTART, PROPNAME, PROPVALUESTRING, PROPVALUEINT, ENTRYEND, TBLEND等;标号①处包含了一个文件data_parser.tab.h,这个文件由bison根据语法文件生成,它定义了rules section中使用到的%token.
Rules section:
这个段定义了rule,即匹配到数据后,执行响应的动作。如,将数据yytext转成yylval中的数据(标号③),并return %token.
User code section:
定义一些函数,这部分的代码也会被逐字拷贝到 lex.yy.c中。
flex的语法文件config_data_parser.l写完后,使用flex命令去生成lex.yy.c文件。
flex语法文件生成了lex.yy.c,yylex()就从yyin(指向配置文件config.xml)读取内容,并去做规则匹配。匹配到后,执行对应的action,return相应的%token.
flex的文档:
git clone https://github.com/westes/flex.git
cd flex
./autogen.sh
./configure
make pdf
接下来,我们来写bison的语法文件。
bison的语法文件结构和flex语法文件类似,分为4个sections(源文档用的是sections, 实际上,Prologue和Bison declarations可以叫一个section, 和lex语法文件一样,就叫definitions section),如下:
Bison语法文档分四部分:
Prologue:
这部分用%{...%}包含,这部分代码会被逐字拷贝至*.tab.c的最前面,包含yylval的 type(YYSTYPE)的重定义, 变量和函数声明,头文件包含等。
Bison declarations:
主要是声明%token(建议字母用大写), 这些%token会在*.tab.h中定义(枚举值)
Grammar rules:
定义rules,格式如下:
result为nonterminal symbol, 相当于makefile中的target. components为一个一个的 component组成,每个component可以是nonterminal symbol或terminal symbol. 每个 component后面带一个action.
%token属于terminal symbol. rule可以递归,后面的示例会介绍。
有关bison的语法文件介绍,请参考官方:
Bison 3.8.1
我们来写配置文件的bison语法文件data_parser.y
在data_parser.y中,我们重定义了YYSTYPE为结构体类型,在rule中要引用它,则使用$<dataint>1, $<name>2.
我们的配置文件中channel_entry有3个, 如下:
每个channel_entry的属性部分有4条属性数据(语法文件解说图片里说是3个参数是不对的,纠正下,赖得改了),如下:
所以,allentry和property用到了递归,左递归。
bison的语法文件data_parser.y写好了,我们使用bison命令来生成data_parser.tab.c和data_parser.tab.h
当data_parser.tab.c中的yyparser()被调用时,它会循环调用flex的yylex(), yylex()则从yyin指定的配置文件中读取内容,去匹配flex的lex.yy.c定义的规则表达式。匹配后,返回对应的%token。yyparser()拿到%token后,会执行bison语法文件定义的rule的action, 从而完成整个配置文件的解析(我们的示例程序只打印解析出来的数据,实际应用时,可以将数据写到我们自己定义的结构体变量中去)。
从上面描述来看,我们还缺yyparser()的调用和yyin赋值,以及main()函数了。
没错了,这些我们都写在main.c中。
最后,我们gcc来编译,并运行。
好了,flex/bison结合使用来解析配置文件就这些内容了。