简易计算器（c++ 实现)

前言

本文将用 c++ 实现一个终端计算器：

能进行加减乘除、取余乘方运算
读取命令行输入，输出计算结果
当输入表达式存在语法错误时，报告错误，但程序应能继续运行
当输出 ‘q’ 时，退出计算器

【简单演示】
在这里插入图片描述
【源码位置】 Calculator 的 src_old 目录下

如果读者学过编译原理，那么实现简易计算器对你来说将轻而易举；倘若你没学过也没关系，本文将从初学者的角度带领你做出满足上述要求的计算器。

一、词法分析

假设有如下的表达式：

> 10 + 1

那么计算器将输出：= 11。
对于计算器而言，“10 + 1” 仅仅是一串字符，它是怎么”看懂“的，又是怎么计算的呢？

举一个大家都懂的例子：翻译英语。
给定一英语 “hello world.”，你为什么能翻译出它的意思？因为你学过 “hello”、“world” 两个单词，知道他们的意思，所以你会翻译这句话。也就是说，学过单词的你，这句话在你的眼中相当于两个连续的单词：“hello”、“world”；但如果你没学过英语，可能你看到的就是一个一个的字母而已 ‘h’、‘e’、‘l’ … 这就是词法分析，简单说就是识别出字符串中基本单元——单词 (token)。

再来分析上述例子：“10 + 1”
从人的角度来看，接收这串字符，你将识别出这些 token： “10”、“+”、“1”；接着，你明白 “10” 是一个数字，“+” 是一个加法运算符，“1” 是一个数字，此时你明白这是一个加法式子，你便能计算出结果为 “11”。因此，计算器第一步应该像学英语一样先学习单词，让它能像人一样识别字符串中的 token，这就是第一步词法分析。

1. TokenKind

学习英语单词时，不仅要背翻译，还要记忆词性（动词、形容词等），这样的目的是为了之后的语法分析，比如：主语后往往接一个动词。
对于计算器也是类似的，识别出一个 token 后，计算器将关心这个 token 的

kind（相当于词性）：它是一个数字，还是一个运算符？
value（相当于翻译）：token("10”).value = 10, token(‘+’).value = +

根据上述描述，你可能想到的方案如下：

class Token
{
public:
	std::string value;	// 字符串存储值
	TokenKind	kind;	// 枚举类 TokenKind 标识类型字段
};

这个方案可行，但比较复杂：

对于数字来说：只需要先判断 kind，即可得到 value
对于运算符来说：也需要先判断 kind，再取 value

看下面的方案：

class Token
{
public:
	std::string value;
	char		kind;
};

该方案用 char 替代了 TokenKind，为什么呢？对于运算符 ‘+’、‘-’、‘*’、‘/’、‘%’、‘^’，你会发现他们都是单字符，同时各不相同，而且都是非字母数字字符，那么这么做就有一个好处：对于运算符来说，kind 就是 value，这能简化后面的编码（语法分析部分可体会到）。

因此，对于 Token 的设计采用第二种方案。

2. Token

上一部分说到，Token 有两个字段：value、kind。对于运算符来说，仅 kind 字段有效；对于数字来说，两字段均有效。也就是说 value 仅当 kind 表示数字时有效，因此，我采用自己设计的 Number 类(代码位于 Number 文件夹下) 来存储 value：

class Token
{
public:
    static const char kd_null   = '`';      // null
    static const char kd_number = 'n';      // number
    static const char kd_quit   = 'q';      // 结束程序

public:
    Token() :val{ }, kind{ kd_null } { }
    ~Token() = default;

public:
    bool is_null() const { return kind == kd_null; }

public:		/* 方便后续编码 */
    Number val;
    char   kind;
};

3. TokenStream

c++ 的 cin 关联到控制台输入，将输入字符视为字符流，可以使用 cin.get() 获取流中的第一个字符。这是不是跟词法分析的任务很像：从表达式中识别出 token，并一个个地返回。

class TokenStream
{
public:
    TokenStream(std::istream& is);
    ~TokenStream() = default;

public:
    bool eof() const;
    Token get();	// 返回流中的第一个 token
    Token peek();  	// 查看流中的第一个 token
    
private:
    std::istream& _is;			// 与输入流相关联，从其中读取 token
    bool          _eof;			// 是否到流的结尾 
    bool          _full;		// _buffer 是否满了
    Token         _buffer;		// 缓冲区
};

在语法分析中，常常需要提前读取下一个 token：

简单举个例子：运算符后应该跟一个数字或者左括号（“1 + 1”、“1 + (2 - 1)”）。那么如果当前处理的 token.kind == ‘+’，那么下一个 token 要么是数字，要么是左括号，两种情况处理结果不一样。为此，应该需要提前读取下一个 token，即 peek( ) 函数：与 get( ) 不同的是，peek( ) 仅仅是查看流中的下一个 token（假设是 X），调用后此时流中的第一个 token 仍然是 X；但是调用 get( ) 将返回流中的第一个 token，即 X 被读取了，此后流中的第一个 token 不再是 X。

为了实现 peek( ) 函数，TokenStream 引入缓冲区：_full 标记缓冲区是否已经满了，_buffer 保存当前流中的第一个 token：
在这里插入图片描述

Token TokenStream::peek() 
{
	if (!_full) {
		_buffer = get();
		_full = true;
	}
	return _buffer;
}

此类的难点在 get( ) 的实现：如何从流中识别出下一个 token。
在之前的分析，流中的 token 有如下几种：

number、‘q’、‘+’、‘-’、‘*’、‘/’、‘%’、'^‘、null (用来表示流已经没有 token 了，即到了流的末尾)

对于除了 number 的其他都是单字符，非常容易识别出；难点在于如何识别 number。下面来介绍如何识别 number：

number 包括整数、浮点数

引入 “文法” 的概念，你可以简单理解为语法，它描述一种语言生成的方式。
先以最简单的整数（int）为例：+1、1、-1都是整数，即除去第一位的符号位，其余都是数字（digit），因此 int 对应文法如下：

int ⇒ ‘+’ digit digits | ‘-’ digit digits | digit digits
digits ⇒ digit digits | ‘’
digit ⇒ ‘0’ | ‘1’ | ‘2’ | ‘3’ | ‘4’ | ‘5’ | ‘6’ | ‘7’ | ‘8’ | ‘9’

【解释】

整数可以是

‘+’ 后必须先接单个数字 (digit) 再接数字串 (digits)
’-‘ 后必须先接单个数字再接数字串
单个数字后接数字串

数字串可以是

单个数字后接数字串
空串 ( ‘’ )

单个数字为 ‘0’ ~ ‘9’

对此即可写对应程序识别出 int。
【示例程序】

std::string get_digits(std::istream& is)	/* digits ⇒ digit digits | '' */
{
	std::string digits;
	while (isdigit(is.peek())) 
		digits.push_back(is.get());
	return digits;
}

std::string get_int(std::istream& is)
{
	std::string num;
	char c = is.get();
	switch (c) {
	case '+': case '-':		/*  '+' digit digits | '-' digit digits */
	{
		num.push_back(c);
		if (isdigit(is.peek())) {
			num.push_back(is.get());
			num += get_digits(is);
		}
		else throw std::string{"bad number"};
		break;
	}
	case '0': case '1': case '2': case '3': case '4':
	case '5': case '6': case '7': case '8': case '9':  /* digit digits  */
	{
		num.push_back(c);
		num += get_digits(is);
		break;
	}
	default: throw std::string{"bad number"};
	}
	return num;
}

类似的，可以对应写出 number 识别程序：

【注意】“.123” 也视为 number

文法

number ⇒ int | int float | float
float ⇒ ‘.’ int

程序

std::string get_float(std::istream& is)
{
	if (is.peek() != '.') throw std::string{"bad float"};
	std::string res;
	res.push_back(is.get());
	res += get_int(is);
	return res;
}

std::string get_number(std::istream& is)
{
	char c = is.peek();
	std::string num;
	switch (c) {
	case '.': 
	{
		num = get_float(is);
		break;
	}
	case '0': case '1': case '2': case '3': case '4':
	case '5': case '6': case '7': case '8': case '9':
	{
		num = get_int(is);
		if (is.peek() == '.') num += get_float(is);
		break; 
	}
	default: throw std::string{"bad number"};
	}
	return num;
}

上述为示例程序，在计算器程序中，我将使用自己设计的 Number 类，此类重载了输入运算符，即你可如下使用 Number：

Number num;
cin >> num;	// 如果读取 num 失败，将设置流状态 (cin.fail() == true)

因此 get( ) 函数如下：

Token TokenStream::get() 
{
	if (_full) {	// 先读取缓冲区中的 token
		_full = false;
		return _buffer;
	}
	Token token;
	if (_eof) return token;
	while (true) {
		char c = _is.peek();
		if (_is.eof()) {
			_eof = true;
			return Token{};
		}
		switch (c) {
			case ' ': 	/* 跳过空格 */
			{
				_is.get();
				continue;
			}
			case '0': case '1': case '2': case '3': case '4': case '5': 
			case '6': case '7': case '8': case '9': case '.':
			{
				Number num;
				_is >> num;
				if (_is.fail()) throw CalExcep{"illegal number"};
				token.kind = Token::kd_number;
				token.val  = num;
				return token;
			}
			case globe::ADD: case globe::SUB: case globe::MUL: case globe::DIV: case globe::MOD: 
			case globe::POW: case globe::LBRA: case globe::RBRA: case globe::QUIT:
			{
				token.kind = _is.get();
				return token;
			}
			default: 
				throw CalExcep{ "illegal terminal character: '" + std::string{c} + "'" };
		}
	}
	return token;
}

阅读上面代码，你可能注意到一个问题：以 ‘+’、‘-’ 开头的为什么不当作数字去读取？看下面这个输入

1+1

‘+’ 之后紧接着是 ‘1’，倘若将它识别为 ‘+1’，这个输入将被识别为 ‘1’、‘+1’ 两个数字，那么语法分析处将报错：这不是一个合法表达式；但显然我们知道它是合法的。说到这里你可能会选择将 ‘+’、‘-’ 开头的不再当作数字，而是当作运算符，这种做法是正确的。倘若有如下输入

-1+1

你会发现上述输入将被识别为 “-”、“1”、“+”、“1”，这样的 token 流在语法分析处可通过计算器文法设计解决。

二、语法分析

从网上搜索计算器文法如下：

expr ⇒ term | expr ‘+’ term | expr ‘-’ term
term ⇒ factor | term ‘*’ factor | term ‘/’ factor | term ‘%’ factor
factor ⇒ primary | primary ‘^’ factor
primary ⇒ ‘(’ expr ‘)’ | number | ‘-’ number | ‘+’ number

[上面的每个式子称为 “产生式”]

此文法能正确描述出表达式，倘如你要问这文法是怎么来的，额，反正我不知道-_-。举个例子来看此文法是怎么描述表达式的：
先举一个简单的例子：

expr ⇒ term ⇒ factor ⇒ primay ⇒ number

因此单独一个数字也是表达式：“100” 是一个合法表达式。

expr
⇒ expr ‘+’ term ⇒ term ‘+’ term ⇒ primay ‘+’ term ‘*’ factor
⇒ ‘-’ number ‘+’ factor ‘*’ number ⇒ ‘-’ number + number ‘*’ number

也就是说 “-1 + 1 * 1” 是一个合法表达式。
上边的两个例子展示了如何通过文法产生合法表达式，下面来看它的逆过程：已知一表达式，检查是否满足文法要求，这就是语法分析。

先看简单例子：

1 + 1

假如它是合法表达式，那么一定存在如下推导：

expr ⇒ … ⇒ number ‘+’ number

现在就要寻找是否存在这样的推导。观察文法，有 ‘+’ 的是 “expr ⇒ expr ‘+’ term”，因此第一步推导如下：

expr ⇒ expr ‘+’ term ⇒ … ⇒ number ‘+’ number

那么接下来就是找出是否存在 “expr ⇒ … ⇒ number”，显然有，因为

expr ⇒ term ⇒ factor ⇒ primay ⇒ number

同时也找到了 “term ⇒ … ⇒ number”，所以，“1 + 1” 满足文法，它是合法表达式。这个过程可用树形结构来表示：
在这里插入图片描述
看一个较为复杂的例子：

在这里插入图片描述
上面是人的角度来选取文法产生式的，但我们的目标是用程序实现。先看第一个文法产生式：

expr ⇒ term | expr ‘+’ term | expr ‘-’ term

那么对应伪代码应该为

expr()
{
	case 1: term();
	case 2: expr(); get('+'); term();
	case 3: expr(); get('-'); term();
	other : throw "bad expression";
}

将此伪代码转为 c++ 代码，需要解决一个问题：怎么判断什么情况下选用 case 1、case 2、case 3。你可能想到只需要判断在 term( )、expr( )、expr( ) 之后的下一个 token 是什么即可。那来看下面的输入：

2 * 3 + 1

从 expr 出发，第一次调用 case 1: term( )，即用 term( ) 去分析 “2 * 3 + 1”，那么一定会分析出这是一个非法表达式（因为 term 一定不能产生出 ‘+’），那么就无法判断下一个 token 了，显然这样做是不对的；应该回溯到 expr( )，再次判断 case 2、case 3，当都不满足时，才抛出异常 “bad expression”。
这样做的确可以，但由于用到回溯算法，效率自然不会高。有没有什么方法提高效率呢？改写文法，构造预测分析表。

此处涉及到编译原理 LL文法知识，读者如果有兴趣可自行了解，不了解也无所谓，在下面只需要会根据 LL(1) 预测分析表编写代码即可。

在这里对文法先进行消除左递归，合并左公因子 得到满足 LL 文法要求的新文法：

expr ⇒ term E
E ⇒ ‘+’ term E | - term E | ‘’
term ⇒ factor T
T ⇒ ‘*’ factor T | ‘/’ factor T | ‘’
factor ⇒ primary F
F ⇒ ^ factor | ‘’
primary ⇒ ‘(’ expr ‘)’ | number | ‘+’ number | ‘-’ number

利用 FIRST集、FOLLOW集构造出 LL(1) 预测分析表 (想了解的可点击此处)：

	(	+	-	*	/	%	^	)	number	eof
expr	term E	term E	term E						term E
E		‘+’ term E	‘-’ term E					‘’		‘’
term	factor T	factor T	factor T						factor T
T		‘’	‘’	‘*’ factor T	‘/’ factor T	‘%’ factor T		‘’		‘’
factor	primary F	primary F	primary F						primary F
F		‘’	‘’	‘’	‘’	‘’	‘^’ factor	‘’		‘’
primary	‘(’ expr ‘)’	‘+’ number	‘-’ number						number

【说明】

第一行表示终结符，表达式的基本单元，即 token
第一列为产生式左部
eof 表示当前为流的末尾（无 token 可读取）
‘’ 表示空串
为空 (不是空串) 的地方表示出现语法错误

第二行第一列：表示在 expr( ) 分析时，如果下一个 token 为 ‘(’，则应使用产生式 “expr ⇒ term E”；由于产生式右部第一个单元为 term，不是终结符，进入 term 分析
第三行第三列：表示在 E( ) 分析时，如果下一个 token 为 ‘+’，则应使用产生式 “E ⇒ ‘+’ term E”；由于产生式右部第一个单元为 ‘+’，是终结符并且等于当前 token，则读取此 token，此时产生式转为 “E ⇒ term E”，进入 term 分析。

【举例如何使用预测分析表】

表达式为：“1 + 1”：
- 此时正在分析 expr，下一个 token = number(‘1’)，使用 “expr ⇒ term E”，进入 term 分析
- 此时正在分析 term，下一个 token = number(‘1’)，使用 “term ⇒ factor T”，则新的产生式为 “expr ⇒ factor T E”，进入 factor 分析
- 此时正在分析 factor，下一个 token = number(‘1’)，使用 “factor ⇒ primary F”，则新的产生式为 “expr ⇒ primary F T E”，进入 primary 分析
- 此时正在分析 primary，下一个 token = number(‘1’)，使用 “primary ⇒ number”，新的产生式为 “expr ⇒ number F T E”，由于 number 为终结符，恰好与 token 相同，故读取此 token，新的产生式为 “expr ⇒ F T E”，进入 F 分析
- 此时正在分析 F，下一个 token = ‘+’，使用 " F ⇒ ‘’ "（F 转为空串），新的产生式为 “expr ⇒ T E”，进入 T 分析
- 此时正在分析 T，下一个 token = ‘+’，使用 " T ⇒ ‘’ "，新的产生式为 “expr ⇒ E”，进入 E 分析
- … …（以此类推）
- 最终的产生式为 " expr ⇒ ‘’ "（expr 转为空串），因此语法分析结束，并且语法正确。（如果最终产生式不为空串，语法分析错误）
表达式为：" / 1"：
- 此时正在分析 expr，下一个 token = ‘/’，但是对应的预测分析表第二行第六列为空，因此语法错误
表达式为：“+”
- 此时正在分析 expr，下一个 token = ‘+’，使用 “expr ⇒ term E”，进入 term 分析
- 此时正在分析 term，下一个 token = ‘+’，使用 “term ⇒ factor T”，新的产生式为 “expr ⇒ factor T E”，进入 factor 分析
- 此时正在分析 factor，下一个 token = ‘+’，使用 “factor ⇒ primary F”，新的产生式为 “expr ⇒ primary F T E”，进入 primary 分析
- 此时正在分析 primary，下一个 token = ‘+’，使用 “primary ⇒ ‘+’ number”，新的产生式为 “expr ⇒ ‘+’ number F T E”，产生式右部第一个单元 ‘+’ 与当前 token 相同，故读取当前 token，新的产生式为 “expr ⇒ number F T E”，下一个 token = eof，但是产生式第一个单元为终结符 number，与 eof 不相等，因此语法分析错误。

根据上述描述，设计出 Calculator 类：

class Calculator
{
public:
    Calculator() = default;
    ~Calculator() = default;

public:
	/* 计算 expression 结果并返回 */
    Number calculate(const std::string& expression);

private:
    void expr	(TokenStream& ts);
    void E		(TokenStream& ts);
    void term	(TokenStream& ts);    
    void T		(TokenStream& ts);
    void factor	(TokenStream& ts);
    void F		(TokenStream& ts);
    void primary(TokenStream& ts);

private:
    Number _val; /* 接受结果 */
};

_val 用于接收计算结果，在语义分析部分会使用到。

以 T 分析为例：（其他都类似）

void Calculator::T(TokenStream& ts) 
{
    auto peek = ts.peek();
    switch (peek.kind) {
        case globe::MUL:	// T ⇒ '*' factor T
        {
            ts.get();
            factor(ts);
            T(ts);
            break;
        }
        case globe::DIV:	// T ⇒ '/' factor T
        {
            ts.get();
            factor(ts);
            T(ts);
            break;
        }
        case globe::MOD:	// T ⇒ '%' factor T
        {
            ts.get();
            factor(ts);
            T(ts);
            break;
        }
        case globe::RBRA: case globe::ADD: 		// T ⇒ ''
        case globe::SUB: case Token::tk_null: break;
        default: throw CalExcep{"lack of operator"};	// throw
    }
}

三、语义分析

前面我们分析了词法、语法，都是在分析表达式的合法性，并没有去计算表达式的结果，在此部分变便来完成这个任务。
还是以英语翻译为例：

一个简单英语文法：

英语句子’⇒ 主语动词
主语 ⇒ “I” | “You”
动词 ⇒ “see” | “say”

那么对于输入：“I see”，对应语法树为：
在这里插入图片描述
在语法树中，每个节点是文法的一部分，在这里给节点引入属性值这一字段，在原文法中引入语义动作：需要执行的程序片段，用 { } 包围

引入语义动作的英语文法：

英语句子’⇒ 主语动词 {英语句子.val = 主语.val + 动词.val}
主语 ⇒ “I” { 主语.val = "I" 的翻译 }
主语 ⇒ “You” { 主语.val = "You" 的翻译 }
动词 ⇒ “see” { 动词.val = "see" 的翻译 }
动词 ⇒ “say” { 动词.val = "say" 的翻译 }

为此，含有语义动作的语法树变为：
在这里插入图片描述
所以，当我们引入语义动作后，完成了英语翻译这一任务。类似的，计算器语义分析也是如此：只需要在计算器表达式文法加入合适的语义动作，便能完成计算任务。

如何添加合适的语义动作呢？可以通过语法树来分析：
以 “1 + 1” 为例：
在这里插入图片描述
在上图中：“primary --> 1” 对应 “primary ⇒ number”，primary.val 应等于 number.value，因此有

primary ⇒ number {primary.val = number.value}

在树的根部处对应 “expr ⇒ expr ‘+’ term”，expr.val 应等于 expr.val + term.val，故有

expr ⇒ expr ‘+’ term {expr.val = expr.val + term.val}

其他的也是如此类推，当然上图使用的文法是原文法

expr ⇒ term | expr ‘+’ term | expr ‘-’ term
term ⇒ factor | term ‘*’ factor | term ‘/’ factor | term ‘%’ factor
factor ⇒ primary | primary ‘^’ factor
primary ⇒ ‘(’ expr ‘)’ | number | ‘-’ number | ‘+’ number

不是 LL 文法：

expr ⇒ term E
E ⇒ ‘+’ term E | - term E | ‘’
term ⇒ factor T
T ⇒ ‘*’ factor T | ‘/’ factor T | ‘’
factor ⇒ primary F
F ⇒ ^ factor | ‘’
primary ⇒ ‘(’ expr ‘)’ | number | ‘+’ number | ‘-’ number

本文实现的计算器使用的是 LL 文法，如何给它加入语义动作呢？方法也是先画语法分析树，在根据自己的理解，自底向上地进行节点属性值的赋值，由此推导出语义动作。
读者可自行推导，下面是我自己采用的另外一种方法：不用节点属性值赋值，而是用一个变量保存结果（即之前说的 _val 成员变量），这样做的好处是减少了许多不必要的赋值。

expr ⇒ term E
E ⇒ {left = _val} ‘+’ term {_val = left + _val} E
E ⇒ {left = _val} ‘-’ term {_val = left - _val} E
E ⇒ ‘’
term ⇒ factor T
T ⇒ {left = _val} ‘*’ factor {_val = left * _val} T
T ⇒ {left = _val} ‘/’ factor {_val = left / _val} T
T ⇒ ‘’
factor ⇒ primary F
F ⇒ {left = _val} ^ factor {_val = left ^ _val}
F ⇒ ‘’
primary ⇒ ‘(’ expr ‘)’
primary ⇒ number {_val = number}
primary ⇒ ‘+’ number {_val = number}
primary ⇒ ‘-’ number { _val = -1 * number}

则在 expr 分析完毕后，_val 就是计算器计算的结果。

【说明】E ⇒ {left = _val} ‘+’ term {_val = left + _val} E
在分析 E 时，先需要执行语义动作 {left = _val}，保存左值（+、-、*、/、%、^ 都是二元运算符，因此在 ‘+’ 之前需要保存左值 left），之后读取 token(‘+’)，然后进行 term 分析，此时 _val 保存的是右值，故执行 {_val = left + _val}，结果等于左值(left) + 右值(_val)，之后再进行 E 分析。

当然可能你看到上述文法会感觉很疑惑，无法理解，最好理解的方式是自己画语法树，然后 debug 代码一步一步地理解，如果你有耐心的话。

【源码位置】 Calculator 的 src_old 目录下