在软件缺陷预测领域,粒度指的是缺陷库中每条样本的项目粒度.其中可以分为类粒度、文件粒度或者包粒度等。不同的开发语言有不同的层级的模块粒度,在软件缺陷预测领域,一般来说,在预测效果能够满足要求的情况下,粒度越小,预测的结果的可用性越强,可用公开训练数据越少,预测模型构建难度也越高,粒度越大,预测的结果的可用性越小,可用公开训练数据越多,预测模型构建难度也越低。
绝大多数数软件缺陷预测方法都是基于粗粒度模块进行缺陷预测的。工程实践却需要细粒度模块的预测结果。因此,细粒度软件缺陷预测有意义且十分迫切。主要从两个方面入手:一方面从现有的细粒度预测方法存在的问题入手;另一方面从优秀的粗粒度预测模型向细粒度转化入手;最终将研发出性能优秀的细粒度软件模型。
在主要的细粒度缺陷预测方法中,Giger的研究相对成熟且其进行的实验能够复制。然而我们发现在实际环境中,Giger的研究在实际环境中性能不突出。一个缺陷预测模型的两个重要组成部分是度量元和学习模型,而具体的学习模型对缺陷预测模型影响并不大,所以导致当前细粒度缺陷预测在实际应用环境中性能不佳的最可能的原因是度量元。一般来说,对于测试人员来说,过程度量元很难获取到,所以应将重心放到重新选择产品度量元上。众多的产品度量元中,代码语义是既可行又有效的度量。在此基础上可以构建基于代码语义的细粒度软件缺陷预测模型。模型的构建过程如图1所示。
1 抽取AST
为了能够真实的保留代码的完整语义,并且能够在机器学习中应用,在静态分析阶段,除了获取一般的静态分析指标及数据外,还要为每个函数生成AST。
2 嵌入
为了能够使用LSTM构建预测模型,需要将将每个AST节点输入到一个LSTM单元中。既然LSTM单元仅接受向量形式的输入,就需要将AST节点的节点名,映射到固定长度的具有连续值空间的向量中,我们将这个过程称为嵌入。
嵌入过程带来两点好处:首先,嵌入后向量的维度减少了;另外,在相似上下文中经常出现的AST节点相互靠近了。
具体包括如下几个步骤:
(1)将AST节点转化为特征向量
(2)获取所有子节点向量
根据输入AST节点对应的特征向量,得到该节点的每个子节点对应的特征向量。
(3)获取子节点的隐藏状态向量和上下文向量
获取每个子节点(递归)的隐藏状态向量和上下文向量,用于计算父节点的隐藏状态向量和上下文向量,对各子节点的隐藏状态向量求和作为父节点LSTM树节点的输入。
(4)信息嵌入
每个LSTM细胞中有三个门,分别叫做遗忘门(ftk )、输入门(it)和输出门(ot)。每个门利用一个sigmoid函数计算取值。若sigmoid函数返回0,意味着这个门禁止任何信息通过;若sigmoid函数返回1则说明门允许所有输入信息通过;若sigmoid函数的返回值在0和1之间,则输入的部分信息可以通过此门。
LSTM树中每个子节点对应一个遗忘门。有多少新信息存储到记忆单元中的由两个机制控制:首先,用sigmoid函数计算输入门的值,这个值决定哪个值将会得到更新。接着,使用tanh函数创建一个新候选值向量,这个向量将会添加到记忆单元中。通过用每个节点的旧记忆乘以遗忘门的数值,新的记忆被更新,抛开前面决定忘记的信息。
累加所有子节点上下文向量后在同备选上下文向量相加,最后,输出是由输出门控制的过滤后的记忆版本。
最后,使用tanh函数将记忆单元向量各维数值处于-1到1之间,接着同输出门相乘,使得仅有被选择的部分被输出。
3 训练LSTM树
以非监督模式训练Tree-LSTM单元,
(1)输入训练数据
给LSTM单元输入训练数据中的一个AST分支,得到那个分支预测的父节点名称
(2)比较预测结果同实际输出结果的差异;
(3)调整模型参数以缩小二者的差异
这个过程迭代进行直到所有训练数据用尽。
4 训练分类器
上一过程能够获取训练集中所有模块对应的特征,将这些带有标记和特征信息的模块灌入到分类器中让分类器通过训练集学习。在机器学习领域,有多种分类器可供选择。因此提供一个开发的分类选择器,以便在不同的应用场景下选择恰当的分类器。当前测试策略中先提供逻辑回归和随机森林两个分类型。
5 预测
(1)获取被预测模块的AST
(2)将AST根节点输入到LSTM树中,得到对应的隐藏状态向量和上下文向量
(3)将特征向量输入到分类器中获取是否存在的限的概率
(4)得到预测结果。