TOPLAS‘07: Effective Field-Sensitive Pointer Analysis for C 字段敏感C程序指针分析

news2024/11/19 20:37:40

文章目录

    • 1. 集合约束式的指针分析
      • 1.1 基本介绍
      • 1.2 求解约束
        • 1.2.1 图传播
        • 1.2.2 迭代顺序
        • 1.2.3 节点替换 (Variable Subsititution)
        • 1.2.4 传递化简 (Transitive Reduction)
        • 1.2.5 集合的表示
        • 1.2.6 差分传播
        • 1.2.7 相同解的集合
    • 2. 扩展约束模型
      • 2.1 简介
      • 2.2 处理函数指针
      • 2.3 处理字段
      • 2.4 处理堆
      • 2.5 处理指针算数和数组
    • 3. 算法

请添加图片描述

接上文;上文(CFL-Reachability求解Andersen指针分析)主要介绍了将Andersen式指针分析问题转换为CFL-Reachability问题,然后进行求解。本文介绍介绍另一篇Andersen式指针分析,作者提出的方法是字段敏感的。

我看这篇文章的动机是:

  • 它被用在GCC编译器的指针分析中,Go语言指针分析中
  • 我觉得这篇文章里面讲的一些求解方法很经典
  • C的字段敏感指针分析我看得并不多

这篇文章最初发表在PASTE’04,在2007年又以一个更详细的版本发表在TOPLAS’07。

作者提出的方法对结构体变量间接函数调用进行建模。它是流不敏感,上下文不敏感,字段敏感的。

1. 集合约束式的指针分析

1.1 基本介绍

Set-Constraints指针分析,也叫Andersen式指针分析,inclusion-based指针分析。约束可以用如下形式来描述:

请添加图片描述

在对程序进行分析时,根据程序的语意,收集相应的约束,表示成上述所示的约束

  • 程序中每个变量,都有一个唯一的约束变量与之对应
  • 每个变量都包含一个集合,表示它所指向的位置
  • 程序的赋值也转换成上述的约束形式

得到约束之后,能够通过如下所示的推导规则来得到每个变量最终的指向状态。
请添加图片描述
看起来比较简洁。这里以一个例子为描述:
请添加图片描述

  • (1) ~ (7):根据程序的语意来收集的约束关系。
    • 约束变量以函数名 + 变量名下标来唯一表示
  • (8) ~ (13):根据推导规则,得到进一步的约束关系

1.2 求解约束

给定一个程序,然后构造了上述约束,如何进行求解,得到变量最终的指向状态?

首先,给出求解时间,再给出求解方法。

约束系统中存在 t 个约束,它能够以 O ( t 3 ) O(t^3) O(t3) 时间进行求解

证明:

  • v是变量数目,那么生成的简单约束 ($p \supseteq {q} $) 的上界数为 O ( v 2 ) O(v^2) O(v2)
  • 最多 O ( v 2 ) O(v^2) O(v2) 种简单约束可能性 ( p ⊇ q p \supseteq q pq )
  • 最多有v个简单约束能够通过trans规则在每个简单约束之间传播,应用trans最多 O ( v 3 ) O(v^3) O(v3) 次。
  • 每个解引用的变量最多 O ( v ) O(v) O(v) 个targets,复杂约束规则只能应用 O ( t v ) O(tv) O(tv)
  • v就是O(t),所以 O ( t 3 ) O(t^3) O(t3) 上界

作者提到:他提出的字段敏感算法是 O ( v 4 ) O(v^4) O(v4)

这里讨论一些高效求解约束的方法。

当然,最简单的方法就是用一个 while(changed) 循环盲目地迭代,直到不动点。

1.2.1 图传播

核心思想就是将约束表示成有向图。

  • 每个约束变量表示成图上唯一的节点
  • p ⊇ q p \supseteq q pq 表示成图上 p ← q p \leftarrow q pq

每个节点关联一个解(points-to set)的集合,叫做 S o l ( n ) Sol(n) Sol(n)

例如之前的例子可以用下图来表示:
请添加图片描述

图的最初状态只处理这种规则 n ⊇ { x } n \supseteq \{x\} n{x} 。通过worklist算法,不断沿着边传递 S o l ( n ) Sol(n) Sol(n) 到后继节点。最终得到的解为:
请添加图片描述
worklist处理细节: ∗ n ⊇ q *n \supseteq q nq:$\forall v \in Sol(n), 添加边v \leftarrow q $ ;其它情况类似的处理方式。

1.2.2 迭代顺序

节点被访问的顺序 (从worklist中拎出来的顺序),会影响迭代效率。

例如,对于如下状态:
请添加图片描述
如果我们从worklist中挑出节点y进行迭代传播,就像这样:
请添加图片描述
现在再挑出节点x进行传播,很显然,会重新传播y节点的值。 如果一开始就挑出x进行传播,那么显然传播的次数少一些。

1.2.3 节点替换 (Variable Subsititution)

观察到,如果一些变量一定有相同的解,那么,可以将它替换成一个节点,这样就降低图的大小,减少传播次数。

第一种情况如下,{x, y, z} 可以用单个节点替换。

  • 关键的思想就是y,z没有被取地址,并且没有这样的形式 y ⊇ ∗ p y \supseteq *p yp
    请添加图片描述

第二种情况就是强连通分量 (Strongly Connected Component)。
请添加图片描述

1.2.4 传递化简 (Transitive Reduction)

从图上消除传递边, x → z x \rightarrow z xz 可以消除,但是并不会影响最终解,而且还能够提升性能(执行更少的并集操作)。
请添加图片描述

并没有高效地方法来识别这种可化简的传递边( 已有方法是 O ( n 2 ) O(n^2) O(n2) )。但是能够识别一些这样的边,仍然很有用。

1.2.5 集合的表示

一般集合会实现成BitVector,Sorted Array,Binary Tree。最好的实现是BitVector混合Sorted Array方法。

1.2.6 差分传播

可参考南京大学软件分析中指针分析算法,里面也提到了 Δ \Delta Δ 传播

Difffference propagation的意思就是只传播改变的那部分集合到后继节点,这样能够避免重新传播冗余的信息。

构造一个$\Delta = {d} $ ,而非传播整个集合过去。 (作者说BitVector表示并不会加速)
请添加图片描述

1.2.7 相同解的集合

很多时候迭代到后面,许多变量拥有相同解,作者发现,一般情况下,如果能把相同的集合用哈希表共享,那么能够节约内存,提升求解器整体的执行时间。

2. 扩展约束模型

2.1 简介

上面的约束模型只能够处理简单的变量,以及解引用。这里扩展到函数间接调用 (函数指针),字段敏感

扩展后的约束,用如下形式来表示:
请添加图片描述

简单解释:

  • k为常数
    • 当k=0时,与原来的模型是等效的
  • *(p + k)表示: ∀ s ∈ S o l ( q ) , 然后 ∗ ( s + k ) \forall s \in Sol(q), 然后 *(s + k) sSol(q),然后(s+k)

对应的推导规则如下:
请添加图片描述

其中

  • idx为:映射变量到它的索引
  • add规则用于处理这种情况: q = & ( b − > f 2 ) q = \&(b->f2) q=&(b>f2)

用图形表示这种约束关系,可以用带权图(边上标注k值)

  • p ⊇ q + k p \supseteq q +k pq+k ,引入边 q → p , 边上权值 k q \rightarrow p, 边上权值k qp,边上权值k

2.2 处理函数指针

对于函数指针,将函数的第一个参数的索引 (第一个参数的索引) 作为它的索引。
请添加图片描述

这里是一个例子,主要关注于:

  • (1). 函数f的第一个参数p的index为0
  • (8). 处理函数的关键就是将函数的index视为该函数第一个参数的index
  • (10)(11). 上下文不敏感

请添加图片描述

这样处理仍然会存在一个问题,就是不合理的类型转换,例如如下代码:
请添加图片描述

在处理最后一条约束时,会导致 g a ⊇ b g_a \supseteq b gab ,因为 i d x ( g a ) = i d x ( f p ) + 1 idx(g_a) = idx(f_p) + 1 idx(ga)=idx(fp)+1。通过对每个变量限制它的端点(end)索引,可以避免不想要的传播。每个变量有一个end, e n d ( f p ) = 0 , e n d ( g a ) = e n d ( g b ) = 2 end(f_p) = 0, end(g_a) = end(g_b) = 2 end(fp)=0,end(ga)=end(gb)=2,所以对于 i d x ( ∗ ( g p + 1 ) ) > e n d ( ∗ g p ) idx(*(g_p + 1)) > end(*g_p) idx((gp+1))>end(gp) 这种情况,可以不做传播。

2.3 处理字段

与Java相比,Java不允许取字段的地址。

有3种方法来处理字段:field-insensitive, field-based, field-sensitive。他们的区别是:
请添加图片描述

下面看作者怎么对字段建模的:
请添加图片描述
看起来很容易理解,就是给结构体每个字段变量编个号。

存在的一个问题就是 Positive Weight Cycle (PWC) 问题。这种环会导致求解时不终止,也就是不断地+1,+1 传播…
请添加图片描述

可以使用上文所说的end,来限制自增后的边界索引。

另外就是折叠环。如果所有节点间都存在一条0权路径。那么能够折叠成一个自环节点。

请添加图片描述

2.4 处理堆

上面提到,对于结构体,就是给结构体里面的字段变量编个号。但是对于堆内存分配,下面给了一个例子:
请添加图片描述

HEAP0既可以表示结构体,又可以表示整数数组。所以上述给字段编号的方法似乎并不适用,因为我们不知道它到底分配出来被用作结构体还是其它类型的数据。

所以我们要么对这种堆,字段不敏感。要么假设它总是结构体。那么问题来了?程序中声明了这么多结构体,堆变量到底是哪个结构体呢?最简单的方法就是:假定堆变量就是程序中最大的那个结构体,每个堆变量就被认为是所有结构体的union
请添加图片描述

2.5 处理指针算数和数组

对于指针算数; p = p + 1 p = p + 1 p=p+1 你可能会套用这个约束 p ⊇ p + 1 p \supseteq p + 1 pp+1 ,但实际上,我们只对显式的字段访问建模(x->y, x.y这种)。指针算数我们翻译为 p ⊇ p p \supseteq p pp

对于数组,看成单个约束变量。

3. 算法

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/124711.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NNOM第一个模型实例

目录 一、keras开发环境搭建 二、安装visual studio 2019 1. 下载安装 2. 配置使用MSVC编译器 三、编译第一个NNOM的demo 1. 下载源码 2. 安装依赖库 3. 编译auto_test 四、移植 1. 新建新的VS项目 2. 拷贝相关源码 3. 配置工程 4. 编译并运行 一、keras开发环境搭…

Java并发——线程池

线程池 一、线程池的作用 线程的创建和销毁需要占用CPU资源,若频繁的进行创建和销毁会产生很大的开销,影响性能和系统稳定性。 线程池的优点: 线程池可以保存创建好的线程随用随取,降低资源消耗(重复利用线程池中的…

一文读懂堡垒机对企业信息安全起到的重要作用

堡垒机的发展历程大致可分为以下三个阶段:      第一代堡垒机:堡垒机最初的理念起源于跳板机,但跳板机无法实现对运维人员操作行为进行控制和审计,一旦出现违规操作导致操作事故,很难快速定位原因和责任人。    …

Java分析-对象头

前言 HotSpot虚拟机中,对象在内存中存储的布局可以分为三块区域:对象头(Header)、实例数据(Instance Data)和对齐填充(Padding) HotSpot虚拟机的对象头(Object Header)包括两部分信息,第一部分用于存储对象自身的运行时数据, 如哈希码(HashCode)、GC分代年龄、锁…

移动是否是商业bi的前景?

一 前言 五年前就有人预言商业智能BI移动化会成为必然趋势,如今5年时间已过,移动BI的普及程度并不如预期。原因主要是数据分析的交互性一直是很高的要求,手机屏幕的限制一直抑制了商业智能BI在移动端得到更好发挥的障碍。 比如数据看板或可…

[笔记] - springboot-jpa 使用sqlite 踩坑

前言(可略过) 最近准备写一些小项目来验证一下脑袋中的项目 因为是“小项目”,所以对于数据持久化的实现,就不想用mysql等很重的db了 而且不用考虑安全性,故首先想到的就是使用 sqlite 本地数据库即可 然后因为是使用…

Android进阶 之 SPI机制及实现原理

什么是SPI SPI ,全称为 Service Provider Interface,是一种服务发现机制。它通过在ClassPath路径下的META-INF/services文件夹查找文件,自动加载文件里所定义的类。是Java提供的一套用来被第三方实现或者扩展的API,它可以用来启用…

BCryptPasswordEncoder加密与MD5加密的区别

MD5 加密说明 MD5(Message Digest Algorithm 5)中文名为消息摘要算法第五版,是计算机安全领域广泛使用的一种散列函数,用以提供消息的完整性保护。 MD5作为一种常用的摘要算法(或指纹算法),其…

一文教会你如何利用领英多账号高效开发客户资源

作为全球最大的职业社交平台,领英(linkedin)的属性关键词包括“商业、互动和机会”。这些属性覆盖了领英全球超过6亿的用户,这决定了领英是一个拥有无限商业交易机会的社交平台。因此,越来越多的国内外企业不断在领英上…

如何在右键菜单添加将文档“转换为PDF”选项

本文介绍一种方法,可以实现右键快速将docx、doc、txt、ppt等文档转换为PDF文档 文章目录1. Acrobat DC 软件安装2.添加右键“转PDF”功能选项3.功能效果1. Acrobat DC 软件安装 下载链接: 1.百度网盘:链接 提取码: vumk 2.阿里云盘:链接…

虹科分享|关于SANS报告的顶级勒索软件洞察

近年来,勒索软件攻击经历了大流行加速的演变,而防御系统则难以跟上。勒索软件的第一阶段已经让位于新的、不同的、更好的和更坏的东西。为了帮助理解这一演变,Morphisec赞助了一份来自SANS的报告,探索勒索软件防御的现状。它研究了…

从Pearson相关系数到模板匹配的NCC方法

文章目录<center> NCC(Normalized Cross Correlation)1.**Pearson相关系数**2.**协方差 covariance**3. **方差 variance**4.模板匹配中的NCC方法5.实现过程6.测试结果7.部分核心源码NCC.cppNCC(Normalized Cross Correlation)从Pearson相关系数到模板匹配的NCC方法 1.P…

HTML5 本地存储

文章目录HTML5 本地存储Cookie的缺点localStorage简介简单使用sessionStorage简介简单使用indexedDB简介HTML5 本地存储 Cookie的缺点 在HTML4.01中&#xff0c;想要在浏览器端存储用户的某些数据时&#xff0c;我们一般只能使用Cookie来实现。 但是Cookie存在一些问题&…

如何进行企业设备管理?

如何进行企业设备管理&#xff1f; 点进这篇文章&#xff0c;让企业设备管理不再 难 难 难 &#xff01; 对于许多公司来说&#xff0c;特别是制造业&#xff0c;生产设备已成为企业生产线中最重要最核心的部分&#xff0c;因此设备管理是企业管理基础的重要组成部分。而在当…

mysql-基础-约束多表关系多表查询事务

文章目录mysql基础1&#xff0c;约束1.1 概念1.2 分类1.3 非空约束1.4 唯一约束1.5 主键约束1.6 默认约束1.7 约束练习1.8 外键约束1.8.1 概述1.8.2 语法1.8.3 练习2&#xff0c;数据库设计2.1 数据库设计简介2.2 表关系(一对多)2.3 表关系(多对多)2.4 表关系(一对一)2.5 数据库…

刘鹏的2022年度总结

[ 这是 2022 博客之星 的竞选帖子&#xff0c; 请你在这里增加其他内容。接下来分享这一年的收获&#xff0c;感悟&#xff0c;以及 对CSDN 产品的反馈和 2023 年的希望。 ] 目录 1. 学习收获 1.1 心路历程 1.2 基本收支 2. 未来展望 2.1 UR3机械臂ROS 2.2 论文 2.3 开…

电线电缆行业mes解决方案,打造全新信息化车间

电线电缆行业虽然只是一个配套行业&#xff0c;却占据着中国电工行业1/4的产值。它产品种类众多&#xff0c;应用范围十分广泛&#xff0c;涉及到电力、建筑、通信&#xff0c;制造等行业&#xff0c;与国民经济的各个部门都密切相关。电线电续还被称为国民经济的“动脉”与“神…

STM32理论 —— 看门狗

文章目录1. 简述2. 独立看门狗 IWDG2.1 IWDG 相关寄存器2.1.1 键值寄存器IWDG_KR2.1.2 预分频寄存器IWDG_PR与重装载寄存器IWDG_RLR2.2 核心代码1. 简述 STM32 内部自带了 2 个看门狗&#xff1a;独立看门狗&#xff08;IWDG&#xff09;和窗口看门狗&#xff08;WWDG&#xff…

5. 最长回文子串

题目描述 给你一个字符串 s&#xff0c;找到 s 中最长的回文子串。 如果字符串的反序与原始字符串相同&#xff0c;则该字符串称为回文字符串。 示例 1&#xff1a; 输入&#xff1a;s “babad” 输出&#xff1a;“bab” 解释&#xff1a;“aba” 同样是符合题意的答案。 示…

Redis集群系列四 —— 哨兵集群搭建

准备实例和配置 搭建一个三节点的 Sentinel 集群&#xff0c;来监管之前的 Redis 主从集群&#xff0c;如图&#xff1a; 参考上述配置&#xff0c;分别复制 redis 下的 sentinel.conf 文件&#xff0c;如图&#xff1a; 文件中除端口外&#xff0c;其它配置都是一样的。 启动…