第十一章 后端编译与优化

news2025/1/22 21:48:08

文章目录

  • 11.1 概述
  • 11.2 即时编译器
    • 11.2.1 解释器与编译器
    • 11.2.2 编译对象与触发条件
    • 11.2.3 编译过程
  • 11.3 提前编译器
  • 11.4 编译器优化技术
    • 11.4.1 方法内联
    • 11.4.2 逃逸分析
    • 11.4.3 公共子表达式
    • 11.4.4 数组边界检查消除

11.1 概述

如果我们把字节码看作是程序语言的一种中间表示形式(Intermediate Representation, IR)的话,那编译器无论在何时、在何种状态下把 Class 文件转换成与本地基础设施(硬件指令集、操作系统)相关的二进制机器码,它都可以视为整个编译过程的后端。

​ 无论是提前编译器抑或即时编译器,都不是 Java 虚拟机必需的组成部分。后端编译器编译性能的好坏、代码优化质量的高低却是衡量一款商用虚拟机优秀与否的关键指标之一。

11.2 即时编译器

目前主流的两款商用 Java 虚拟机(HotSpot、 OpenJ9)里, Java 程序最初都是通过解释器(Interpreter)进行解释执行的,当虚拟机发现某个方法或代码块的运行特别频繁,就会把这些代码认定为“热点代码”(Hot Spot Code),为了提高热点代码的执行效率,在运行时,虚拟机将会把这些代码编译成本地机器码,并以各种手段尽可能地进行代码优化,运行时完成这个任务的后端编译器被称为即时编译器

需要解决一下几个问题:

  1. 为何 HotSpot 虚拟机要使用解释器与即时编译器并存的架构?
  2. 为何 HotSpot 虚拟机要实现两个(或三个)不同的即时编译器?
  3. 程序何时使用解释器执行?何时使用编译器执行?
  4. 哪些程序代码会被编译为本地代码?如何编译本地代码?
  5. 如何从外部观察到即时编译器的编译过程和编译结果?

11.2.1 解释器与编译器

【这段话重要!!!】

​ 当程序需要迅速启动和执行的时候,解释器可以首先发挥作用,省去编译的时间,立即运行。当程序启动后,随着时间的推移,编译器逐渐发挥作用,把越来越多的代码编译成本地代码,这样可以减少解释器的中间损耗,获得更高的执行效率。当程序运行环境中内存资源限制较大,可以使用解释执行节约内存(如部分嵌入式系统中和大部分的 JavaCard 应用中就只有解释器的存在),反之可以使用编译执行来提升效率。同时,解释器还可以作为编译器激进优化时后备的“逃生门”(如果情况允许, HotSpot 虚拟机中也会采用不进行激进优化的客户端编译器充当“逃生门”的角色),让编译器根据概率选择一些不能保证所有情况都正确,但大多数时候都能提升运行速度的优化手段,当激进优化的假设不成立,如加载了新类以后,类型继承结构出现变化、出现“罕见陷阱”(Uncommon Trap)时可以通过逆优化( Deoptimization)退回到解释状态继续执行,因此在整个 Java 虚拟机执行架构里,解释器与编译器经常是相辅相成地配合工作。
交互
HotSpot 虚拟机中内置了两个(或三个)即时编译器,其中有两个编译器存在已久,分别被称为“客户端编译器”(Client Compiler)和“服务端编译器”(ServerCompiler),或者简称为 C1 编译器C2 编译器(部分资料和 JDK 源码中 C2 也叫 Opto编译器),第三个是在 JDK 10 时才出现的、长期目标是代替 C2 的 Graal 编译器, Graal编译器目前还处于实验状态。

​ 在分层编译(Tiered Compilation)的工作模式出现以前, HotSpot 虚拟机通常是采用解释器与其中一个编译器直接搭配的方式工作。

​ 程序使用哪个编译器,只取决于虚拟机运行的模式, HotSpot 虚拟机会根据自身版本与宿主机器的硬件性能自动选择运行模式,用户也可以使用“-client”或“-server”参数去强制指定虚拟机运行在客户端模式还是服务端模式。

分层编译根据编译器编译、优化的规模与耗时,划分出不同的编译层次,其中包括:

  1. 第 0 层。程序纯解释执行,并且解释器不开启性能监控功能( Profiling)。
  2. 第 1 层。使用客户端编译器将字节码编译为本地代码来运行,进行简单可靠的稳
    定优化,不开启性能监控功能。
  3. 第 2 层。仍然使用客户端编译器执行,仅开启方法及回边次数统计等有限的性能
    监控功能。
  4. 第 3 层。仍然使用客户端编译器执行,开启全部性能监控,除了第 2 层的统计信息
    外,还会收集如分支跳转、虚方法调用版本等全部的统计信息。
  5. 第 4 层。使用服务端编译器将字节码编译为本地代码,相比起客户端编译器,服
    务端编译器会启用更多编译耗时更长的优化,还会根据性能监控信息进行一些不可靠的
    激进优化。

​ 实施分层编译后,解释器、客户端编译器和服务端编译器就会同时工作,热点代码都可能会被多次编译,用客户端编译器获取更高的编译速度,用服务端编译器来获取更好的编译质量,在解释执行的时候也无须额外承担收集性能监控信息的任务,而在服务端编译器采用高复杂度的优化算法时,客户端编译器可先采用简单优化来为它争取更多的编译时间。
关系

11.2.2 编译对象与触发条件

1.什么是热点代码:

  1. 被多次调用的方法。
  2. 被多次执行的循环体。

​ 前者很好理解,一个方法被调用得多了,方法体内代码执行的次数自然就多,它成为“热点代码”是理所当然的。而后者则是为了解决当一个方法只被调用过一次或少量的几次,但是方法体内部存在循环次数较多的循环体,这样循环体的代码也被重复执行多次,因此这些代码也应该认为是“热点代码”。

​ 对于这两种情况,编译的目标对象都是整个方法体,而不会是单独的循环体。第一种情况,由于是依靠方法调用触发的编译,那编译器理所当然地会以整个方法作为编译对象,这种编译也是虚拟机中标准的即时编译方式

​ 而对于后一种情况,尽管编译动作是由循环体所触发的,热点只是方法的一部分,但编译器依然必须以整个方法作为编译对象,只是执行入口(从方法第几条字节码指令开始执行)会稍有不同,编译时会传入执行入口点字节码序号(Byte Code Index, BCI)。这种编译方式因为编译发生在方法执行的过程中,因此被很形象地称为**“栈上替换”**(On Stack Replacement,OSR),即方法的栈帧还在栈上,方法就被替换了。

2.目前主流的热点探测

  1. 基于采样的热点探测

    采用这种方法的虚拟机会周期性地检查各个线程的调用栈顶,如果发现某个(或某些) 方法经常出现在栈顶,那这个方法就是“热点方法”。

    优点:简单高效

    缺点:很难精确地确认一个方法的热度,容易因为受到线程阻塞或别的外界因素的影响而扰乱热点探测。

  2. 基于计数器的热点探测

    采用这种方法的虚拟机会为每个方法(甚至是代码块)建立计数器,统计方法的执行次数,如果执行次数超过一定的阈值就认为它是“热点方法”。

    优点:精确

    缺点:比较麻烦

3.两类计数器(基于上面的第二种)

  1. 方法调用计数器

    • 计数器就是用于统计方法被调用的次数默认阈值在客户端模式下是 1500 次,在服务模式下是 10000 次,这个阈值可以通过虚拟机参数-XX: CompileThreshold 来人为设定

在这里插入图片描述
2. 回边计数器

作用是统计一个方法中循环体代码执行的次数,在字节码中遇到控制流向后跳转的指令就称为“回边(Back Edge) ”,很显然建立回边计数器统计的目的是为了触发栈上的替换编译。
回边

11.2.3 编译过程

在默认条件下,无论是方法调用产生的标准编译请求,还是栈上替换编译请求,虚拟机在编译器还未完成编译之前,都仍然将按照解释方式继续执行代码,而编译动作则在后台的编译线程中进行

后台编译过程

1.对于客户端编译器来说,有以下三个阶段:

  • 一个平台独立的前端将字节码构造成一种高级中间代码表示
  • 一个平台相关的后端从 HIR 中产生低级中间代码表示( Low-Level Intermediate Representation, LIR,即与目标机器指令集相关的中间表示),而在此之前会在 HIR 上完成另外一些优化,如空值检查消除、范围检查消除等,以便让 HIR 达到更高效的代码表示形式。
  • 在平台相关的后端使用线性扫描算法( Linear Scan Register Allocation)在 LIR 上分配寄存器,并在 LIR 上做窥孔(Peephole)优化,然后产生机器代码。
    架构
    2.对于服务端

​ 服务端编译器则是一个能容忍很高优化复杂度的高级编译器,几乎能达到 GNUC++编译器使用-O2 参数时的优化强度。它会执行大部分经典的优化动作,如:无用代码消除(Dead Code Elimination)、循环展开( Loop Unrolling)、循环表达式外提(Loop Expression Hoisting)、消除公共子表达式(Common Subexpression Elimination)、常量传播(Constant Propagation)、基本块重排序(Basic Block Reordering)等,还会实施一些与 Java 语言特性密切相关的优化技术,如范围检查消除(Range Check Elimination)、空值检查消除(Null Check Elimination,不过并非所有的空值检查消除都是依赖编译器优化的,有一些是代码运行过程中自动优化了)等。

​ 另外,还可能根据解释器或客户端编译器提供的性能监控信息,进行一些不稳定的预测性激进优化,如守护内联( GuardedInlining)、分支频率预测(Branch Frequency Prediction)等。

11.3 提前编译器

两个分支:

1.做与传统 C、C++编译器类似的,在程序运行之前把程序代码编译成机器码的静态翻译工作;

2.把原本即时编译器在运行时要做的编译工作提前做好并保存下来,下次运行到这些代码(譬如公共库代码在被同一台机器其他 Java 进程使用)时直接把它加载进来使用。本质是给即时编译器做缓存加速。

11.4 编译器优化技术

编译器的目标虽然是做由程序代码翻译为本地机器码的工作,但其实难点并不在于能不能成功翻译出机器码,输出代码优化质量的高低才是决定编译器优秀与否的关键

技术预览在p413,下面主要介绍几个重要的方法。

11.4.1 方法内联

内联被业内戏称为优化之母,因为除了消除方法调用的成本之外,它更重要的意义是为其他优化手段建立良好的基础。

​ 方法内联的优化行为理解起来是没有任何困难的,不过就是把目标方法的代码原封不动地“复制”到发起调用的方法之中,避免发生真实的方法调用而已。

例子:

public static void foo(Object obj) {
	if (obj != null) {
		System.out.println("do something");
	}
}
public static void testInline(String[] args) {
	Object obj = null;
	foo(obj);
}

但是有些方法是不能够内联的,无法内联的原因其实在第 8 章中讲解 Java 方法解析和分派调用的时候就已经解释过:只有使用 invokespecial 指令调用的私有方法、实例构造器、父类方法和使用invokestatic 指令调用的静态方法才会在编译期进行解析。

​ 对于一个虚方法,编译器静态地去做内联的时候很难确定应该使用哪个方法版本,以将代码清单 11-7 中所示 b.get()直接内联为 b.value 为例,如果不依赖上下文,是无法确定 b 的实际类型是什么的。

​ 为了解决虚方法的内联问题, Java 虚拟机首先引入了一种名为类型继承关系分析(Class Hierarchy Analysis, CHA)的技术,这是整个应用程序范围内的类型分析技术,用于确定在目前已加载的类中,某个接口是否有多于一种的实现、某个类是否存在子类、某个子类是否覆盖了父类的某个虚方法等信息。

类型继承关系方案:

非虚方法:直接进行内联就可以了,这种的内联是有百分百安全保障的;

虚方法:向 CHA 查询此方法在当前程序状态下是否真的有多个目标版本可供选择,如果查询到只有一个版本,那就可以假设“应用程序的全貌就是现在运行的这个样子”来进行内联,这种内联被称为守护内联(Guarded Inlining)。因为Java是动态链接的程序,例如可能临时产生一个代理类,就需要设置好“逃生门”,说不准什么时候就会有不同的方法,就需要退回到解释执行的状态。

如果确实有多个版本的目标方法,编译器会做**内联缓存(Inline Cache)**的方式来缩减方法调用的开销。这样会比直接查CHA快一些。

工作原理:在未发生方法调用之前,内联缓存状态为空,当第一次调用发生后,缓存记录下方法接收者的版本信息,并且每次进行方法调用时都比较接收者的版本。如果以后进来的每次调用的方法接收者版本都是一样的,那么这时它就是一种单态内联缓存( Monomorphic Inline Cache)。

​ 所以说,在多数情况下 Java 虚拟机进行的方法内联都是一种激进优化

11.4.2 逃逸分析

1.基本原理

分析对象动态作用域,当一个对象在方法里面被定义后,它可能被外部方法所引用,例如作为调用参数传递到其他方法中,这种称为方法逃逸;甚至还有可能被外部线程访问到,譬如赋值给可以在其他线程中访问的实例变量,这种称为线程逃逸; 从不逃逸、 方法逃逸到线程逃逸,称为对象由低到高的不同逃逸程度。

如果能证明一个对象不会逃逸到方法或线程之外(换句话说是别的方法或线程无法通过任何途径访问到这个对象),或者逃逸程度比较低(只逃逸出方法而不会逃w逸出线程),则可能为这个对象实例采取不同程度的优化,如:

  • 栈上分配

    如果确定一个对象不会逃逸出线程之外,那让这个对象在栈上分配内存将会是一个很不错的主意,对象所占用的内存空间就可以随栈帧出栈而销毁。栈上分配可以支持方法逃逸,但不能支持线程逃逸。

  • 标量替换

    若一个数据已经无法再分解成更小的数据来表示了, Java 虚拟机中的原始数据类型(int、 long 等数值类型及 reference 类型等)都不能再进一步分解了,那么这些数据就可以被称为标量。相对的,如果一个数据可以继续分解,那它就被称为聚合量(Aggregate), Java 中的对象就是典型的聚合量。如果把一个Java 对象拆散,根据程序访问的情况,将其用到的成员变量恢复为原始类型来访问,这个过程就称为标量替换。

    假如逃逸分析能够证明一个对象不会被方法外部访问,并且这个对象可以被拆散,那么程序真正执行的时候将可能不去创建这个对象,而改为直接创建它的若干个被这个方法使用的成员变量来代替。

    但对逃逸程度的要求更高,它不允许对象逃逸出方法范围内

  • 同步消除

    线程同步本身是一个相对耗时的过程,如果逃逸分析能够确定一个变量不会逃逸出线程,无法被其他线程访问,那么这个变量的读写肯定就不会有竞争,对这个变量实施的同步措施也就可以安全地消除掉。

11.4.3 公共子表达式

如果一个表达式 E 之前已经被计算过了,并且从先前的计算到现在 E 中所有变量的值都没有发生变化,那么 E 的这次出现就称为公共子表达式。

11.4.4 数组边界检查消除

数组边界检查消除(Array Bounds Checking Elimination)是即时编译器中的一项语言相关的经典优化技术。

​ Java数组如果访问越界的话,就会抛出异常。所以是Java虚拟机执行子系统做了边界的检查,每次数组元素的读写都带有一次隐含的条件判定操作,对于拥有大量数组访问的程序代码, 这必定是一种性能负担。

​ 如果编译器只要通过数据流分析就可以判定循环变量的取值范围永远在区间[0, foo.length)之内,那么在循环中就可以把整个数组的上下界检查消除掉,这可以节省很多次的条件判断操作

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1374340.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

哈希应用之位图+布隆过滤器

文章目录 bitset介绍bitset常用函数位图的简单实现布隆过滤器布隆过滤器实现 bitset介绍 在 C 中,std::bitset 是一个标准库提供的类模板,用于表示固定大小的位集合。std::bitset 类模板允许你以一种方便且高效的方式处理位(二进制位&#x…

外汇天眼:什么是外汇隔夜利息、滑点和价格跳空?

隔夜利息 所有的外汇交易中只要持仓过夜就一定会有隔夜利息,只不过这个利息有可能是正的,也有可能是负数。 买一个货币涨,相当于我们卖出对应货币,买入基础货币。 买一个货币跌,相当于我们向外汇平台卖出基础货币&a…

定制耐酸碱移液吸头PFA移液枪头可重复使用

移液枪是移液器的一种,常用于实验室少量或微量液体的移取,规格不同,不同规格的移液枪配套使用不同大小的枪头,不同生产厂家生产的形状也略有不同,但工作原理及操作方法基本一致。移液枪属精密仪器,使用及存…

开启鸿蒙开发探索之旅ArkTS基本语法介绍(3)

上一章简单的介绍了鸿蒙HUAWEI DevEco Studio框架的搭建,这一章讲一下鸿蒙的主要开发一眼ArkTS的基本语法结构 1.ArkTS语法解释 ArkTS是HarmonyOS优选的主力应用开发语言。ArkTS围绕应用开发在TypeScript(简称TS)生态基础上做了进一步扩展&…

Redis的主从配置,哨兵模式,集群模式

目录 什么是主从复制? 主从复制的作用? 主从复制的流程? 搭建Redis的主从复制 安装Redis 环境准备 修改内核参数 安装Redis 定义systemd服务管理脚本 修改Redis配置文件(Master节点操作)192.168.17.25 修改Re…

计算机网络技术-2022期末考试解析

【前言】 这是计算机网络技术这门课,感觉和计网还是有不一样的,但也有能做的,把能做的做了。 一、单项选择题(每题2分,共20分) 1. 用于测试两台计算机连通状况的命令是 。 ( ) A. cmd B. ping C. ipconf…

(N-137)基于springboot,vue运动会报名管理系统

开发工具:IDEA 服务器:Tomcat9.0, jdk1.8 项目构建:maven 数据库:mysql5.7 系统分前后台,项目采用前后端分离 前端技术:vueAvueElementUI 服务端技术:springbootmybatis 本项…

如何利用ChatGPT快速生成月报?

随着每个月的结束,个人和团队经常需要编写月报来回顾和总结。这项任务通常消耗大量时间和精力。幸运的是,借助ChatGPT,这个过程可以变得更加简单和高效。接下来,我将详细介绍如何利用ChatGPT快速生成月报,从而帮助你节…

简易实现 MyBatis 底层机制

MyBatis 大家好呀!我是小笙,我中间有1年没有更新文章了,主要忙于毕业和就业相关事情,接下来,我会恢复更新!我们一起努力吧! 概述 MyBatis 是一个持久层的框架(前身是 ibatis&#x…

jmeter--常用插件及服务器监控(14)

一.jmeter插件管理器 下载jmeter插件管理器:plugins-manager.jar 下载plugins-manager.jar并将其放入lib/ext目录,然后重启JMeter。 插件管理界面 打开选项->Plugins Manager(界面见下图),“Installed Plugns”…

Github全球第一的免费waf防火墙雷池社区版的语义分析检测算法

传统规则防护,在当下为什么失灵? 当下,Web 应用防火墙大多采用规则匹配方式来识别和阻断攻击流量,但由于 Web 攻击成本低、方式复杂多样、高危漏洞不定期爆发等原因,管理者们在安全运维工作中不得不持续调整防护规则&a…

回顾2023,立2024flag

文章目录 回顾2023与CSDN相识专栏整理数据回顾 立2024flag 回顾2023 在过去的一年里,前端技术不断演进和创新。新技术、新框架层出不穷,给前端工程师提供了更多选择和挑战。2023年已经成为过去,回首这一年,我们也经历了许多挑战和…

@RequestParam

在我们写接口的时候,经常会用到这个注解来标记参数,通过这个注解我们可以把请求的url中的参数名和值映射到被标记的参数上。 比如下方,这个接口是通过传入的参数来查询相关信息的 我们定义这样一个接口,设置了8个参数,…

ChatGPT本地部署,学习记录

一、GPT4ALL模型 官网地址: Github:https://github.com/nomic-ai/gpt4all GPT4ALL项目部署简易,但是在运行体验上一般,并且是只调用CPU来进行运算。 看官方文档介绍在嵌入式上有比较大的优势,但是目前个人对嵌入式…

云贝教育 |【技术文章】存储对象的LIBRARY CACHE LOCK/PIN实验(一)

注: 本文为云贝教育 刘峰 原创,请尊重知识产权,转发请注明出处,不接受任何抄袭、演绎和未经注明出处的转载。 实验环境 操作系统:Red Hat Enterprise Linux release 8.8 (Ootpa) 数据库:oracle Version 19.3.0.0.0 …

Nginx介绍与安装

目录 nginx服务 1、Nginx 介绍 2、为什么选择 nginx 3、IO多路复用 1、I/O multiplexing【多并发】 2、一个请求到来了,nginx使用epoll接收请求的过程是怎样的? 3、异步,非阻塞 4、nginx 的内部技术架构 5、yum安装部署nginx和配置管理 1.获取…

Vue学习笔记六--Vue3学习

1、Vue3的优势 2、创建Vue3工程 前提:node -v 查看node版本,需要在16.0及以上 创建命令 npm init vuelatest,先安装create-vue然后创建项目 然后执行npm run dev 提示 sh: vite: command not found,需要执行npm i重新安装依赖,之后再执行np…

13.若依代码自动生成功能详解

文章目录 1.代码自动生成功能2.功能的使用3. 代码的导出和使用 1.代码自动生成功能 基于若依的目录结构,若依本身提供了代码生成功能,可以根据数据库表的内容,生成一些基本的CRUD的前后端的功能。本文将生成过程中的一些注意事项&#xff0c…

Windows系统设置会议闹钟铃声提醒怎么操作的

在这个快节奏的时代,我们每个人都像是被时间推着走。过去,我经常会因为埋头于工作而忘记了即将召开的会议,直到同事打来电话催促,才匆匆忙忙地赶去会议室。这种尴尬的经历让我意识到,我需要一个能够准时提醒我参加会议…

UI功能6大流程、接口测试8大流程这些你真的全会了吗?

在讲接口流程测试之前,首先需要给大家申明下:接口测试对于测试人员而言,非常非常重要,懂功能测试接口测试,就能在企业中拿到一份非常不错的薪资。 这么重要的接口测试,一般也是面试笔试必问。为方便大家更…