Java GC 专家系列5:Java应用性能优化的原则
本文是GC专家系列中的第五篇。在第一篇理解Java垃圾回收中我们学习了几种不同的GC算法的处理过程,GC的工作方式,新生代与老年代的区别。所以,你应该已经了解了JDK 7中的5种GC类型,以及每种GC对性能的影响。
在第二篇Java垃圾回收的监控中介绍了在真实场景中JVM是如何运行GC,如何监控GC数据以及有哪些工具可用来方便进行GC监控。
在第三篇GC 调优中基于真实案例介绍了可用于GC调优的最佳选项。同时也描述了如何通过降低移动到老年代中对象的数量来缩短Full GC耗时,以及如何设置GC类型及内存大小。
在第四篇 Apache的MaxClients设置及其对Tomcat Full GC的影响 中介绍了Apache对 MaxClients 选项在系统发生GC时对整体性能的影响。
在本文中我将会介绍Java应用性能优化的一般原则。具体来说,我会介绍性能优化的必要条件、判断是否需要优化的步骤,同时也会列出在性能优化过程中经遇到的一些问题。在文章结尾,我会给你一些在性能优化过程中如何做出最优决定的建议。
概述
不是每个应用都需要优化。如果系统的运行状况正如你的期望,你就没必要花费更多精力在额外的性能提升上。然而,在调试过程中就期望系统能达到它的目标性能往往会比较困难。这时就需要做系统优化的工作了。不管使用哪种语言,性能优化都要有较高的专业技能和高度专注。另外,因为每个应用都有自己独特的操作和不同的资源使用情况,在优化两个不同系统中可能需要使用不同的具体方法。所以与开发应用相比,性能优化更需要有扎实的基础知识,例如需要具有虚拟机、操作系统甚至计算机体系结构的相关知识。基于这些基础,再面对系统进行优化时,成功的机率就会更高。
一些Java应用的优化只需要调整JVM的选项,例如改变垃圾回收类型,不过有时也是需要去调整源码。不管使用哪种方式,你首先都需要去监控Java应用的执行处理过程。基于此,本文主要涵盖的内容如下:
- 如何监控Java应用
- 如何设置JVM选项
- 如何判断是否有必要修改应用代码
Java性能优化必备的基础知识
Java应用在JVM中运行,因此优化Java应用,你需要理解JVM的运行过程。在前面的文章深入理解JVM你可以找到一些关于JVM重要概念的介绍。
在本文中关于JVM运行过程的讲解着重于垃圾收集(GC)和 Hotspot相关知识。为了构造一个使JVM 运行良好的环境,你需要理解操作如何为进程分配资源。所以即便是优化Java应用,你也需要像熟悉JVM一样去熟悉操作系统甚至硬件知识。
与Java语言相关的知识也十分重要。同样理解锁和并发、熟悉类的加载与对象创建都是应该具备的技能。
一旦将Java应用优化付诸行动,你就需要综合利用上面提到的相关知识进行全面分析。
Java性能优化的流程
图1摘取自Charlie Hunt和Binu John合著的《Java性能》,描述了Java应用性能优化的处理流程。
图1: Java应用性能优化流程
上图并不是一个一次性流程,在性能优化完成之前你可能需要重复其中的过程。此过程同样适用于如何选取一个期望的性能指标。在优化过程中,有时需要降低性能指标的预期值,有时则需要提高性能指标的预期值。
JVM部署模型
JVM部署模型关系到如何决定是否把应用部署到单个或多个JVM上运行。这可以从系统的可用性、响应速度和可维护性上来做取舍。即便是决定了使用多个JVM,你也还需要确定在单台服务器上运行多个JVM或者是每台服务器上运行一个JVM。例如,对每台服务器,你面临着为单个JVM分配8GB堆内存和运行4个JVM并为每个JVM分配2GB堆内存的选择。当然单台服务器运行的JVM的数量也取决于CPU的核数以及应用本身的特点。在对比以上两个配置的响应速度时,具有2GB堆空间的方案可能更有优势,因为使用2GB的堆空间比使用8GB堆空间在Full GC时耗时更短。不过话说回来,使用8GB堆空间却可以减少Full GC的频率。另外也可以通过提高应用内部缓存命中率的方式来提高系统响应速度。所以,最终选择部署模型需要综合考虑应用的特点和所选方案对应用带来的优劣对比。
JVM体系结构
选择JVM时还需要面临 32位JVM 和 64位JVM 。同样条件下,应该优化选择32位JVM,因为32位JVM比64位的表现更优。不过32位JVM能使用堆内存最大理论值只有4GB。(事实上,32位操作系统和64位操作系统能分配的空间大小都只有2-3GB)。当堆空间需求更大时,使用64位JVM会是更好的选择。
表 1:性能对比
Benchmark | Time (sec) | Factor |
---|---|---|
C++ Opt | 23 | 1.0x |
C++ Dbg | 197 | 8.6x |
Java 64-bit | 134 | 5.8x |
Java 32-bit | 290 | 12.6x |
Java 32-bit GC* | 106 | 4.6x |
Java 32-bit SPEC GC* | 89 | 3.7x |
Scala | 82 | 3.6x |
Scala low-level* | 67 | 2.9x |
Scala low-level GC* | 58 | 2.5x |
Go 6g | 161 | 7.0x |
Go Pro* | 126 | 5.5x |
接下来要做的就是运行应用并衡量其性能。这些过程包括GC调优、调整操作系统设置以及修改应用代码。在这些过程中,你需要使用一些系统监控工具或者程序分析工具来帮你完成任务。
值得注意的是为响应速度的优化和为吞吐量的优化途径可能会截然不同。例如,不时发生的stop-the-world会降低响应速度,而Full GC则会导致单位时间内的吞吐量量大幅减少。所以其中必定会有所权衡。当然这些权衡不只发生于响应速度和呑吐量之间,你可能需要使用更多的CPU资源来减少内存使用来以避免响应速度或吞吐量的降低。与此相反的场景也同样会发生,你需要按一定的优先顺序来解决。
图1中的性能优化流程图适用于包括Swing应用在内的几乎所有Java应用。尽管如此,这个流程并不太适用于我们NHN公司为网络服务编写服务器应用的场景。下 图2 是针对NHN公司并基于 图1 制定的一个简化的处理流程。
图2:NHN公司的推荐的Java应用优化过程
上图中的 选择JVM(Select JVM) 是说通常32位JVM就足够了,除非你需要使用JVM维护几个GB的缓存数据。
好了,基于 图 2 中的流程,你将开始学到处理每一步中所需应对的事情。
JVM选项
我将主要介绍如何为Web应用服务器设置合适的JVM参数。尽管不能穷尽所有案例,但 最优的GC算法,尤其针对Web应用,通常是CMS GC,这主要是因为Web应用的低延迟要求决定的。当然在使用CMS过程中,有时会遇到因为过多的内存碎片导致的较长时间的stop-the-world现象发生。不过这个问题可以通过调整新生代大小或者碎片比例进行优化。
设置 新生代大小 和设置 整个堆大小 一样重要。最好通过 -XX:NewRatio 参数设置新生代空间与整个堆空间的大小比例,或者通过 -XX:NewSize 来单独设置期望的新生代空间。设置新生代空间的重要性是因为大多数对象的存活时间很短。在Web应用中,除了缓存之外的大多数对象,是在与 HttpRequest 相应的 HttpResponse 创建的时候产生的,而这个过程很少会超过1秒,也就是说其中的对象的生命周期也不会超过1秒。如果新生代空间设置不够大,当需要创建新对象时,旧的对象就需要移到老年代。老年代的GC开销却比新生代GC开销大得多,因此设置恰当的新生代空间是十分重要的。
尽管如此,如果新生代空间超过一定比例,系统的影响速度将会降低。因为新生代垃圾回收的基本过程就把对象从一个存活区(Survivor area)复制到另外一个存活区。所以像老年代一样,在新生代执行GC过程中也同样会发生stop-the-world现象。如果新生代设置变大,存活区的空间相应也会增加,结果就是需要复制的数据空间将增加。基于这些特点,根据操作系统不同,通过 NewRatio 选项为HotSpot JVM设置合适的新生代空间是很有必要的。
表2: 不同操作系统与JVM选项的NewRatio默认值
OS and option | Default -XX:NewRatio |
---|---|
Sparc -server | 2 |
Sparc -client | 8 |
x86 -server | 8 |
x86 -client | 12 |
如果设置了 NewRatio ,则将有 1/(NewRatio + 1) 的堆空间属于新生代。你会发现上表中 Sparc -server 的 NewRatio 的值非常小,因为当使用上面的默认值时,Sparc系统是用在比 x86更高端的场景中。因为x86性能的提升,目前使用x86 server也变得更为常见,像 Sparc -server 一样设置 NewRatio 的值为2或3也更为合理。
除此之外,你也可以使用 NewSize 和 MaxNewSize 作为 NewRatio 的替代使用。新生代空间初始大小由 NewSize 设定,并且随着内存消耗,新生代空间最大可扩展到 MaxNewSize 的大小。随着 NewRatio 的变化,Eden和Survivor区域的大小也在发生变化。正如通过相同 -Xms 和 -Xmx 为堆空间设置固定值,为新生代设置相同的 MaxSize 和 MaxNewSize 也是一个不错的选择。
如果同时设置了 NewRatio 和 NewSize ,其中较大的值会起作用。所以当一个堆空间创建之后,就可以通过如下公式计算初始新生代空间的大小:
min(MaxNewSize, max(NewSize, heap/(NewRatio + 1)))
不过在优化过程中,无乎不可能一下子就为堆大小和新生代大小找到了恰当的值。基于我在NHN运行Web应用程序的经验,我推荐在启动Java应用时使用如下JVM选项。在经过对这些选项的性能监控结果分析之后,你会找到更合适的GC算法或选项。
表3:推荐的JVM选项
选项类型 | 选项 |
---|---|
运行模式 | -server |
堆大小 | 指定相同的 -Xms 和 -Xmx |
新生代大小 | -XX:NewRatio : 取值在2-4之间 |
-XX:NewSize=? , -XX:MaxNewSize=? 。使用 NewSize 替代 NewRatio 也是不错的选择 | |
永久代大小 | -XX:PermSize = 256m -XX:MaxPermSize=256m 把永久代大小设置为一个运行时不会出错的大小,因为它并不影响系统的性能 |
GC 日志 | -Xloggc:$CATALANA_HOME/logs/gc.log -XX:+PrintGCDetails -XX:+PrintGCDateStamps 。输出GC日志并不明显影响应用性能,因此推荐保留详细的GC日志信息。 |
GC 算法 | -XX:+UseParNewGC -XX:+CMSParallelRemarkEnabled -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=75 。这只是一个推荐的通用配置。根据应用特点不同,其他配置也许更优。 |
OOM发生时输出堆dump | -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=$CATALINA_HOME/logs |
OOM发生后的执行动作 | -XX:OnOutOfMemoryError=$CATALINA_HOME/bin/stop.sh 或者 -XX:OnOutOfMemoryError=$CATALINA_HOME/bin/restart.sh 。OOM之后除了保留堆dump外,根据管理策略选择合适的运行脚本。 |
衡量应用的性能
需要获取能反映应用性能的几个关键信息如下:
- TPS(OPS):这个信息用于从概念上理解应用的性能。
- Request Per Second(RPS):严格来说,RPS并不同于响应速度,但你可以把它理解为响应速度。通过RPS,你可以检查用户获取请求结果所耗费的时间。
- RPS 标准偏差(RPS Standard Deviation):如果有可以,尽量保持RPS的稳定。如果出现偏差,则需要检查是否需要做GC优化或者是否有内部系统问题。
为了获取尽可能精确的性能结果,首先要对应用进行充分的预热,待稳定之后再开始性能测量,因为这时字节码已被HotSpot JIT进行了编译。通常,在使用nGrinder工具做负载测试时,至少要等系统达到某个负载水平10分钟后再测量系统的实际性能。
在关键点上做优化
如果nGrinder的测试结果满足预期,那就不需要对应用进行优化。如果性能逊于预期,则需要开始优化以解决问题。下面通过具体案例来看性能优化的方法。
Stop-the-World耗时过长
长时间的 stop-the-world 通常是由于使用了不恰当的GC选项或者不正确的应用实现所致。通常可以通过分析工具(profiler)或者堆dump的结果判断导致 stop-the-world 的原因。也就是说可以通过检查堆中对象的类型和数量判断问题原因。如果有过多非必须对象存在,则需要修改应用代码优化实现。如果在创建对象过程中没有明显的问题,则需要调整GC选项。
为了把GC选项调整到恰当的设置,你需要有足够长时间的GC日志,并从中找出在哪种状况下出现了stop-the-world。关于选择合适GC选项的具体细节,可参考Java 垃圾回收的监控。
CPU使用率过低
当系统发生阻塞时,TPS和CPU使用率都会降低。问题可能来自于内部交互系统或者高并发。分析这种场景,可以对线程dump的结果进行分析或者使用分析工具(profiler)。线程dump的分析方法可以参考如何分析Java线程Dumps
使用一些商业分析工具(profiler),你可以得到非常具体的锁相关的分析报告。不过,大多数场景只需要使用jvisualvm中的CPU分析器就可以获得满意的结果。
CPU使用率过高
如果TPS很低,但CPU使用率却非常高,就通常由于低效率的代码实现所致。这种场景,也需要通过使用分析器找到瓶颈的位置。可用的分析工具有 jvisuavm ,Eclipse的 TPTP 或者使用 JProbe 。
优化的途径
关于应用优化的一些建议途径如下:
首先,判断是否有必要做性能优化。衡量系统的性能并非易事,任何时候都不能保证你能得到满意的结果。所以如果应用已经达到了期望的目标性能,就没必要投入精力做额外的优化。
问题就在那里,你需要做的是解决它。 Pareto 法则 同样适用于性能优化。这并不是说一个特定的低性能表现只来源于一个问题,相反,在性能优化过程中,更应该把精力投入到对性能影响最大的那一点上。所以,当解决了最严重的问题后,就可以接着处理其他问题。不过建议是每次只着重解决一个问题。
你可能想到了 气球效应 。为了实现一个目标,你需要决定放弃哪些。你可以通过使用缓存来提高响应速度,然而随着缓存的增加,其Full GC所需耗时也将增加。一般来说,如果你想维持少量的内存使用,系统的呑吐量和响应时间将会受到影响。所以,你要清楚哪些是最重要的,哪些微不足道的。
到目前为止,你已经了解了Java应用性能优化的方法。为了介绍衡量性能的具体过程,我忽略了一些细节。尽管如此,我想本文已足够应对Java Web应用的大多数优化场景。
作者:Se Hoon Park,网络平台开发实验室高级软件工程师,NHN公司
Java GC 专家系列5:Java应用性能优化的原则的更多相关文章
- Java GC专家系列4:Apache的MaxClients设置及其对Tomcat Full GC的影响
本文是GC专家系列中的第四篇.在第一篇理解Java垃圾回收中我们学习了几种不同的GC算法的处理过程,GC的工作方式,新生代与老年代的区别.所以,你应该已经了解了JDK 7中的5种GC类型,以及每种GC ...
- Java GC专家系列2:Java 垃圾回收的监控
这是”成为GC专家系列”文章的第二篇.在第一篇理解Java垃圾回收中我们学习了几种不同的GC算法的处理过程,GC的工作方式,新生代与老年代的区别.到目前为止,你应该已经了解了JDK 7中的5种GC类型 ...
- Java GC 专家系列3:GC调优实践
本篇是”GC专家系列“的第三篇.在第一篇理解Java垃圾回收中我们学习了几种不同的GC算法的处理过程,GC的工作方式,新生代与老年代的区别.所以,你应该已经了解了JDK 7中的5种GC类型,以及每种G ...
- Java GC专家系列1:理解Java垃圾回收
了解Java的垃圾回收(GC)原理能给我们带来什么好处?对于软件工程师来说,满足技术好奇心可算是一个,但重要的是理解GC能帮忙我们更好的编写Java应用程序. 上面是我个人的主观的看法,但我相信熟练掌 ...
- 成为JAVA GC专家系列
http://www.360doc.com/content/13/0305/10/15643_269387617.shtmlhttp://www.360doc.com/content/13/0305/ ...
- [译]GC专家系列2:Java 垃圾回收的监控
原文链接:http://www.cubrid.org/blog/dev-platform/how-to-monitor-java-garbage-collection/ 这是"成为GC专家系 ...
- [译]GC专家系列1: 理解Java垃圾回收
原文链接:http://www.cubrid.org/blog/dev-platform/understanding-java-garbage-collection/ 了解Java的垃圾回收(GC)原 ...
- Java并发编程系列-(6) Java线程池
6. 线程池 6.1 基本概念 在web开发中,服务器需要接受并处理请求,所以会为一个请求来分配一个线程来进行处理.如果每次请求都新创建一个线程的话实现起来非常简便,但是存在一个问题:如果并发的请求数 ...
- Java总结篇系列:Java String
String作为Java中最常用的引用类型,相对来说基本上都比较熟悉,无论在平时的编码过程中还是在笔试面试中,String都很受到青睐,然而,在使用String过程中,又有较多需要注意的细节之处. 1 ...
随机推荐
- 浏览器兼容问题----Firefox不兼容event的解决方法
一.event.srcElement:当前事件的源: 在IE下,event对象有srcElement属性,但是没有target属性;Firefox下,event对象有target属性,但是没有srcE ...
- Object-C — KVC
1:使用kvc存取对象属性 如果要更改对象属性可以通过什么方法达到呢? (1)通过setter和getter方法. (2)属性. (3)直接设置实例变量. 今天学习新的一种方法:键值编码-kvc.通过 ...
- struts2 测试错题解析
解析:$.parseJSON()方法是将字符串转换成Json类型数据,$.getJSON()方法是获取JSON数据,两者不用联合使用. 解析: A:ActionContext接口没有getReques ...
- Mysql 操作手册
mysql操作手册 版本:5.6.16mysql linux安装基本步骤:#rpm -e --nodeps mysql-lib-5.1.*#rpm -ivh mysql-server#rpm -ivh ...
- c语言的数组指针与指针数组
1. 数组指针:指向数组的指针是数组指针 先看下面一段代码: #include <stdio.h> int main(void) { int m[10]; printf("m = ...
- [Machine Learning] Probabilistic Graphical Models:二、Bayes Network Fundamentals(1、Semantics & Factorization)
一.How to construct the dependency? 1.首字母即随机变量名称 2.I->G是更加复杂的模型,但Bayes里不考虑,因为Bayes只是无环图. 3.CPD = c ...
- 异步调用backgroudworker
先看一个小例子:C#客户端打开一个控件,控件中加载了好多数据大约要用5秒中,如果我们直接打开控件,那么这个控件就要5秒中才能弹出来,当然这个时候用户已经把他Kill了.这个时候我们就需要先给用户把控件 ...
- PHP页面静态化入门
<?php /** *PHP页面静态化分为以下步骤: *1.打开输出控制缓存 *2.返回输出缓存区的内容 *3.将一个字符串写入文件 *4.冲刷出缓存区的内容 */ //1.打开输出控制缓存 o ...
- 将VIM配置成强大的IDE(二)
将VIM配置成强大的IDE(二) 前面我们已经安装好了vundle这一款强大的插件管理工具. 下面,当然是配置我们需要的插件了. 在VIM下面通过命令 help vundle 我们可以知道,VUNDL ...
- Android Handler、Lopper消息驱动机制
Android应用程序是通过消息来驱动的,系统为每一个应用程序维护一个消息队例(MesageQueue),应用程序的主线程不断地从这个消息队例中获取消息(Mesage),然后对这些消息进行处理(Han ...