shuffle优化之减少shuffle数据量 1.谓词下推 hive.optimize.ppd ,默认为true. 所谓谓词下推就是过滤条件如果写在shuffle操作后面,就提前过滤掉,减少参与shuffle的数据量 如 select * from a join b on a.id=b.id where a.age>10 ,这里执行计划会优先执行 a.age>10 再执行 a join b ,是一种自动优化 但是如下sql就无法自动优化 select * from a join b on…
GC调优(Tuning Garbage Collection)和其他性能调优是同样的原理.初学者可能会被 200 多个 GC参数弄得一头雾水, 然后随便调整几个来试试结果,又或者修改几行代码来测试.其实只要参照下面的步骤,就能保证你的调优方向正确: 列出性能调优指标(State your performance goals) 执行测试(Run tests) 检查结果(Measure the results) 与目标进行对比(Compare the results with the goals)…