IBM在spark summit上分享的内容,包括编译spark源码,运行spark时候常见问题(缺包.OOM.GC问题.hdfs数据分布不均匀等),spark任务堆/thread dump 目录 编译spark的问题 1.正确配置相关环境,如Maven,JRE 2.显示指定你要集成的功能 3.编译速度比较慢的话,可以根据自己的环境设置多core提高速度 spark运行时遇到的问题 1.在不清楚spark某些配置时候,可以在spark-submit时候使用--verbose打印出当前环境具体信息…