最近上线一个hadoop离线处理项目,因为在低配置(8G,4核)的时候装的CDH,后来集群配置(64G,16核)上来了,但许多参数不会自动修改,需要自己调整,处理过程中遇到的配置问题记录下. 1.hive 跑任务的时候发现reduce任务个数特别多,后来发现这个参数被改成64M了,改成1G就好了. hadoop推测的reduce个数基本上是用输入数据的大小除以这个参数得出来的. set hive.exec.reducers.bytes.per.reducer=1G 2.yan 每个map,red…