前言 最近由于工作需要,要分析大几百G的Nginx日志数据.之前也有过类似的需求,但那个时候数据量不多.一次只有几百兆,或者几个G.因为数据都在Hive里面,当时的做法是:把数据从Hive导到MySQL,然后写代码查询MySQL并处理.如果你的处理逻辑比较简单,或只是查询统计,不会设计上游的服务调用,也可以直接写Hive SQL. 上面的做法在面对少量数据时还可以应付,对于大量数据就很不可取了.从Hive导数据到MySQL,光这一步就够呛,就更别说自己写的Java脚本效率性能如何了.请教同事过后…