假设你有上百G的数据,你要统计出这些数据中,含有某些你感兴趣的内容的数据的有多少条,你会怎么做?在硬件条件允许的情况下,用hadoop并行计算是一个不错的选择. 为了使本文得以清晰地说明,我们不妨假设如下的情况: 我们有100G的数据,分别保存在5个文件中,它们位于 /data/ 目录下.这5个数据文件的内容均为相同的格式,即,文件的内容大致如下: ABCDSDFKJDKF kkk 2890876 SDKFJIEORUEW nnn 1231238 LSFKDFSSDRDE bbb 9234999…