最近有个需求,计算用户画像. 系统大概有800W的用户量,算每个用户的一些数据. 数据量比较大,算用hive还是毫无压力的,但是写的oracle,在给出数据给前端,就比较难受了. 然后换了种解决方法: 1.hive计算,写的HDFS 2.API读出来,写到hbase(hdfs和hbase的版本不匹配,没办法用sqoop 直接导) 然后问题就来了. 需要写个API,读HDFS上的文件. 主要类:ReadHDFS public class ReadHDFS { public static void…