1:为什么大批量数据集写入Hbase中,需要使用bulkload BulkLoad不会写WAL,也不会产生flush以及split. 如果我们大量调用PUT接口插入数据,可能会导致大量的GC操作.除了影响性能之外,严重时甚至可能会对HBase节点的稳定性造成影响.但是采用BulkLoad就不会有这个顾虑. 过程中没有大量的接口调用消耗性能 可以利用spark 强大的计算能力 上面是一个总的执行流程图, 数据生成,HFile转换以及HFile加载, 下面是HFile 的格式, 就是个key val…