Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件.关系型数据库,非关系行数据库. 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使用HBase作为存储的介质是非常不错的选择. 现需求是:Spark对Hive.mysql数据源进行处理,然后将resultDataFrame写入HBase,但是HBase和Spark不在用一个环境,即结果需要通过网络IO进行二次操作.所以此篇文章会采取某些手段来实现上述要求. 将DataFrame写…