kudu是cloudera在2012开始秘密研发的一款介于hdfs和hbase之间的高速分布式存储数据库.兼具了hbase的实时性.hdfs的高吞吐,以及传统数据库的sql支持.作为一款实时.离线之间的存储系统.定位和spark在计算系统中的地位非常相似.如果把mr+hdfs作为离线计算标配,storm+hbase作为实时计算标配.spark+kudu有可能成为未来最有竞争力的一种架构. 也就是kafka->spark->kudu这种架构,未来此架构是否会风靡,暂且不表.来分析下kudu的一些…