业务场景大概是这样,我需要在公司hadoop集群上对博文进行结巴分词.我的数据是存储在hive表格中的,数据量涉及到五百万用户三个月内发的所有博文. 首先对于数据来说,很简单,在hive表格中就是两列,一列代表的是uid,一列代表的是博文内容.举个例子如下: uid content 12345 今天天气真好啊 23456 中午的食物真不错啊 ... ... 对于hive表格,我在使用hadoop的时候,方法一般使用的是hive+python的形式,也就是从hive中一行行的读取数据,每一行都经过…