最近在用Spark MLlib进行特征处理时,对于StringIndexer和IndexToString遇到了点问题,查阅官方文档也没有解决疑惑.无奈之下翻看源码才明白其中一二...这就给大家娓娓道来. 更多内容参考我的大数据学习之路 文档说明 StringIndexer 字符串转索引 StringIndexer可以把字符串的列按照出现频率进行排序,出现次数最高的对应的Index为0.比如下面的列表进行StringIndexer id category 0 a 1 b 2 c 3 a 4 a 5…