Spark Java API 之 CountVectorizer 由于在Spark中文本处理与分析的一些机器学习算法的输入并不是文本数据,而是数值型向量.因此,需要进行转换.而将文本数据转换成数值型的向量有很多种方法,CountVectorizer是其中之一. A CountVectorizer converts a collection of text documents into a vector representing the word count of text documents.…