本篇blog是利用Python进行文章特征提取的续篇,主要介绍构建带TF-IDF权重的文章特征向量. In [1]: # 带TF-IDF权重的扩展词库 # 在第一篇文档里 主要是利用词库模型简单判断单词是否在文档中出现.然而与单词的顺序.频率无关.然后词的频率对文档更有意义.因此本文将词频加入特征向量 In [2]: # 1.计算单词在文档中的频率 from sklearn.feature_extraction.text import CountVectorizer In [5]: docume