做文本分类等问题的时,需要从大量语料中提取特征,并将这些文本特征变换为数值特征.常用的有词袋模型和TF-IDF 模型 1.词袋模型 词袋模型是最原始的一类特征集,忽略掉了文本的语法和语序,用一组无序的单词序列来表达一段文字或者一个文档.可以这样理解,把整个文档集的所有出现的词都丢进袋子里面,然后无序的排出来(去掉重复的).对每一个文档,按照词语出现的次数来表示文档. 句子1:我/有/一个/苹果 句子2:我/明天/去/一个/地方 把所有词丢进一个袋子:我,有,一个,苹果,明天,去,地方. 现在我们