直接从特征提取,跳到了BoostSVM,是因为自己一直在写程序,分析垃圾文本,和思考文本分类用于识别垃圾文本的短处.自己学习文本分类就是为了识别垃圾文本. 中间的博客待自己研究透彻后再补上吧. 因为获取垃圾文本的时候,发现垃圾文本不是简单的垃圾文本,它们具有多个特性: 1. 种类繁多,难有共同的特征.涵盖各行各业的广告,或者政治敏感内容,或者色情信息.不像对文本分类那样,属于一类的文本,他们的内容都属于那个领域之内,特征提取就很方便 2. 具有一定的伪装性,表面上看80%的内容都属于正常,只有2