一,文本挖掘 1.1,什么是文本挖掘 文本挖掘是指从大量文本数据中抽取事先未知的,可理解的,最终可用的知识的过程,同时运用这些知识更好的组织信息以便将来参考 1.2,文本挖掘基本流程 收集数据 数据集.如果是已经被人做成数据集了,这就省去了很多麻烦事 抓取.这个是 Python 做得最好的事情,优秀的包有很多,比如 scrapy,beautifulsoup等等. 预处理(对这里的高质量讨论结果的修改,下面的顺序仅限英文) 去掉抓来的数据中不需要的部分,比如 HTML TAG,只保留文本.结合 b