上一篇博客介绍了文本离散表示的one-hot.TF-IDF和n-gram方法,在这篇文章里,我做了一个对新闻文本进行one-hot编码的小实践. 文本的one-hot相对而言比较简单,我用了两种方法,一种是自己造轮子,第二种是用深度学习框架keras来做.同时,我发现尽管sklearn可以实现对特征向量的one-hot,但并不适用于文本的处理. 代码和新闻文本文件可到我github主页下载:https://github.com/DengYangyong/one_hot_distribution.…