中文文字预处理流程 文本处理 读取+去除特殊符号 按照字段长度排序 辅助数据结构生成 生成 {字符:出现次数} 字典 生成按出现次数排序好的字符list 生成 {字符:序号} 字典 生成序号list 文本预处理生成字典是需要去重的,一般的思路是使用set数据结构来达成,不过这里使用的是collection.Counter,可以去重还能计数 这里的文本以全唐诗为例,一般一行为1首,目的是去掉作者,生成为“[诗主体]”的格式作为RNN输入,为了保证等长,引入字符“_”在后续处理中为长度不够的诗句补齐…