最近参加比赛,写了一个垃圾短信识别器,在这里做一下记录. 官方提供的数据是csv文件,其中训练集有80万条数据,测试集有20万条数据,训练集的格式为:行号 标记(0为普通短信,1为垃圾短信) 短信内容:测试集的格式为: 行号 短信内容:要求输出的数据格式要求为: 行号 标记,以csv格式保存. 实现的原理可概括为以下几步: 1.读取文件,输入数据 2.对数据进行分割,将每一行数据分成行号.标记.短信内容.由于短信内容中可能存在空格,故不能简单地用split()分割字符串,应该用正则表达式模块re