今天帮同学处理一点语料. 语料文件有点大,而且是以连续两个换行符作为段落标志,他想把它按段落分隔成多个小文件.即每3个段落组成一个新文件.因为曾经没有遇到过类似的操作,在网上找了一些类似的方法,看起来都有点复杂. 所以经尝试.自己写了一段代码.完美解决这个问题. 基本思路是,先读原文件内容,并使用正則表達式.根据\n\n进行切片处理.结果为一个列表,当中每个列表元素都存放一个切片中的内容:然后创建一个写文件的句柄:接下来遍历切片列表,并写入当前切片内容,推断是否已经写入了3个段落,假设不是,则继…