最近准备重新研究一下推荐系统的东西,用到的数据集是Audioscrobbler音乐数据集.我用python处理数据集中artist_data.txt这个文件的时候,先读取每一行然后进行处理: with open('artist_data.txt','r')as f: for line in f: process(line)#对每行进行的具体处理 但是我发现每次都处理一部分数据就停止了,也就是本来有一百多万行数据结果只处理了八千多行.我定位到了处理结束的那一行,发现数据有一个用 SUB 标记的乱码
Python读取txt文件,有两种方式: (1)逐行读取 data=open("data.txt") line=data.readline() while line: print line line=data.readline() (2)一次全部读入内存 data=open("data.txt") for line in data.readlines(): print line