1题目要求:

  文本文件有这些数据,需要的只有其中的5个属性,如下颜色标记

  像以下的数据达到75万组:

1product/productId: B0000UIXZ4
2product/title: Timex Link USB Watch
3product/price: unknown
4review/userId: A14MVG2I9PS6NZ
5review/profileName: B. Kuiper "Wah"
6review/helpfulness: 0/0
7review/score: 5.0
8review/time: 1275091200
9review/summary: Best geek weapon ever...but no longer made?
10review/text: This watch serves as my brain and now, my brain is no lo

2基于Python进行粗略读取

  代码如下:没有对输出进行处理,只是简单筛选

  fo.write();写入文件的的时候注意的地方:3.X与2.X的写入文件的类型不同

写入错误:
TypeError: a bytes-like object is required, not 'str'
-------------------------------------------------------------
btest.decode('utf-8') #结果'abcde'
strtest.encode('utf-8') #结果b'abc'

  

need = ['product/productId:','product/price:','review/helpfulness:','review/score:','review/time:']
fo = open("C:\\Users\\Five\\Desktop\\新建文件夹\\python2.txt", "wb")
for line in open("C:\\Users\\Five\\Desktop\\新建文件夹\\Watches.txt"):
flag = 0;
for i in range(0,5):
if line.find(need[i])==0:flag =1;break;
if flag==1:fo.write((line+' ').encode('utf-8'));
fo.close();

  读取文件的方式有以下:

f = open("foo.txt")             # 返回一个文件对象
line = f.readline() # 调用文件的 readline()方法
while line:
....
line = f.readline()
----------------------------------------------------
for line in open("foo.txt"):
----------------------------------------------------
f = open("c:\\1.txt","r")
lines = f.readlines()#读取全部内容
for line in lines
print line

3基于C语言的详细读取

  读取并处理的结果如下:

  预备知识读取的方式

  fp=fopen("python.txt","r");
fscanf(fp,"%s",&s);
printf("%s\n",s);
里面是按空格分开来读取的。
下面是按行读取的
--------------------------------------
fgets(s,1028*8,fp);
fgets(s,1028*8,fp)读取的长度比=实际+1(换行符分界)
printf("%s",s);
----------------------------------------
fscanf(fp,"%[^\n]",&s);
-------------------------------

  打开方式详细如下:

对于文件使用方式有以下几点说明:
1) 文件使用方式由r,w,a,t,b,+六个字符拼成,各字符的含义是:
r(read): 读
w(write): 写
a(append): 追加
t(text): 文本文件,可省略不写
b(banary): 二进制文件
+: 读和写
意义
“rt” 只读打开一个文本文件,只允许读数据
“wt” 只写打开或建立一个文本文件,只允许写数据
“at” 追加打开一个文本文件,并在文件末尾写数据
“rb” 只读打开一个二进制文件,只允许读数据
“wb” 只写打开或建立一个二进制文件,只允许写数据
“ab” 追加打开一个二进制文件,并在文件末尾写数据
“rt+” 读写打开一个文本文件,允许读和写
“wt+” 读写打开或建立一个文本文件,允许读写
“at+” 读写打开一个文本文件,允许读,或在文件末追加数据
“rb+” 读写打开一个二进制文件,允许读和写
“wb+” 读写打开或建立一个二进制文件,允许读和写
“ab+” 读写打开一个二进制文件,允许读,或在文件末追加数据

  处理的结果:(对于product/price: unknown 这一类未知的置为0处理)

B000NLZ4A2 0 0/0 4.0 1260230400
B000NLZ4A2 0 0/0 4.0 1216339200
B000NLZ4A2 0 1/2 5.0 1245024000
B000AIO6RA 0 3/3 5.0 1122422400
B000AIO6RA 0 0/0 4.0 1207958400
B000NLZ4AM 0 2/2 4.0 1250208000
B000NLZ4AM 0 2/2 5.0 1244764800
B000NLZ4AM 0 2/2 5.0 1243296000
B000NLZ4AM 0 1/1 4.0 1235952000
B000NLZ4AM 0 0/0 5.0 1236816000
B000F70V0M 0 1/1 5.0 1189468800
B000F70V0M 0 0/0 4.0 1244678400
B000F70V0M 0 0/0 5.0 1204502400
B000F70V0M 0 0/0 5.0 1201478400
......
......
......以上只是一部分数据

  详细代码如下:

#include<stdio.h>
#include<string.h>
void getValue(char s[],char temp[]){
int end = strlen(s);
int start =0;
int i =0,j=-1;
char c;
for(i=end-2;s[i]!=' ';i--){
temp[++j]= s[i];
}
// printf("\n");
temp[j+1]='\0';
for(i=0;i<=j;){
c=temp[i];
temp[i]=temp[j];
temp[j]=c;
i++;j--;
}
}
int main(){
FILE *fr,*fw;
int data,count;
long int sum=0;
char s[100000];//读取一行数据
char temp[20];//截取空格后面的Value
char s1[20],s2[20],s3[20],s4[20],s5[20];//需要的5个属性Value
char unknow[]="unknown";
char zero[]="0";
fr=fopen("Watches.txt","r");
fw=fopen("p.txt","wt");
count=1;
while(fgets(s,1028*80,fr)!=NULL){
// printf("%s",s);
if(count!=11)
getValue(s,temp);
if(count==1)
strcpy(s1,temp);
else if(count==3){
strcpy(s2,temp);
if(strcmp(s2,unknow)==0)
strcpy(s2,zero); }
else if(count==6)
strcpy(s3,temp);
else if(count==7)
strcpy(s4,temp);
else if(count==8)
strcpy(s5,temp);
if(count==11){ fprintf(fw,"%s %s %s %s %s\n",s1,s2,s3,s4,s5);
count=0;
}
sum++;
count++;
fflush(fw);
printf("%ld\n",sum);
}
printf("%ld",sum);
fclose(fw);
printf("press any key to end!\n");
getchar();
return 0;
}

  

  

Python读取文件数据的更多相关文章

  1. python操作txt文件中数据教程[3]-python读取文件夹中所有txt文件并将数据转为csv文件

    python操作txt文件中数据教程[3]-python读取文件夹中所有txt文件并将数据转为csv文件 觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文献 python操作txt文件中 ...

  2. Windows下Python读取GRIB数据

    之前写了一篇<基于Python的GRIB数据可视化>的文章,好多博友在评论里问我Windows系统下如何读取GRIB数据,在这里我做一下说明. 一.在Windows下Python为什么无法 ...

  3. Python读取JSON数据,并解决字符集不匹配问题

    今天来谈一谈Python解析JSON数据,并写入到本地文件的一个小例子. – 思路如下 从一个返回JSON天气数据的网站获取到目标JSON数据串 使用Python解析出需要的部分 写入到本地文件,供其 ...

  4. python 读取文件read.csv报错 OSError: Initializing from file failed

    小编在用python 读取文件read.csv的时候 报了一个错误 OSError: Initializing from file failed 初始化 文件失败 检查了文件路径,没问题 那应该是我文 ...

  5. python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multib

    python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multib ...

  6. python 读取excel数据并将测试结果填入Excel

    python 读取excel数据并将测试结果填入Excel 读取一个Excel中的一条数据用例,请求接口,然后返回结果并反填到excel中.过程中会生成请求回来的文本,当然还会生成一个xml文件.具体 ...

  7. python读取文件首行和最后一行

    python读取文件最后一行两种方式 1)常规方法:从前往后依次读取 步骤:open打开文件. 读取文件,把文件所有行读入内存. 遍历所有行,提取指定行的数据. 优点:简单,方便 缺点:当文件大了以后 ...

  8. 【python】python读取文件报错UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 2: illegal multibyte sequence

    python读取文件报错UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 2: illegal multibyte ...

  9. python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multibyte sequence

    python读取文件时提示"UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal m ...

随机推荐

  1. 转:[Asp.net]常见数据导入Excel,Excel数据导入数据库解决方案,总有一款适合你!

    引言 项目中常用到将数据导入Excel,将Excel中的数据导入数据库的功能,曾经也查找过相关的内容,将曾经用过的方案总结一下. 方案一 NPOI NPOI 是 POI 项目的 .NET 版本.POI ...

  2. 阿里云域名绑定IP

    前提条件:拥有一个阿里云域名,拥有一台自己的服务器,并且知道ip,我的是nginx 1.登陆阿里云https://www.aliyun.com/ 2.选择域名与网站,会看到自己拥有的域名,比如我的是m ...

  3. MySql中LongText字段对应Hibernate映射文件的设置(转)

    <?xml version="1.0"?><!DOCTYPE hibernate-mapping PUBLIC     "-//Hibernate/Hi ...

  4. S5PV210使用的启动方式

    2017年12月25日1. S5PV210存储配置: +内置64KB NorFlash(上电不需要初始化)(叫IROM 内部外存):用于存储预先设置的BL0; + SoC内置96KB SRAM(上电不 ...

  5. Javascript中的高阶函数介绍

    高阶函数:高阶看上去就像是一种先进的编程技术的一个深奥术语,一开始我看到的时候我也这样认为的. Javascript的高阶函数 然而,高阶函数只是将函数作为参数或返回值的函数.以下面的Hello,Wo ...

  6. Mac eclipse安装SVN javaHL not available的解决方法

    在Mac下安装Eclipse插件svnEclipse插件后,每次打开Eclipse都会弹出如下弹出框: 提示你本机缺少JavaHL Library. 选择Eclipse→偏好设置(preference ...

  7. ASP.NET MVC学习---(二)EF文件结构

    之前已经简单的介绍过ORM框架和EF 也了解了EF的种种优点 那么这个EF到底长啥样子都还没见过呢 别着急 接下来,科学教育频道--走近科学 带你走进EF的内心世界~ 那么接下来就是~ 等等等等... ...

  8. dmz主机就是DNAT功能的体现

    端口映射和DMZ是提供内网和外网映射的,具体各自如下:DMZ:就相当于DNAT(Destination NAT),只对目的IP地址做地址转换.也就是说,收到目的IP为自己WAN口的包,统统转发给内网的 ...

  9. 2016.6.29 tomcat卸载后在安装出现错误:failed to install tomcat7 service

    错误如下:   错误原因: 直接删除了安装目录,而不是点击卸载(包含删除服务) 因此在此安装时,显示安装服务失败(因为已经存在了)   解决办法: (1)手动删除注册表 regedit.exe,找到H ...

  10. elasticsearch 基本用法

    最大的特点: 1. 数据库的 database, 就是  index 2. 数据库的 table,  就是 tag 3. 不要使用browser, 使用curl来进行客户端操作.  否则会出现 jav ...