Python的数据处理学习(二)

本文参考Paul Barry所著的《Head First Python》一书,参考代码均可由http://python.itcarlow.ie/站点下载。本文若有任何谬误希望不吝赐教~

二. 代码模块

1. 准备学习

(1)数据读取

with open(james.txt) as jaf: #打开文件

data = jaf.readline() #读数据行

james =data.strip().split(',') #将数据转换为列表

说明：data.strip().split(',')叫做方法串链，strip()应用到data中的数据行，去除字符串中所有的空白符，处理后的结果由第二个方法split(',')处理，split(',')表示将结果以,形式分割开，返回列表。

(2)数据清理

定义函数sanitize()，将各个选手成绩的列表格式统一为mins.secs格式

def sanitize(time_string):

if '-' in time_string:

splitter = '-'

if ':' in time_string:

splitter = ':'

else:

return(time_string)

(mins,secs) = time_string.split(splitter)

return(mins + '.' + secs)

说明：split是内置函数，表示字符串的分解

(3) 转换列表---推导列表

分别举例普通列表转换方法与利用推导列表的方式：

clean_mikey = [] #列表创建

for each_t in mikey: #迭代

clean_mikey.append(sanitize(each_t)) #转换与追加

等价于

clean_mikey = [sanitize(each_t) for each_t in mikey]

说明：sanitize()为自定义的一个数据清理函数,内置函数sorted是对整个列表排序

(4) 删除重复数据--not in

列表操作方法：

unique_james = []

for each_t in james:

if each_t not in unique_james:

unique_james.append(each_t)

集合操作方法：(python集合突出特点，就是集合中数据项的无序性，且不允许重复)

示例：

distances = set(james)

(5)“分片”，访问列表中多个列表项

print(sorted(set([sanitize(t)] for t in james]))[0:3])

(6)将多个重复代码改为函数

def get_coach_data(filename):

try:

with open(filename) as af:

return(data.strip().split(','))

except IOError as ioerr:

print('File error:' + str(ioerr))

return(None)

2. 定制数据对象

(1)新数据格式,James2.txt,Julie2.txt,Mikey2.txt,Sarah2.txt，文件分别打开如下：(全名, 出生日期, 训练成绩)

James Lee,2002-3-14,2-34,3:21,2.34,2.45,3.01,2:01,2:01,3:10,2-22,2-01,2.01,2:16

Julie Jones,2002-8-17,2.59,2.11,2:11,2:23,3-10,2-23,3:10,3.21,3-21,3.01,3.02,2:59

Sarah Sweeney,2002-6-17,2:58,2.58,2:39,2-25,2-55,2:54,2.18,2:55,2:55,2:22,2-21,2.22

Mikey McManus,2002-2-24,2:22,3.01,3:01,3.02,3:02,3.02,3:22,2.49,2:38,2:40,2.22,2-31

(2)数据抽取：(以Sarah为例)

Sarah = get_coach_data('sarah2.txt')

(sarah_name,sarah_dob) = sarah.pop(0),sarah.pop(0)

pop(0)调用将删除并返回列表最前面的数据项，并赋值给指定变量姓名和出生日期

(3)使用字典关联数据，字典是一种内置的数据结构，允许将数据和键而不是数字关联，这样可以使内存中的数据与实际数据的结构保持一致。

比如，键关联的数据

Name ——> Sarah Sweeney

DOB ——> 2002-6-17

Times ——> 2:58,2.58,2:39,2-25,2-55,2:54,2.18,2:55,2:55,2:22,2-21,2.22

创建字典的方式：

大括号创建：cleese = {}

工厂函数： palin = dict()

增加数据两种方式：

cleese['Name'] = 'John Cleese'

palin = {'Name': 'Michael Palin'}

(4)应用：

sarah_data = {}

sarah_data['Name'] = sarah.pop(0)

sarah_data['DOB'] = sarah.pop(0)

sarah_data['Times'] = sarah

print(sarah_data['Name' + "'s fastest times are: " + str(sorted(set[sanitize(t) for t in sarah_data['Times']]))[0:3]))

(5)一次性完成字典的创建，并返回字典

def get_coach_data(filename):

try:

with open(filename) as f:

data = f.readline()

templ = data.strip().split(',')

return({'Name':templ.pop(0),

'DOB':templ.pop(0),

'Times':str(sorted(set([sanitize(t) for t in templ]))[0:3])})

except IOError as ioerr:

print('File error:' + str(ioerr))

return(None)

(6)将代码及其数据打包在类中

class Athlete:

def __init__(self,a_name,a_dob,a_times=[]):

self.name = a_name

self.dob=a_dob

self.times=a_times

def top3(self):

return(sorted(set([sanitize(t) for t in self.times]))[0:3])

def get_coach_data(filename):

try:

with open(filename) as f:

data = f.readline()

templ = data.strip().split(',')

return(Athlete(templ.pop(0),templ.pop(0),templ)

except IOError as ioerr:

print('File error:' + str(ioerr))

return(None)

(7)类调用与结果输出

james = get_coach_data('james2.txt')

结果输出:

James Lee's fastest times are: ['2.01','2.16','2.22']

下一节课讲类的继承

Python的数据处理学习(二)的更多相关文章

Python入门基础学习二
Python入门基础学习二猜数字小游戏进阶版修改建议: 猜错的时候程序可以给出提示,告诉用户猜测的数字偏大还是偏小: 没运行一次程序只能猜测一次,应该提供多次机会给用户猜测: 每次运行程序,答案 ...
Python的数据处理学习(三)
三.类的继承 Python 的class可以允许从零开始创建一个定制类,就像文章(二)创建Athlete类一样,也可以通过继承现有的其他类类创建一个类,这也包括用List.set和dict提供的p ...
python flask框架学习(二)——第一个flask程序
第一个flask程序学习自:知了课堂Python Flask框架——全栈开发 1.用pycharm新建一个flask项目 2.运行程序 from flask import Flask # 创建一个F ...
Python - 3.6 学习二
Python 的高级特性切片对于指定索引范围取值的操作,Python提供了slice方法,类似于Excel中数据透视表的切片器. >>> L = ['Michael', 'Sar ...
python数据处理技巧二
python数据处理技巧二(掌控时间) 首先简单说下关于时间的介绍其中重点是时间戳的处理,时间戳是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00 ...
Python学习二：词典基础详解
作者:NiceCui 本文谢绝转载,如需转载需征得作者本人同意,谢谢. 本文链接:http://www.cnblogs.com/NiceCui/p/7862377.html 邮箱:moyi@moyib ...
python --- 字符编码学习小结(二)
距离上一篇的python --- 字符编码学习小结(一)已经过去2年了,2年的时间里,确实也遇到了各种各样的字符编码问题,也能解决,但是每次都是把所有的方法都试一遍,然后终于正常.这种方法显然是不科学 ...
Python基础学习二
Python基础学习二 1.编码 utf-8编码:自动将英文保存为1个字符,中文3个字符.ASCll编码被囊括在内. unicode:将所有字符保存为2给字符,容纳了世界上所有的编码. 2.字符串内置 ...
python 数据处理学习pandas之DataFrame
请原谅没有一次写完,本文是自己学习过程中的记录,完善pandas的学习知识,对于现有网上资料的缺少和利用python进行数据分析这本书部分知识的过时,只好以记录的形势来写这篇文章.最如果后续工作定下来 ...

随机推荐

C# 读取指定URL的内容
#region 读取指定URL的内容 /// <summary> /// 读取指定URL的内容 /// </summary> /// <param name=" ...
svn版本库包含多个项目 ; git svn clone; 某一个子项目，有多个分支；
情况描述: 公司的svn版本库,包含了多个项目,每个项目对应于1个文件夹假设版本库名字为Main,其下的项目用 A项目,对应文件夹A B项目,对应文件夹B 通过git svn clone获取了svn ...
pl/sql programming 02 创建并运行plsql代码
/* * chap 02 * ------------------------------------------------- */ create or replace function wordc ...
最全的PHP常用函数大全
PHP的一些常用函数 quotemeta() 函数在字符串中某些预定义的字符前添加反斜杠. quoted_printable_decode() 函数对经过 quoted-printable 编码后的字 ...
跨平台的神器RAD XE5 来啦！！！！ XE5破解
什么叫真正的跨平台,DELPHI经过这么长时间的洗礼,如今走上了夸平台的开发之路.希望RAD加油! 先去下一个XE5 再去下一个破解神器一个破解BDS.exe的神器开始吧.为了成功破解,请先将电脑 ...
Qt之国际化
简介 Qt国际化属于Qt高级中的一部分,本想着放到后面来说,上节刚好介绍了Qt Linguist,趁热打铁就一起了解下. 对于绝大多数的应用程序,在刚启动时,需要加载默认的语言(或最后一次设置的语言) ...
USACO全部测试数据
链接:http://share.weiyun.com/8c37d26066ee9e63147d2af983f24290 密码:YyGL 请使用2345好压解压.
over-fitting、under-fitting 与 regularization
机器学习中一个重要的话题便是模型的泛化能力,泛化能力强的模型才是好模型,对于训练好的模型,若在训练集表现差,不必说在测试集表现同样会很差,这可能是欠拟合导致:若模型在训练集表现非常好,却在测试集上差强 ...
HttpWebRequest模拟c#网站登录
用户名密码模拟登录asp.net开发的网站关心两个问题:通过控件属性获取数据.响应事件. 上面是一个普通的asp.net表单.输入用户名.密码后,点击按钮将会进入各自绑定的后台函数,而不仅仅是 ...
Servlet容器的启动(Tomcat为例)
一.容器简介在tomcat容器等级中,context容器直接管理servlet在容器中的包装类Wrapper,所以Context容器如何运行将直接影响servlet的工作方式. tomcat容器模型 ...

Python的数据处理学习(二)

Python的数据处理学习(二)的更多相关文章

随机推荐

热门专题