python-数据描述与分析(1)

数据描述与分析

在进行数据分析之前，我们需要做的事情是对数据有初步的了解，这个了解就涉及对行业的了解和对数据本身的敏感程度，通俗来说就是对数据的分布有大概的理解，此时我们需要工具进行数据的描述，观测数据的形状等；而后才是对数据进行建模分析，挖掘数据中隐藏的位置信息。目前在数据描述和简单分析方面做的比较好的是Pandas库。当然，它还需要结合我们之前提到的Numpy,Scipy等科学计算相关库才能发挥功效。

1.Pandas 数据结构
在进行Pandas相关介绍时我们首先需要知道的是Pandas 的两个数据结构（即对象）Series 和 DataFrame,这是Pandas的核心结构，掌握了此二者结构和属性要素，会在具体的数据处理过程中如虎添翼。

1.1 Series 简介
Series 是一种类似于以为数据的对象，它由两部分组成，第一部分是一维数据，另外一部分是与此一维数据对应的标签数据。具体如下：

import pandas as pd

centerSeries =pd.Series(["中国科学院","文献情报中心","大楼","北四环西路",])

print (centerSeries)

#output:

0     中国科学院

1    文献情报中心

2        大楼

3     北四环西路

dtype: object

因为我们没有指定它的标签数据，而python默认是通过数字排序进行标识，接下来给他添加标示数据，具体如下：

centerSeries =pd.Series(["中国科学院","文献情报中心","大楼","北四环西路",],index=["a","b","c","d"])

print (centerSeries) #index的size和Series的size必须一样长，否则报错

#output:

a     中国科学院

b    文献情报中心

c        大楼

d     北四环西路

dtype: object

对比之前的默认标识，我们可以看出它由1，2，3，4变成了a,b,c,d。接下来将解释这样标识的意义，具体如下：

import pandas as pd

centerSeries =pd.Series(["中国科学院","文献情报中心","大楼","北四环西路",],index=["a","b","c","d"])

print (centerSeries[0])  #通过一维数组进行获取数据

print (centerSeries[1])

print (centerSeries["c"])  #通过标识index获取数据

print (centerSeries["d"])

#output:

中国科学院

文献情报中心

大楼

北四环西路

另外，我们可以看到通过一维数组格式获取数据和通过index标识获取数据都可以，这样的index就像曾经学过的数据库中的id列的作用，相当于建立了每个数据的索引。当然，针对Series的操作不只限于此，还有很多需要我们自己去通过“help”查看得到的。

1.2 DataFrame 简介
DataFrame 是一个表格型的数据结构，它包含有列和行的索引，当然你也可以把它看作是由Series组织成的字典。需要说明的是，DataFrame的每一列中不需要数据类型相同，且它的数据是通过一个或者多个二维块进行存放，在了解DataFrame之前如果读者对层次化索引有所了解，那么DataFrame 可能相对容易理解，当然如果读者并不知道何谓层次化索引也没关系，举个例子：他类似于常见的excel的表格格式，可将它理解为一张excel表，具体如下：

#简单的DataFrame 制作

#字典格式的数据

data = {"name":["国科图","国科图","文献情报中心","文献情报中心"],

        "year":["2012","2013","2014","2015"],

       "local":["北四环西路","北四环西路","北四环西路","北四环西路"],

       "student":["甲","乙","丙","丁"]}

centerDF = pd.DataFrame(data)

print(centerDF)

#output:

 name  year  local student

0     国科图  2012  北四环西路       甲

1     国科图  2013  北四环西路       乙

2  文献情报中心  2014  北四环西路       丙

3  文献情报中心  2015  北四环西路       丁

#调整列的顺序

data = {"local":["北四环西路","北四环西路","北四环西路","北四环西路"],

"name":["国科图","国科图","文献情报中心","文献情报中心"],

"year":["2012","2013","2014","2015"],

"student":["甲","乙","丙","丁"]}

centerDF = pd.DataFrame(data,columns=["year","name","local","student"])

print(centerDF)

#output:

year    name  local student

0  2012     国科图  北四环西路       甲

1  2013     国科图  北四环西路       乙

2  2014  文献情报中心  北四环西路       丙

3  2015  文献情报中心  北四环西路       丁

#更改index的默认设置

data = {"name":["国科图","国科图","文献情报中心","文献情报中心"],

        "year":["2012","2013","2014","2015"],

       "local":["北四环西路","北四环西路","北四环西路","北四环西路"],

       "student":["甲","乙","丙","丁"]}

centerDF = pd.DataFrame(data,columns=["year","name","local","student"],index=["a","b","c","d"])

print(centerDF)

#output：

year    name  local student

a  2012     国科图  北四环西路       甲

b  2013     国科图  北四环西路       乙

c  2014  文献情报中心  北四环西路       丙

d  2015  文献情报中心  北四环西路       丁

既然DataFrame 是行列格式的数据，那么理所当然可以通过行、列的方式进行数据获取，按列进行数据据获取，具体如下：

data = {"name":["国科图","国科图","文献情报中心","文献情报中心"],

        "year":["2012","2013","2014","2015"],

       "local":["北四环西路","北四环西路","北四环西路","北四环西路"],

       "student":["甲","乙","丙","丁"]}

centerDF = pd.DataFrame(data,columns=["year","name","local","student"],index=["a","b","c","d"])

print (centerDF["name"])

print (centerDF["student"])

#output：

a       国科图

b       国科图

c    文献情报中心

d    文献情报中心

Name: name, dtype: object

a    甲

b    乙

c    丙

d    丁

Name: student, dtype: object

另外，可以看出按列进行获取时他们的index标识是相同的，且每一列是一个Series 对象

按行进行数据获取，其实是通过index进行操作，具体如下：

data = {"name":["国科图","国科图","文献情报中心","文献情报中心"],

        "year":["2012","2013","2014","2015"],

       "local":["北四环西路","北四环西路","北四环西路","北四环西路"],

       "student":["甲","乙","丙","丁"]}

centerDF = pd.DataFrame(data,columns=["year","name","local","student"],index=["a","b","c","d"])

print (centerDF.loc["a"])

#在使用进行DataFrame.ix进行表中的数据块选择的时候，会抛出’DataFrame’ object has no attribute ‘ix’，这个是由于在不同的pandas的版本中，DataFrame的相关属性已过期，已不推荐使用导致的。

#参考代码先锋网

#output：

year        2012

name         国科图

local      北四环西路

student        甲

Name: a, dtype: object

另外，同样可以看出每一行是一个Series 对象，此时该Series的index其实就是DataFrame 的列名称，综上来看，对于一个DataFrame 来说，它是纵横双向进行索引，只是每个Series（纵横）都共用一个索引而已

1.3 利用Pandas加载、保存数据
在进行数据处理时我们首要工作是把数据加载到内存中，这一度成为程序编辑的软肋，但是Pandas包所提供的功能几乎涵盖了大多数的数据处理的加载问题，如read_csv、read_ExcelFile

(1)加载csv格式的数据

import pandas as pd

data_csv = pd.read_csv("D:/python_cailiao/test.csv")  #它的默认属性有sep=","

data_csv

#output:
school    institute    grades    name

0    中国科学院大学    文献情报中心    15级    田鹏伟

1    中国科学院大学    文献情报中心    15级    李四

2    中国科学院大学    文献情报中心    15级    王五

3    中国科学院大学    文献情报中心    15级    张三

data_csv = pd.read_csv("D:/python_cailiao/test.csv",sep="#")   #更改默认属性sep="#"

data_csv

#output：

school,institute,grades,name

0    中国科学院大学,文献情报中心,15级,田鹏伟

1    中国科学院大学,文献情报中心,15级,李四

2    中国科学院大学,文献情报中心,15级,王五

3    中国科学院大学,文献情报中心,15级,张三

data_csv = pd.read_csv("D:/python_cailiao/test.csv",header=None,skiprows=[0])  #不要表头Header

data_csv

#output：

school    institute    grades    name

0    中国科学院大学    文献情报中心    15级    田鹏伟

1    中国科学院大学    文献情报中心    15级    李四

2    中国科学院大学    文献情报中心    15级    王五

3    中国科学院大学    文献情报中心    15级    张三

data_csv.columns=["school","institute","grades","name"]

data_csv  #自行添加表头列

#output：

school    institute    grades    name

0    中国科学院大学    文献情报中心    15级    田鹏伟

1    中国科学院大学    文献情报中心    15级    李四

2    中国科学院大学    文献情报中心    15级    王五

3    中国科学院大学    文献情报中心    15级    张三

另外，综上，通过对csv格式的文件进行读取，我们可以指定读入的格式（sep=","）,也可以指定他的header为空None，最后添加column，而之所以可以后来添加的原因是读入的csv已经是DataFrame格式对象

(2)保存csv数据

data_csv.loc[1,"name"]="顾老师"

data_csv.to_csv("D:/python_cailiao/save.csv")

(1)加载excel格式的数据

data_excel = pd.read_excel("D:/python_cailiao/excel.xlsx",sheet_name="test")

data_excel

#output：

school    institute    grades    name

0    中国科学院大学    文献情报中心    15级    田鹏伟

1    中国科学院大学    文献情报中心    15级    李四

2    中国科学院大学    文献情报中心    15级    王五

3    中国科学院大学    文献情报中心    15级    张三

data_excel.loc[1,"name"]="顾立平老师"

data_excel

#output:

school    institute    grades    name

0    中国科学院大学    文献情报中心    15级    田鹏伟

1    中国科学院大学    文献情报中心    15级    顾立平老师

2    中国科学院大学    文献情报中心    15级    王五

3    中国科学院大学    文献情报中心    15级    张三

(2)保存数据

data_excel.to_excel("D:/python_cailiao/save.xlsx",sheet_name="test")

另外，对于excel文件来说同csv格式的处理相差无几，但是excel文件在处理时需要指定sheetname属性（读取和写入sheet_name)

参考书目：《数据馆员的python简明手册》

python-数据描述与分析(1)的更多相关文章

Python数据描述与分析
在进行数据分析之前,我们需要做的事情是对数据有初步的了解,比如对数据本身的敏感程度,通俗来说就是对数据的分布有大概的理解,此时我们需要工具进行数据的描述,观测数据的形状等:而后才是对数据进行建模分析, ...
python数据抓取分析（python + mongodb）
分享点干货!!! Python数据抓取分析编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: def step(): try: ...
python - 数据描述符(class 内置 get/set/delete方法 )
数据描述符(class 内置 get/set/del方法 ): # 什么是描述符 # 官方的定义:描述符是一种具有“捆绑行为”的对象属性.访问(获取.设置和删除)它的属性时,实际是调用特殊的方法(_g ...
python数据描述符
Python的描述符是接触到Python核心编程中一个比较难以理解的内容,自己在学习的过程中也遇到过很多的疑惑,通过google和阅读源码,现将自己的理解和心得记录下来,也为正在为了该问题苦恼的朋友提 ...
python 数据描述字符串转整数
q3 = int(float(q3.replace('万', '')) * 10000)
数据抓取分析（python + mongodb）
分享点干货!!! Python数据抓取分析编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: def step(): try: ...
毕设之Python爬取天气数据及可视化分析
写在前面的一些P话:(https://jq.qq.com/?_wv=1027&k=RFkfeU8j) 天气预报我们每天都会关注,我们可以根据未来的天气增减衣物.安排出行,每天的气温.风速风向. ...
python数据处理（七）之数据探索和分析
1.探索数据 1.1 安装agate库 1.2 导入数据 1.3 探索表函数 a.排序 b.最值,均值 c.清除缺失值 d.过滤 e.百分比 1.4 连结多个数据集 a.捕捉异常 b.去重 c.缺失数 ...
用Python爬取《王者荣耀》英雄皮肤数据并可视化分析，用图说话
大家好,我是辰哥~ 今天辰哥带大家分析一波当前热门手游<王者荣耀>英雄皮肤,比如皮肤上线时间.皮肤类型(勇者:史诗:传说等).价格. 1.获取数据数据来源于<王者荣耀官方网站> ...

随机推荐

Python常用基础语法知识点大全
记得我是数学系的,大二时候因为参加数学建模,学习Python爬虫,去图书馆借了一本Python基础书,不厚,因为有matlab和C语言基础,这本书一个星期看完了,学完后感觉Python入门很快,然后要 ...
[HNOI2009]【一本通提高组合数学】有趣的数列
[HNOI2009]有趣的数列题目描述我们称一个长度为 2 n 2n 2n 的数列是有趣的,当且仅当该数列满足以下三个条件: 它是从 1 ∼ 2 n 1 \sim 2n 1∼2n 共 2 n 2n ...
【每天学一点-06】在Vue中使用Vant-Picker选择器，并且给选择器添加一个类似Antd-Select-showSearch的搜索功能
一.在Vant文档中,Picker组件的API中是没有showSearch这一选项的 1.Vant-Picker 文档 2.Antd-Select 文档 3.需要完成的需求 4.因为在H5项目中出现了 ...
AtCoder Beginner Contest 260 F - Find 4-cycle
题目传送门:F - Find 4-cycle (atcoder.jp) 题意: 给定一个无向图,其包含了S.T两个独立点集(即S.T内部间的任意两点之间不存在边),再给出图中的M条边(S中的点与T中的 ...
HashSet集合存储数据的结构(哈希表)和Set集合存储㢝不重复的原理
HashSet集合存储数据的结构(哈希表) Set集合存储㢝不重复的原理前提:存储的元素必须重写hashCode方法和equals方法
md文档使用小技巧
简介在日常写readme文档中,可能会遇到一些小问题,此处记录一下md文档编写过程中的一些小技巧. 插入图片在md文档中插入图片,目前有三种方式,本地导入.网络导入.base64导入. 本地导入 ...
题解【CodeForces 910A The Way to Home】
题目大意一只青蛙现在在一个数轴上,它现在要从点 \(1\) 跳到点 \(n\) ,它每次可以向右跳不超过 \(d\) 个单位.比如,它可以从点 \(x\) 跳到点 \(x+a\)(\(1\le a\ ...
React报错之Cannot find name
正文从这开始~ .tsx扩展名为了在React TypeScript中解决Cannot find name报错,我们需要在使用JSX文件时使用.tsx扩展名,在你的tsconfig.json文件中把 ...
C#中引用类型的变量做为参数在方法调用时加不加 ref 关键字的不同之处
一直以为对于引用类型做为参数在方法调用时加不加 ref 关键字是没有区别的.但是今天一调试踪了一下变量内存情况才发现大有不同. 直接上代码,结论是:以下代码是使用了 ref 关键字的版本.它输出1 ...
virtual box 安装虚拟机如何全屏
最近由于要进行微信小程序的开发.可恶的腾讯狗没有提供linux版的开发工具!不得以安装虚拟机!暗号虚拟机后发现win10的界面实在是太小,于是乎去解决这个问题!其实很简单,一般来是说直接点虚拟机面板上 ...

python-数据描述与分析(1)

python-数据描述与分析(1)的更多相关文章

随机推荐

热门专题