python-数据描述与分析(1)
数据描述与分析
在进行数据分析之前,我们需要做的事情是对数据有初步的了解,这个了解就涉及对行业的了解和对数据本身的敏感程度,通俗来说就是对数据的分布有大概的理解,此时我们需要工具进行数据的描述,观测数据的形状等;而后才是对数据进行建模分析,挖掘数据中隐藏的位置信息。目前在数据描述和简单分析方面做的比较好的是Pandas库。当然,它还需要结合我们之前提到的Numpy,Scipy等科学计算相关库才能发挥功效。
1.Pandas 数据结构
在进行Pandas相关介绍时我们首先需要知道的是Pandas 的两个数据结构(即对象)Series 和 DataFrame,这是Pandas的核心结构,掌握了此二者结构和属性要素,会在具体的数据处理过程中如虎添翼。
1.1 Series 简介
Series 是一种类似于以为数据的对象,它由两部分组成,第一部分是一维数据,另外一部分是与此一维数据对应的标签数据。具体如下:
import pandas as pd
centerSeries =pd.Series(["中国科学院","文献情报中心","大楼","北四环西路",])
print (centerSeries)
#output:
0 中国科学院
1 文献情报中心
2 大楼
3 北四环西路
dtype: object
因为我们没有指定它的标签数据,而python默认是通过数字排序进行标识,接下来给他添加标示数据,具体如下:
centerSeries =pd.Series(["中国科学院","文献情报中心","大楼","北四环西路",],index=["a","b","c","d"])
print (centerSeries) #index的size和Series的size必须一样长,否则报错
#output:
a 中国科学院
b 文献情报中心
c 大楼
d 北四环西路
dtype: object
对比之前的默认标识,我们可以看出它由1,2,3,4变成了a,b,c,d。接下来将解释这样标识的意义,具体如下:
import pandas as pd
centerSeries =pd.Series(["中国科学院","文献情报中心","大楼","北四环西路",],index=["a","b","c","d"])
print (centerSeries[0]) #通过一维数组进行获取数据
print (centerSeries[1])
print (centerSeries["c"]) #通过标识index获取数据
print (centerSeries["d"])
#output:
中国科学院
文献情报中心
大楼
北四环西路
另外,我们可以看到通过一维数组格式获取数据和通过index标识获取数据都可以,这样的index就像曾经学过的数据库中的id列的作用,相当于建立了每个数据的索引。当然,针对Series的操作不只限于此,还有很多需要我们自己去通过“help”查看得到的。
1.2 DataFrame 简介
DataFrame 是一个表格型的数据结构,它包含有列和行的索引,当然你也可以把它看作是由Series组织成的字典。需要说明的是,DataFrame的每一列中不需要数据类型相同,且它的数据是通过一个或者多个二维块进行存放,在了解DataFrame之前如果读者对层次化索引有所了解,那么DataFrame 可能相对容易理解,当然如果读者并不知道何谓层次化索引也没关系,举个例子:他类似于常见的excel的表格格式,可将它理解为一张excel表,具体如下:
#简单的DataFrame 制作
#字典格式的数据
data = {"name":["国科图","国科图","文献情报中心","文献情报中心"],
"year":["2012","2013","2014","2015"],
"local":["北四环西路","北四环西路","北四环西路","北四环西路"],
"student":["甲","乙","丙","丁"]}
centerDF = pd.DataFrame(data)
print(centerDF)
#output:
name year local student
0 国科图 2012 北四环西路 甲
1 国科图 2013 北四环西路 乙
2 文献情报中心 2014 北四环西路 丙
3 文献情报中心 2015 北四环西路 丁
#调整列的顺序
data = {"local":["北四环西路","北四环西路","北四环西路","北四环西路"],
"name":["国科图","国科图","文献情报中心","文献情报中心"],
"year":["2012","2013","2014","2015"],
"student":["甲","乙","丙","丁"]}
centerDF = pd.DataFrame(data,columns=["year","name","local","student"])
print(centerDF)
#output:
year name local student
0 2012 国科图 北四环西路 甲
1 2013 国科图 北四环西路 乙
2 2014 文献情报中心 北四环西路 丙
3 2015 文献情报中心 北四环西路 丁
#更改index的默认设置
data = {"name":["国科图","国科图","文献情报中心","文献情报中心"],
"year":["2012","2013","2014","2015"],
"local":["北四环西路","北四环西路","北四环西路","北四环西路"],
"student":["甲","乙","丙","丁"]}
centerDF = pd.DataFrame(data,columns=["year","name","local","student"],index=["a","b","c","d"])
print(centerDF)
#output:
year name local student
a 2012 国科图 北四环西路 甲
b 2013 国科图 北四环西路 乙
c 2014 文献情报中心 北四环西路 丙
d 2015 文献情报中心 北四环西路 丁
既然DataFrame 是行列格式的数据,那么理所当然可以通过行、列的方式进行数据获取,按列进行数据据获取,具体如下:
data = {"name":["国科图","国科图","文献情报中心","文献情报中心"],
"year":["2012","2013","2014","2015"],
"local":["北四环西路","北四环西路","北四环西路","北四环西路"],
"student":["甲","乙","丙","丁"]}
centerDF = pd.DataFrame(data,columns=["year","name","local","student"],index=["a","b","c","d"])
print (centerDF["name"])
print (centerDF["student"])
#output:
a 国科图
b 国科图
c 文献情报中心
d 文献情报中心
Name: name, dtype: object
a 甲
b 乙
c 丙
d 丁
Name: student, dtype: object
另外,可以看出按列进行获取时他们的index标识是相同的,且每一列是一个Series 对象
按行进行数据获取,其实是通过index进行操作,具体如下:
data = {"name":["国科图","国科图","文献情报中心","文献情报中心"],
"year":["2012","2013","2014","2015"],
"local":["北四环西路","北四环西路","北四环西路","北四环西路"],
"student":["甲","乙","丙","丁"]}
centerDF = pd.DataFrame(data,columns=["year","name","local","student"],index=["a","b","c","d"])
print (centerDF.loc["a"]) #在使用进行DataFrame.ix进行表中的数据块选择的时候,会抛出’DataFrame’ object has no attribute ‘ix’,这个是由于在不同的pandas的版本中,DataFrame的相关属性已过期,已不推荐使用导致的。
#参考代码先锋网
#output:
year 2012
name 国科图
local 北四环西路
student 甲
Name: a, dtype: object
另外,同样可以看出每一行是一个Series 对象,此时该Series的index其实就是DataFrame 的列名称,综上来看,对于一个DataFrame 来说,它是纵横双向进行索引,只是每个Series(纵横)都共用一个索引而已
1.3 利用Pandas加载、保存数据
在进行数据处理时我们首要工作是把数据加载到内存中,这一度成为程序编辑的软肋,但是Pandas包所提供的功能几乎涵盖了大多数的数据处理的加载问题,如read_csv、read_ExcelFile
(1)加载csv格式的数据
import pandas as pd
data_csv = pd.read_csv("D:/python_cailiao/test.csv") #它的默认属性有sep=","
data_csv
#output:
school institute grades name
0 中国科学院大学 文献情报中心 15级 田鹏伟
1 中国科学院大学 文献情报中心 15级 李四
2 中国科学院大学 文献情报中心 15级 王五
3 中国科学院大学 文献情报中心 15级 张三
data_csv = pd.read_csv("D:/python_cailiao/test.csv",sep="#") #更改默认属性sep="#"
data_csv
#output:
school,institute,grades,name
0 中国科学院大学,文献情报中心,15级,田鹏伟
1 中国科学院大学,文献情报中心,15级,李四
2 中国科学院大学,文献情报中心,15级,王五
3 中国科学院大学,文献情报中心,15级,张三
data_csv = pd.read_csv("D:/python_cailiao/test.csv",header=None,skiprows=[0]) #不要表头Header
data_csv
#output:
school institute grades name
0 中国科学院大学 文献情报中心 15级 田鹏伟
1 中国科学院大学 文献情报中心 15级 李四
2 中国科学院大学 文献情报中心 15级 王五
3 中国科学院大学 文献情报中心 15级 张三
data_csv.columns=["school","institute","grades","name"]
data_csv #自行添加表头列
#output:
school institute grades name
0 中国科学院大学 文献情报中心 15级 田鹏伟
1 中国科学院大学 文献情报中心 15级 李四
2 中国科学院大学 文献情报中心 15级 王五
3 中国科学院大学 文献情报中心 15级 张三
另外,综上,通过对csv格式的文件进行读取,我们可以指定读入的格式(sep=","),也可以指定他的header为空None,最后添加column,而之所以可以后来添加的原因是读入的csv已经是DataFrame格式对象
(2)保存csv数据
data_csv.loc[1,"name"]="顾老师"
data_csv.to_csv("D:/python_cailiao/save.csv")
(1)加载excel格式的数据
data_excel = pd.read_excel("D:/python_cailiao/excel.xlsx",sheet_name="test")
data_excel
#output:
school institute grades name
0 中国科学院大学 文献情报中心 15级 田鹏伟
1 中国科学院大学 文献情报中心 15级 李四
2 中国科学院大学 文献情报中心 15级 王五
3 中国科学院大学 文献情报中心 15级 张三
data_excel.loc[1,"name"]="顾立平老师"
data_excel
#output:
school institute grades name
0 中国科学院大学 文献情报中心 15级 田鹏伟
1 中国科学院大学 文献情报中心 15级 顾立平老师
2 中国科学院大学 文献情报中心 15级 王五
3 中国科学院大学 文献情报中心 15级 张三
(2)保存数据
data_excel.to_excel("D:/python_cailiao/save.xlsx",sheet_name="test")
另外,对于excel文件来说同csv格式的处理相差无几,但是excel文件在处理时需要指定sheetname属性(读取和写入sheet_name)
参考书目:《数据馆员的python简明手册》
python-数据描述与分析(1)的更多相关文章
- Python数据描述与分析
在进行数据分析之前,我们需要做的事情是对数据有初步的了解,比如对数据本身的敏感程度,通俗来说就是对数据的分布有大概的理解,此时我们需要工具进行数据的描述,观测数据的形状等:而后才是对数据进行建模分析, ...
- python数据抓取分析(python + mongodb)
分享点干货!!! Python数据抓取分析 编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: def step(): try: ...
- python - 数据描述符(class 内置 get/set/delete方法 )
数据描述符(class 内置 get/set/del方法 ): # 什么是描述符 # 官方的定义:描述符是一种具有“捆绑行为”的对象属性.访问(获取.设置和删除)它的属性时,实际是调用特殊的方法(_g ...
- python数据描述符
Python的描述符是接触到Python核心编程中一个比较难以理解的内容,自己在学习的过程中也遇到过很多的疑惑,通过google和阅读源码,现将自己的理解和心得记录下来,也为正在为了该问题苦恼的朋友提 ...
- python 数据描述字符串转整数
q3 = int(float(q3.replace('万', '')) * 10000)
- 数据抓取分析(python + mongodb)
分享点干货!!! Python数据抓取分析 编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: def step(): try: ...
- 毕设之Python爬取天气数据及可视化分析
写在前面的一些P话:(https://jq.qq.com/?_wv=1027&k=RFkfeU8j) 天气预报我们每天都会关注,我们可以根据未来的天气增减衣物.安排出行,每天的气温.风速风向. ...
- python数据处理(七)之数据探索和分析
1.探索数据 1.1 安装agate库 1.2 导入数据 1.3 探索表函数 a.排序 b.最值,均值 c.清除缺失值 d.过滤 e.百分比 1.4 连结多个数据集 a.捕捉异常 b.去重 c.缺失数 ...
- 用Python爬取《王者荣耀》英雄皮肤数据并可视化分析,用图说话
大家好,我是辰哥~ 今天辰哥带大家分析一波当前热门手游<王者荣耀>英雄皮肤,比如皮肤上线时间.皮肤类型(勇者:史诗:传说等).价格. 1.获取数据 数据来源于<王者荣耀官方网站> ...
随机推荐
- 从零开始Blazor Server(3)--添加cookie授权
认证方式简述 Blazor Server微软官方还是推荐直接使用Cookie授权,因为本来Blazor Server就是前后端不分离的.不存在Cookie跨域等一系列问题. 只要不是使用SSO之类的统 ...
- 2522-Shiro系列--使用缓存对认证session和授权Cache进行存储
如何进行session的缓存? 原理: Shiro有1个类,AuthorizingRealm AuthenticatingRealm,里面有个获取认证信息的方法, AuthenticatingReal ...
- 为你的网站加上live2d的动态小挂件,博君一晒
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_122 喜欢二次元的朋友一定对大名鼎鼎的live2d技术并不陌生,live2D是一种应用于电子游戏的绘图渲染技术,技术由日本Cybe ...
- .NET 6学习笔记(4)——解决VS2022中Nullable警告
很多小伙伴在升级到Visual Studio 2022后发现,如果我们去新建一个.NET 6的项目,和原先VS2019中一摸一样的写法,却会出现CS8618 Non-nullable property ...
- 《吐血整理》进阶系列教程-拿捏Fiddler抓包教程(12)-Fiddler设置IOS手机抓包,你知多少???
1.简介 Fiddler不但能截获各种浏览器发出的 HTTP 请求,也可以截获各种智能手机发出的HTTP/ HTTPS 请求. Fiddler 能捕获Android 和 Windows Phone 等 ...
- LuoguP1799 数列_NOI导刊2010提高 (动态规划)
$ f[j]=max(f[i−1][j],f[i−1][j−1]+(x == j) $ #include <iostream> #include <cstdio> #inclu ...
- 《吐血整理》进阶系列教程-拿捏Fiddler抓包教程(13)-Fiddler请求和响应断点调试
1.简介 Fiddler有个强大的功能,可以修改发送到服务器的数据包,但是修改前需要拦截,即设置断点.设置断点后,开始拦截接下来所有网页,直到取消断点.这个功能可以在数据包发送之前,修改请求参数:在收 ...
- Jmeter工具使用总结
Jmeter工具使用总结 目录 Jmeter函数总结 第一章 前言 第二章 常用函数的介绍 2.1. timeShift函数 2.2. time函数 2.3. groovy函数 第三章 常用用法 3. ...
- Vue3中插槽(slot)用法汇总
Vue中的插槽相信使用过Vue的小伙伴或多或少的都用过,但是你是否了解它全部用法呢?本篇文章就为大家带来Vue3中插槽的全部用法来帮助大家查漏补缺. 什么是插槽 简单来说就是子组件中的提供给父组件使用 ...
- 想学渗透测试,应该考CISP-PTE还是NISP-PT?|网安伴nisp和cisp
其实两者都可,但要看考生的实际需求! 为什么说两者都可以? 两个证书都由中国信息安全测评中心颁发,CISP-PTE全称国家注册渗透测试工程师,NISP-PT全称国家信息安全水平考试-渗透测试工程师专项 ...