pandas(一) - 相关文章

pandas基础-Python3

未完 for examples: example 1: # Code based on Python 3.x # _*_ coding: utf-8 _*_ # __Author: "LEMON" import pandas as pd d = pd.date_range(', periods=7) aList = list(range(1,8)) df = pd.DataFrame(aList, index=d, columns=[' ']) df.index.name = 'val…

10 Minutes to pandas

摘要一.创建对象二.查看数据三.选择和设置四.缺失值处理五.相关操作六.聚合七.重排(Reshaping) 八.时间序列九.Categorical类型十.画图十一.导入和保存数据内容 # coding=utf-8import pandas as pdimport numpy as np### 一.创建对象## 1.可以传递一个list对象创建一个Series,Pandas会默认创建整型索引s = pd.Series([1, 3, 5, np.nan, 6,…

利用Python进行数据分析(15) pandas基础: 字符串操作

字符串对象方法 split()方法拆分字符串: strip()方法去掉空白符和换行符: split()结合strip()使用: "+"符号可以将多个字符串连接起来: join()方法也是连接字符串,比较它和"+"符号的区别: in关键字判断一个字符串是否包含在另一个字符串中: index()方法和find()方法判断一个子字符串的位置: index()方法和find()方法的区别是:如果不包含子字符串,index()会抛出一个异常,而find()会返回-1. c…

利用Python进行数据分析(10) pandas基础: 处理缺失数据

数据不完整在数据分析的过程中很常见. pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据. pandas使用isnull()和notnull()函数来判断缺失情况. 对于缺失数据一般处理方法为滤掉或者填充. 滤除缺失数据对于一个Series,dropna()函数返回一个包含非空数据和索引值的Series,例如: 对于DataFrame,dropna()函数同样会丢掉所有含有空元素的数据,例如: 但是可以指定how='all',这表示只有行里的数据全部为空时才丢弃,例如:…

利用Python进行数据分析(12) pandas基础: 数据合并

pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法combine_first()方法:合并重叠数据. pandas.merge()方法:数据库风格的合并例如,通过merge()方法将两个DataFrame合并: on='name'的意思是将name列当作键: 默认情况下,merge做的是内连接(inner),即键的交集. 其他方式还有左连接(l…

利用Python进行数据分析(9) pandas基础: 汇总统计和计算

pandas 对象拥有一些常用的数学和统计方法. 例如,sum() 方法,进行列小计: sum() 方法传入 axis=1 指定为横向汇总,即行小计: idxmax() 获取最大值对应的索引: 还有一种汇总是累计型的,cumsum(),比较它和 sum() 的区别: unique() 方法用于返回数据里的唯一值: value_counts() 方法用于统计各值出现的频率: isin() 方法用于判断成员资格: 安装步骤已经在首篇随笔里写过了,这里不在赘述.利用 Pyt…

利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作

一.reindex() 方法:重新索引针对 Series 重新索引指的是根据index参数重新进行排序. 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行. 不想用缺失值,可以用 fill_value 参数指定填充值. 例如: fill_value 会让所有的缺失值都填充为同一个值,如果不想这样而是用相邻的元素(左或者右)的值填充,则可以用 method 参数,可选的参数值为 ffill 和 bfill,分别为用前值填充和用后值填充: 针对 DataFrame 重新…

利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍

一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析.它提供了大量高级的数据结构和对数据处理的方法. pandas 有两个主要的数据结构:Series 和 DataFrame. 二.Series Series 是一个一维数组对象 ,类似于 NumPy 的一维 array.它除了包含一组数据还包含一组索引,所以可以把它理解为一组带索引的数组. 将 Python 数组转换成 Series 对象: 将 Python 字典转换成 Serie…

pandas.DataFrame对行和列求和及添加新行和列

导入模块: from pandas import DataFrame import pandas as pd import numpy as np 生成DataFrame数据 df = DataFrame(np.random.randn(4, 5), columns=['A', 'B', 'C', 'D', 'E']) DataFrame数据预览: A B C D E 0 0.673092 0.230338 -0.171681 0.312303 -0.184813 1 -0.504482 -0.…

pandas.DataFrame排除特定行

使用Python进行数据分析时,经常要使用到的一个数据结构就是pandas的DataFrame 如果我们想要像Excel的筛选那样,只要其中的一行或某几行,可以使用isin()方法,将需要的行的值以列表方式传入,还可以传入字典,指定列进行筛选. 但是如果我们只想要所有内容中不包含特定行的内容,却并没有一个isnotin()方法.我今天的工作就遇到了这样的需求,经常查找之后,发现只能换种方式使用isin()来实现这个需求. 示例如下: In [3]: df = pd.DataFrame([['GD…

Python Pandas分组聚合

Pycharm 鼠标移动到函数上,CTRL+Q可以快速查看文档,CTR+P可以看基本的参数. apply(),applymap()和map() apply()和applymap()是DataFrame的函数,map()是Series的函数. apply()的操作对象是DataFrame的一行或者一列数据,applymap()是DataFrame的每一个元素.map()也是Series中的每一个元素. apply()对dataframe的内容进行批量处理, 这样要比循环来得快.如df.apply(…

Python Numpy,Pandas基础笔记

Numpy Numpy是python的一个库.支持维度数组与矩阵计算并提供大量的数学函数库. arr = np.array([[1.2,1.3,1.4],[1.5,1.6,1.7]])#创建ndarray时候也可以指定dtype arr.astype(dtype = np.int) #浮点数转int #对数组批量运算,作用在每个元素上 arr = np.array([[1,2,3],[4,5,6]]) print arr**5 #索引和切片 arr = np.array([1,2,3,4,5,6…

pandas read table

http://pandas.pydata.org/pandas-docs/stable/10min.html import pandas as pd res = pd.read_table("ttest/ttest_expression.tsv",sep=",") col_names = res.columns row_indexs = res.index res[0:0] res[0:3] res[0:3]["MU_1"] res["…

数据分析(7):pandas介绍和数据导入和导出

前言 Numpy Numpy是科学计算的基础包,对数组级的运算支持较好 pandas pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数.pandas兼具Numpy高性能的数组计算功能以及电子表格和关系型数据(如SQL)灵活的数据处理能力,处理上千万的大数据易于反掌.对于金融行业的用户,pandas提供了大量适用于金融数据的高性能时间序列功能和工具.DataFrame是pandas的一个对象,它是一个面向列的二维表结构,且含有行标和列标. DataFrame是pandas的…

用scikit-learn和pandas学习Ridge回归

本文将用一个例子来讲述怎么用scikit-learn和pandas来学习Ridge回归. 1. Ridge回归的损失函数在我的另外一遍讲线性回归的文章中,对Ridge回归做了一些介绍,以及什么时候适合用 Ridge回归.如果对什么是Ridge回归还完全不清楚的建议阅读我这篇文章. 线性回归原理小结 Ridge回归的损失函数表达形式是: \(J(\mathbf\theta) = \frac{1}{2}(\mathbf{X\theta} - \mathbf{Y})^T(\mathbf{X\thet…

用scikit-learn和pandas学习线性回归

对于想深入了解线性回归的童鞋,这里给出一个完整的例子,详细学完这个例子,对用scikit-learn来运行线性回归,评估模型不会有什么问题了. 1. 获取数据,定义问题没有数据,当然没法研究机器学习啦.:) 这里我们用UCI大学公开的机器学习数据来跑线性回归. 数据的介绍在这: http://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant 数据的下载地址在这: http://archive.ics.uci.edu/ml/ma…

scikit-learn 和pandas 基于windows单机机器学习环境的搭建

很多朋友想学习机器学习,却苦于环境的搭建,这里给出windows上scikit-learn研究开发环境的搭建步骤. Step 1. Python的安装 python有2.x和3.x的版本之分,但是很多好的机器学习python库都不支持3.x,因此,推荐安装2.7版本的python.当前最新的python是2.7.12.链接如下: https://www.python.org/downloads/release/python-2712/ 里面可以看到有32位版和64位版的.如果你的机器是64位版的…

【Python实战】Pandas：让你像写SQL一样做数据分析（二）

1. 引言前一篇介绍了Pandas实现简单的SQL操作,本篇中将主要介绍一些相对复杂一点的操作.为了方便后面实操,先给出一份简化版的设备统计数据: 0 android NLL 387546520 2099457911 0 ios NLL 52877990 916421755 1 android 魅族 8995958 120369597 1 android 酷派 9915906 200818172 1 android 三星 16500493 718969514 1 android 小米 2393…

【Python实战】Pandas：让你像写SQL一样做数据分析（一）

1. 引言 Pandas是一个开源的Python数据分析库.Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的.只有一个column的DataFrame: DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column并schema化的2维结构化数据,可视作为Series的容器(container): Panel,为3维的结构化数据,可视作为DataFrame的容器: DataFrame较为常见,因此本文主要讨论内…

python安装numpy和pandas

最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了.首要条件,python版本必须是2.7以上. linux首先安装依赖包 yum -y install blas blas-devel lapack-devel lapack yum -y install seaborn scipy yum -y install freetype freetype-devel libpng lib…

【pandas(一)】的更多相关文章

pandas基础-Python3

10 Minutes to pandas

利用Python进行数据分析(15) pandas基础: 字符串操作

利用Python进行数据分析(10) pandas基础: 处理缺失数据

利用Python进行数据分析(12) pandas基础: 数据合并

利用Python进行数据分析(9) pandas基础: 汇总统计和计算

利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作

利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍

pandas.DataFrame对行和列求和及添加新行和列

pandas.DataFrame排除特定行

Python Pandas分组聚合

Python Numpy,Pandas基础笔记

pandas read table

数据分析(7):pandas介绍和数据导入和导出

用scikit-learn和pandas学习Ridge回归

用scikit-learn和pandas学习线性回归

scikit-learn 和pandas 基于windows单机机器学习环境的搭建

【Python实战】Pandas：让你像写SQL一样做数据分析（二）

【Python实战】Pandas：让你像写SQL一样做数据分析（一）

python安装numpy和pandas

python 数据处理学习pandas之DataFrame

【笔记6】用pandas实现条目数据格式的推荐算法 (基于物品的协同)

【笔记5】用pandas实现矩阵数据格式的推荐算法 (基于物品的协同)

【笔记4】用pandas实现条目数据格式的推荐算法 (基于用户的协同)

【笔记3】用pandas实现矩阵数据格式的推荐算法 (基于用户的协同)

【转载】使用pandas进行数据清洗

【转载】使用Pandas对数据进行筛选和排序

【转载】使用Pandas进行数据提取

【转载】使用Pandas进行数据匹配

【转载】使用Pandas创建数据透视表