import numpy as np import pandas as pd df = pd.DataFrame({'var1':np.random.rand(100), #生成100个0到1之间的随机数 'var2':100, 'var3':np.random.choice([20,30,90]) #在这几个数之间选择 } ) for col in df.columns: print("该列数据的均值位%.2f" %df[col].mean()) #计算每列均值 print(df['…
二维数组转换为DataFrame pandas可直接进行科学计算形式: import numpy as np import pandas as pd a = [1,2,3] b = [4,5,6] # 首先DataFrame传参有两种方式一种为直接创建数组形式形式 index为列级索引 columns 为行级索引 也可以不指定 不指定则默认从0设置索引 df1=pd.DataFrame(np.random.randn(4,4),index=list('ABCD'),columns=list('A…
代码 # -*- coding: utf- -*- """ Created on Sun Jun :: @author: Bruce Lau """ import numpy as np import pandas as pd # prepare for data data = np.arange(,).reshape((,)) data_df = pd.DataFrame(data) # change the index and column…
背景:dataFrame的数据,想对某一个列做逻辑处理,生成新的列,或覆盖原有列的值   下面例子中的df均为pandas.DataFrame()的数据   1.增加新列,或更改某列的值 df["列名"]=值   如果值为固定的一个值,则dataFrame中该列所有值均为这个数据   2.处理某列 df["列名"]=df.apply(lambda x:方法名(x,入参2),axis=1)   说明: 1.方法名为单独的方法名,可以处理传入的x数据 2.x为每一行的数…
#假设data是一个DataFrame对象,如果要把它的第二列转换为List print(data.iloc[:,1].to_list())…
Stackoverflow.com是程序员的好去处,本公众号将以pandas为主题,开始一个系列,争取做到每周一篇,翻译并帮助pandas学习者一起理解一些有代表性的案例.今天的主题就是Pandas与Numpy中一个非常重要的参数:axis.(轴) Stackoverflow问题如下: python中的axis究竟是如何定义的呢?他们究竟代表是DataFrame的行还是列?考虑以下代码: >>>df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2],…
本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要学习的地方: (1)read_html的用法 作用:快速获取在html中页面中table格式的数据 (2)to_sql的用法 将获得的DataFrame数据写入数据表中 (3)使用urlencode构造所需的url参数 摘要: 我们平常在浏览网页中会遇到一些表格型的数据信息,除了表格本身体现的内容以外,你可能想透过表格再更进一步地进行汇总.筛选.处理分析等操作从而得到更多有…
pandas and numpy notebook        最近工作交接,整理电脑资料时看到了之前的基于Jupyter学习数据分析相关模块学习笔记.想着拿出来分享一下,可是Jupyter导出来html文件,博客园不支持js注入,贴图效果实在太差劲儿.所以只贴了内容,要是有需要文件原版(pdf.md.html等)可以在评论区说一下.        本系列是数据分析相关的,打算做一个持续连载,后边便于自己系统查看和回顾. 另外,本片博客在github上有PDF版本,并且格式也很清爽,请转htt…
Series与DataFrame对比学习 文章为本人原创,未经同意请勿转载,http://www.cnblogs.com/smallcrystal/ Series:构建的方法,一组数组(列表或元组),利用Series(),自动生成索引.或Series(字典),值只有一列,无列索引,只有行索引 属性: .index..values   .name   .index.name   .values.name >> data={'state':['ohio','ohio','ohio','nev','…
一.简介 HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式,文件后缀名为h5,存储读取速度非常快,且可在文件内部按照明确的层次存储数据,同一个HDF5可以看做一个高度整合的文件夹,其内部可存放不同类型的数据.在Python中操纵HDF5文件的方式主要有两种,一是利用pandas中内建的一系列HDF5文件操作相关的方法来将pandas中的数据结构保存在HDF5文件中,二是利用h5py模块来完成从Python原生数据结构向HDF5格式的保存,本…
最近小爬我为了提升数据分析这块儿的技能,学习了pandas库作者Wes Mckinney的数据分析经典书籍<利用Python进行数据分析>,受益良多!里面涉及到Python语言基础.还有编程利器Ipython.Jupyter notebook的使用小技巧,数组分析工具Numpy以及pandas的基础入门和深入知识,甚至还包含绘图与可视化的相关知识.在学习过程中,小爬深刻感受到:工欲善其事必先利其器.有了好的工具加持,数据分析不再是难事! 小爬先说说之前不知道但在该书中提到的Ipython的一些…
2.利用Pandas处理数据2.1 汇总计算当我们知道如何加载数据后,接下来就是如何处理数据,虽然之前的赋值计算也是一种计算,但是如果Pandas的作用就停留在此,那我们也许只是看到了它的冰山一角,它首先比较吸引人的作用是汇总计算 (1)基本的数学统计计算这里的基本计算指的是sum.mean等操作,主要是基于Series(也可能是来自DataFrame)进行统计计算.举例如下: #统计计算 sum mean等 import numpy as np import pandas as pd df=p…
数据的标准化 数据标准化就是将不同取值范围的数据,在保留各自数据相对大小顺序不变的情况下,整体映射到一个固定的区间中.根据具体的实现方法不同,有的时候会映射到 [ 0 ,1 ],有时映射到 0 附近的一个较小区间内. 这样做的目的是消除数据不同取值范围带来的干扰. 数据标准化的方法,我在这里介绍两种 min-max标准化 min-man 标准化会把结果映射到 0 与 1 之间,下面是映射的公式. min 是整个样本的最小值,max是整个样本的最大值 Z-score标准化 Z-score会把结果映…
Python利用pandas处理Excel数据的应用   最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做自动化测试的时候,如果涉及到数据的读取和存储,那么而利用pandas就会非常高效,基本上3行代码可以搞定你20行代码的操作!该教程仅仅限于结合柠檬班的全栈自动化测试课程来讲解下pandas在项目中的应用,这仅仅只是冰山一角,希望大家可以踊跃的去尝试和探索! 一.安装环境: 1:pandas依赖处理E…
Numpy的重要特点就是其N维数组对象, 1.ndarray每个元素是相同的,每个数组都有一个两个对象: .shape:用于表示维度大小的元组 .dtype:用户表示数组类型的对象 2.创建数组 array(将输入数据(列表.元组.数组或其他序列类型)转化为ndarray) array ([[列表1],[列表2],...],dtpye=np.int) array((元组1,元组2,...)) np.zeros(10),np.ones((n,m)),np.empty((m,n,w)) np.ara…
参考:pandas筛选出表中满足另一个表所有条件的数据 参考:pandas:匹配两个dataframe 使用 pd.merge 来实现 on 表示查询的 columns,如果都有 id,那么这是很好的区别项,找到 id 相同的进行merge. >>> import numpy as np >>> import pandas as pd >>> data1 = { 'one': pd.Series([1,2,3]), 'two': pd.Series([…
numpy库中数组的数据类型 dtype是一个特殊的对象,它含有ndarray将一块内存解释为特殊数据类型所需要的信息 指定数据类型创建数组 >>> import numpy as np >>> arr1=np.array([1,2,3,4],dtype=np.float64) >>> arr2=np.array([1,2,3,4],dtype=np.int32) >>> arr1.dtype dtype('float64') >…
本文对应脚本及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 毫无疑问pandas已经成为基于Python的数据分析领域最重要的包,而就在最近,pandas终于迎来了1.0.0版本,对于pandas来说这是一次更新是里程碑式的,删除了很多旧版本中臃肿的功能,新增了一些崭新的特性,更加专注于高效实用的数据分析,本文就将针对pandas 1.0.0在笔者眼中比较重要的特性进行介绍,对于想要完整彻底了解新版…
1.读取文件为pandas格式: import pandas as pd import numpy as np dataset = pd.read_csv("C:/Users/Administrator/Desktop/test.csv",encoding='gbk') 这样就读取了一个csv文件作为dataframe格式的文件,结果如下: 2.查看读取数据的概况和维度使用如下命令: dataset.head() # 若括号不填写任何信息,默认查看df的前五行,当然也可以填写数字,填写…
最近遇到利用pandas选取指定行的需求,经常忘记,在此做下记录 选取某个属性等于特定值的所有行记录 df[(df[‘column_name’] == target_value)] 注:等于用 '==',不等于用 '!=', 同理,大于用 '>', 小于用 '<' 多个条件用 '&' 连接 df[(df[‘column_name’] < target_value) & (df[‘column_name’] > target_value)] 选取某个属性在指定列表中的…
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是pandas数据处理专题的第四篇文章,我们一起来聊聊DataFrame中的索引. 上一篇文章当中我们介绍了DataFrame数据结构当中一些常用的索引的使用方法,比如iloc.loc以及逻辑索引等等.今天的文章我们来看看DataFrame的一些基本运算. 数据对齐 我们可以计算两个DataFrame的加和,pandas会自动将这两个DataFrame进行数据对齐,如果对不上的数据会被置为Nan(not a number). 首先我…
利用占位符替换word中的字符串和添加图片   ///<summary>         /// 替换word模板文件内容,包括表格中内容         /// 调用如下:WordStringsReplace("D:/CNSI/CNSI_1.doc", new ArrayList() { "old1", "old2" }, new ArrayList() { "new1", "new2" })…
利用navigator对象在浏览器中检查插件,实现的代码如下. // IE4+.firefox.chrome.safari.opera中,利用navigator检测插件 ,name为插件的名字 function hasPlugin(name) { name = name.toLowerCase(); for(var i = 0; i < navigator.plugins.length; i++) { if (navigator.plugins[i].name.toLowerCase().ind…
场景1:利用CocoaPods,在项目中导入AFNetworking类库 AFNetworking类库在GitHub地址是:https://github.com/AFNetworking/AFNetworking 为了确定AFNetworking是否支持CocoaPods,可以用CocoaPods的搜索功能验证一下.在终端中输入: $ pod search AFNetworking 过几秒钟之后,你会在终端中看到关于AFNetworking类库的一些信息. 这说明,AFNetworking是支持…
     首先谈一下今天发生的一件开心的事,本着一颗android的心我被分配到了PB组,身在曹营心在汉啊!好吧,今天要记录和分享的是Java利用POI导入导出Excel中的数据.下面POI包的下载地址http://poi.apache.org/download.html,有兴趣的朋友也可以去看看其中的API.      下面分享一下在对POI进行基本操作时觉得需要注意的两点:       1.POI中针对xlsx/xls是需要create different Workbook instance…
python利用or在列表解析中调用多个函数.py """ python利用or在列表解析中调用多个函数.py 2016年3月15日 05:08:42 codegay """ '''有时候我会在列表解析中write文件, 或者调用print显示输出,不是为了收集结果, 而是因为能省代码行数''' #代码例子1 with open("a.txt","w+") as f: [print(str(r)) for…
Python中的list/tuple,numpy中的ndarrray与tensorflow中的tensor. 用python中list/tuple理解,仅仅是从内存角度理解一个序列数据,而非数学中标量,向量和张量. 从python内存角度理解,就是一个数值,长度为1,并且不是一个序列: 从numpy与tensorflow数学角度理解,就是一个标量,shape为(),其轴为0: [1,2,3,4,5,6] 从python内存角度理解,就是1*6或者长度为6的一个序列: 从numpy与tensorf…
0. numpy.random中的shuffle和permutation numpy.random.shuffle(x) and numpy.random.permutation(x),这两个有什么不同,或者说有什么关系? 答: np.random.permutation与np.random.shuffle有两处不同: 如果传给permutation一个矩阵,它会返回一个洗牌后的矩阵副本:而shuffle只是对一个矩阵进行洗牌,无返回值. 如果传入一个整数,它会返回一个洗牌后的arange. 上…
这几个月一直在帮客户改需求,部署.我已经心力憔悴,经过一段时间的摸索,我对用PowerShell实现自动化部署也有了一些心得,比如说利用PowerShell导出导入AD中的User.在基于SharePoint平台开发时,利用AD来进行人员的管理,一般会建组织单元(OrganizationalUnit)来对用户进行管理.当最终部署到客户的服务器上时,怎样把本地AD中的用户数据同步到服务器上呢,要知道如果手动输入人员是一件麻烦的事.幸运的事,PowerShell可以帮我们解决这个麻烦的问题. 导出A…
C# 利用mysql.data 在mysql中创建数据库及数据表 using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks; using MySql.Data.MySqlClient; namespace CA_Mysql { class Program { static void Main(string[] args) {…