好久好久没有更新博客了,之前自学的估计也都忘记差不多了.由于毕业选择从事的行业与自己的兴趣爱好完全两条路,心情也难过了很久,既然入职了就要好好干,仍要保持自己的兴趣,利用业余时间重拾之前的乐趣. 从基本的数据清理学起吧 讲一下drop函数的用法 删除表中的某一行或者某一列更明智的方法是使用drop,它不改变原有的df中的数据,而是可选择性的返回另一个dataframe来存放删除后的数据. 删除无效项 df[df.isnull()] #返回的是个true或false的Series对象(掩码对象),…
本文完整示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/PythonPracticalSkills 这是我的系列文章「Python实用秘技」的第7期,本系列立足于笔者日常工作中使用Python积累的心得体会,每一期为大家带来一个几分钟内就可学会的简单小技巧. 作为系列第7期,我们即将学习的是:在pandas中实现自然排序顺序. 自然排序顺序(Natural sort order),不同于默认排序针对字符串逐个比较对应位置字符的ASCII码的方式…
Datatime 是 Python 中一种时间数据类型,对于不同时间格式之间的转换是比较方便的,而在 Pandas 中也同样支持 DataTime 数据机制,可以借助它实现许多有用的功能,例如 1,函数to_datetime() 将数据列表中的 Series 列转化为 datetime 类型, #Convert the type to datetime apple.Date = pd.to_datetime(apple.Date) apple['Date'].head() # 0 2014-07…
本文转载自https://blog.csdn.net/brucewong0516/article/details/79092579 pandas包是一个高效的文件读取工具,适用于txt,excel,等数据格式的文件,具有很强的自动识别功能. pandas.read_csv可以读取CSV(逗号分割)文件.文本类型的文件text.log类型到DataFrame,下面是pandas.read_csv常用参数整理 pandas也支持文件的部分导入和选择迭代,更多帮助参见:http://pandas.py…
转自:https://blog.csdn.net/qq_21840201/article/details/80725433 ### 随机生DataFrame 类型数据import pandas as pdimport numpy as npframe = pd.DataFrame(np.random.rand(4,4),index=list('abcd'),columns=list('ABCD'))frame  A B C Da 0.560094 0.352686 0.954100 0.9262…
小数据存储 我们在编写代码的时候,经常会涉及到数据存储的情况,如果是爬虫得到的大数据,我们会选择使用数据库,或者excel存储.但如果只是一些小数据,或者说关联性较强且存在存储后复用的数据,我们该如何存储呢? open保存文本 最简单.粗暴+无脑的存储方式就是保存成一个文本文档了. 使用open函数,将结果一行行的保存成文本,这里涉及的知识点只有简单的几条: 文件读写模式,r .w.a.b.+ ,掌握这几种即可. 使用单独的open打开文件时,需要注意结尾时的调用close()函数关闭文档 推荐…
MongoDB是一款由C++语言编写的非关系型数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储方式类似于JSON对象,它的字段值可以是其它文档或数组,但其数据类型只能是String文本型. 在使用之前我们要确保已经安装好了MongoDB并启动了该服务.此处主要用于Python数据的保存,我们要安装Python的PyMongo库,运行 ‘pip install pymongo’ 命令完成pymongo的安装.进入python工作模式,可以通过pymongo.version 查看pymo…
描述: 一个web服务,原先的业务逻辑是把mysql查询的结果缓存在redis中一个小时,加快请求的响应. 现在有个问题就是根据请求的指定的编码返回对应编码的response. 首先是要修改响应的body的编码,由于mysql去出来就是unicode,所以直接使用 ``` content = content.encode(charset) ``` 来转化,然后在请求header中也加入字符编码. 解决: 可是这样测试下来,有的请求可以返回正确的编码格式,有的还是乱码,最后猜测是redis中数据类…
#coding:utf-8import csv headers = ['ID','UserName','Password','Age','Country'] rows = [(1001,'qiye','qiye_pass',24,'China'), (1002,'Mary','Mary_pass',20,"USA"), (1003,"Jack","Jack_pass",20,"USA") ] with open('qiye.c…
原文链接:https://www.jianshu.com/p/f773b4b82c66 value_counts()是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值.value_counts()是Series拥有的方法,一般在DataFrame中使用时,需要指定对哪一列或行使用,该函数返回的也是Series类型,且index为该列的不同值,values为不同值的个数 import pandas as pd import numpy as np filepath…