机器学习三剑客之Pandas中DataFrame基本操作

Pandas 是基于Numpy 的一种工具，是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

安装命令：pip install pandas

具体操作如下：值得注意得是配置环境变量和添加项目路径要优先于导包否则系统将检测不到pandas库

#导包

import os

import sys

#将脚本所在得工程添加到环境变量绝对路径

sys.path.append('c:/Users/王建/www/mymac')

#相对路径

sys.path.append('../mymac')

#将项目路径添加到系统搜索路径

os.environ["DJANGO_SETTINGS_MODULE"] = 'mymac.settings'

#导入django模块

import django

#导入pandsa

import numpy as np

import pandas as pd

#导入sqlalchemy

from sqlalchemy import create_engine

#加载项目配置

django.setup()

#加载数据类

from myapp.models import Student

if __name__ == "__main__":

#加入数据库引擎

engine = create_engine('mysql+pymysql://root:mysql@localhost:3306/mymac')

#sql语句

sql = ' select * from student '

#建立数据框架

df = pd.read_sql_query(sql,engine)

print(df)

# 按照年龄正序加ascending=False倒序

# 类似sql语句 select * from student order by age asc 或者 desc

df = df.sort_values(["age","height"],ascending=False)

print(df)

# 取年龄最小得学生

# select * from student order by age limit 1

df = df.sort_values(["age"])

print(df)

# 求整个班级得平均年龄使用loc方法指定字段

print(df.mean())

print(df.mean(0))

print(df.mean(1))

print(df.loc[df['gender'] == 0].age.mean())

avg_age = df.loc[df['gender'] == 0].age.mean()

print(df.loc[ (df['age'] < avg_age) & (df['gender'] == 0) ])

# 取全班得平均年龄

print(df.age.mean())

# 全班年龄求个

print(df.age.sum())

# 获取男生得年龄求和

print(df.loc[df['gender']==1].age.sum())

# 取全班年龄最小

print(df.age.min())

# 或者 |

print(df.loc[(df['gender'] == 0) | (df['gender'] == 1)])

# 获取人数

print(df.id.count())

# 排除法

print(df.loc[(df['gender'] != 0) & (df['gender'] != 1)])

# 修改操作

df.loc[1,'gender'] = 1

print(df)

df.loc[0,'age'] = 10

print(df)

# 取单值

print(df.loc[5,'name'])

# 获取指定字段

print(df.loc[df['gender'] == 1 , ['id','name','age','height']])

# 将dataframe写入数据表表名，数据引擎索引是否入库

df.to_sql('student_copy',engine,index=False)

# 导出excel文件

# df.to_excel('student.xlsx')

# print(Student.objects.all())

参考数据库表：

机器学习三剑客之Pandas中DataFrame基本操作的更多相关文章

Pandas中DataFrame修改列名
Pandas中DataFrame修改列名:使用 rename df = pd.read_csv('I:/Papers/consumer/codeandpaper/TmallData/result01- ...
Spark与Pandas中DataFrame对比
Pandas Spark 工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制paral ...
pandas中DataFrame的ix，loc，iloc索引方式的异同
pandas中DataFrame的ix,loc,iloc索引方式的异同 1.loc: 按照标签索引,范围包括start和end 2.iloc: 在位置上进行索引,不包括end 3.ix: 先在inde ...
Spark与Pandas中DataFrame对比（详细）
Pandas Spark 工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制paral ...
机器学习三剑客之 pandas + numpy
机器学习什么是机器学习? 机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测机器学习存在的目的和价值领域? 领域: 医疗.航空.教育.物流.电商等... 目的: 让机器学习 ...
pandas中DataFrame对象to_csv()方法中的encoding参数
当使用pd.read_csv()方法读取csv格式文件的时候,常常会因为csv文件中带有中文字符而产生字符编码错误,造成读取文件错误,在这个时候,我们可以尝试将pd.read_csv()函数的enco ...
pandas中DataFrame和Series的数据去重
在SQL语言中去重是一件相当简单的事情,面对一个表(也可以称之为DataFrame)我们对数据进行去重只需要GROUP BY 就好. select custId,applyNo from tmp.on ...
pandas中DataFrame重置设置索引
在pandas中,经常对数据进行处理而导致数据索引顺序混乱,从而影响数据读取.插入等. 小笔总结了以下几种重置索引的方法: import pandas as pd import numpy as n ...
pandas中Dataframe的查询方法（[], loc, iloc, at, iat, ix）
数据介绍先随机生成一组数据: import pandas as pd import numpy as np state = ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'N ...

随机推荐

Python 字符串拼接 sql ,造成 sql 注入例子
简单的 userinfo 表字符串拼接 sql import pymysql # 测试环境的数据库连接 conn = pymysql.connect(host='192.168.0.214', po ...
网页导航栏 html + css的代码实现
一般来讲,我们的网页导航栏是这么个模式来构建在结构上:1.首先我们需要给导航栏的div 给个类名一般为nav2.然后就是一个无序表格 3.由于导航栏的文字一般都是链接用来跳转页面要在li里面包含一 ...
CSS实现两列布局，一列固定宽度，一列宽度自适应方法
不管是左是右,反正就是一边宽度固定,一边宽度自适应. 博客园的很多主题也是这样设计的,我的博客也是右侧固定宽度,左侧自适应屏幕的布局方式. html代码: <div id="wrap& ...
2018-08-06 在Office的VBA代码里中文命名
在Excel处理数据时, 顺便试了一下VBA代码编辑器里输入中文, 结果显示为乱码. 查了一下发现VBA本身支持Unicode, 但需要设置系统配置使编辑器能够正常显示, 即设置简体中文为Curren ...
判断字符串a和b是否互为旋转词
旋转词:把字符串str的任意部分移动到后面形成的新字符串叫做字符串str的旋转词. 比如abc的旋转词有 abc,acb,cba,... 判断str1和str2是否互为旋转词,其最优解可以是时间复杂度 ...
wap2app（九）-- 使用mui.previewImage之后，页面a链接不能跳转
使用Hbuilder的长按保存图片的预览图片之后,页面所有的a链接都不能跳转. 解决办法: 可以使用下面绑定tap利用js跳转,亲测有效. mui('body').on( 'tap' , 'a' , ...
The value of ESP was not properly saved across a function call 快速解决
The value of ESP was not properly...快速解决今天遇到这个问题,真的是非常头疼,期间电脑居然崩掉一次.所以,分享一下解决办法. 如果是:类定义的时候,新添加了属性, ...
git 入门教程之变基合并
git 鼓励大量使用分支---"早建分支!多用分支!",这是因为即便创建再多的分支也不会造成存储或内存开销,并且分支的作用有助于我们分解逻辑工作,这样一样其实比维护单一臃肿分支要简 ...
(网页)sweetalert api 中文开发文档和手册,项目放弃alert
弹框json的特别好使. sweetalert 示例基本信息弹窗swal("这是一条信息!") 标题与文本的信息弹窗swal("这是一条信息!", " ...
XML 和 DTD
1.XML 1.1xml简介 a)xml,eXtensible Markup Language,可扩展标记语言,是一种标记语言: b)xml是一种非常灵活的语言,没有固定的标签,所有的额标签都可以自定 ...

机器学习三剑客之Pandas中DataFrame基本操作

机器学习三剑客之Pandas中DataFrame基本操作的更多相关文章

随机推荐

热门专题