Deep_into

具体ipynb文件请移步Github

#各种所需要的库函数首先加载

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sb

import warnings

warnings.filterwarnings('ignore')

%matplotlib inline

# Part 1.iris深入认识

### 这是什么数据，加载后请分析？

iris=pd.read_csv('data/iris-data.csv')

iris.head()

iris.shape

iris.columns.tolist()

iris.count()

iris.info()

iris.describe()

iris.isnull().sum()

#又是class列名惹的祸

iris.rename(columns={'class':'species'},inplace=True)

iris['species'].value_counts()

#### 初步探索：

#数据共有150行数据，每行5列；

#前4列为两个二元组，即花萼长宽、花瓣长宽；

#第五列为花的种类，由于列名不一致，所以列出了5中，但只有三种。

#空值数据为petal_width_cm，有5个空值

#类别名称不要用class，命名产生冲突

### 解决第一步遇到的问题

#1.解决类名不一致

#2.解决空值

#### 以上发现了类名有问题，即列名不一致。

#某列的名字需要改：data_df.rename(columns={'class':'Species'},inplace=True)

#某列中的类别需要改：data_df['Species'].replace(['versicolor','Iris-setossa'],['Iris-versicolor','Iris-setosa'],inplace=True)

iris['species'].replace(['versicolor','Iris-setossa'],['Iris-versicolor','Iris-setosa'],inplace=True)

iris['species'].value_counts()

#### 解决空值问题，由于空值少，所以可以用均值填充，如果缺失值太多，那么可以剔除，但要保留数据到备份。

#### 特别注意，空值是属于哪一类的，不要拿所有类的均值填充！！！

#### pd.loc是用[], excuse me ?

#average=iris['petal_width_cm'].mean()#skipna : boolean, default True

#iris['petal_width_cm'].fillna(average)

iris.isnull().sum()

df_part=iris[iris['petal_width_cm'].isnull()==True]

df_part

#注意到空值的所有数据都是Iris-setosa的数据，所以用这个数据填充

average=iris.loc[iris['species']=='Iris-setosa','petal_width_cm' ].mean()

iris.loc[(iris['species']=='Iris-setosa') & (iris['petal_width_cm'].isnull()),'petal_width_cm']

iris.loc[(iris['species']=='Iris-setosa') & (iris['petal_width_cm'].isnull()),'petal_width_cm']=average

iris.isnull().sum()

# Part 2.各种图表分析

sb.pairplot(iris,hue='species')

#### seaborn的二元plot绘图很好用，两两组合，对角线是hist图表。

#### 以上观察第一列的黄点和第二列观察到蓝色是离群点。再用柱状图进一步分析：

#### 以下发现Iris-versicolor中的  sepal_length_cm有问题

iris[iris['species']=='Iris-versicolor'].hist()

iris[iris['sepal_length_cm']<2.5]

iris.loc[(iris['species']=='Iris-versicolor') & (iris['sepal_length_cm']>2.5), 'sepal_length_cm' ].mean()

iris.loc[(iris['species']=='Iris-versicolor') & (iris['sepal_length_cm']<2.5), 'sepal_length_cm' ].mean()

#### 对比发现，两种数据相差100倍，所以根据业务场景分析，应该是单位cm与 m 导致的错误，所以纠正数据而不是drop数据。

#### 此处用到了 *=  的精髓， 将原来的数据扩大或缩小倍数

iris.loc[(iris['species']=='Iris-versicolor') & (iris['sepal_length_cm']<2.5), 'sepal_length_cm' ] *=100

#### 接下来观察蓝色离群点，即Iris-setosa，绘制以下图表后发现：

#### 其sepal_width_cm异常

iris.loc[iris['species']=='Iris-setosa','sepal_width_cm'].hist()

iris.loc[(iris['species']=='Iris-setosa') & (iris['sepal_width_cm']<2.5)]

iris.loc[(iris['species']=='Iris-setosa') & (iris['sepal_width_cm']>2.5),'sepal_width_cm'].describe()

(2.9-2.3)/2.3

(3.44-2.3)/3.44

#就该异常点来看：（2.9-2.3）%2.3=0.26086956521739135，

#它本身就离群中心较远，而且比离他最近的都小了较大的一部分。由于没有具体场景分析调整，所以drop掉

iris = iris.loc[(iris['species'] != 'Iris-setosa') | (iris['sepal_width_cm'] >= 2.5)]

iris.loc[iris['species'] == 'Iris-setosa', 'sepal_width_cm'].hist()

;

sb.pairplot(iris,hue='species')

#### 清洗完数据后就可以保存干净的数据到新的csv文件中了。

iris.to_csv('iris-data-clean.csv', index=False)

iris_data_clean = pd.read_csv('iris-data-clean.csv')

## Testing our data

# We know that we should only have three classes

assert len(iris_data_clean['species'].unique()) == 3

# We know that sepal lengths for 'Iris-versicolor' should never be below 2.5 cm

assert iris_data_clean.loc[iris_data_clean['species'] == 'Iris-versicolor', 'sepal_length_cm'].min() >= 2.5

# We know that our data set should have no missing measurements

assert len(iris_data_clean.loc[(iris_data_clean['sepal_length_cm'].isnull()) |

                               (iris_data_clean['sepal_width_cm'].isnull()) |

                               (iris_data_clean['petal_length_cm'].isnull()) |

                               (iris_data_clean['petal_width_cm'].isnull())]) == 0

sb.pairplot(iris_data_clean)#没有 hue参数，所以全都是一类，都是同一颜色

;

sb.pairplot(iris_data_clean,hue='species')

;

花瓣的尺寸可以很容易地区分Iris-setosa和其他类型的鸢尾。鉴于Iris-versicolor和鸢尾-virginica的测量值有多少重叠，区分它们将变得更加困难。 花瓣长度和花瓣宽度，以及萼片长度和萼片宽度之间也存在相关性。 田野生物学家向我们保证，这是可以预料的:花瓣越长，往往越宽，萼片也一样。 我们也可以把数据绘制成小提琴图来比较各个班级的测量分布。

plt.figure(figsize=(10, 10))

for column_index, column in enumerate(iris_data_clean.columns):

    if column == 'species':

        continue

    #print('column_index=',column_index) column_index是0序

    plt.subplot(2, 2, column_index + 1)

    sb.violinplot(x='species', y=column, data=iris_data_clean)

Deep_into_iris的更多相关文章

随机推荐

sql常识性误解
今天在公司一个项目,遇到一个问题,最后解决下来竟然发现自己对sql竟然存在一个常识性的误解表数据需求如下查找 name中的数据被参数 'adsb' 包含的的列个人原先的误区一直在于一个认识, ...
博客图片失效？使用npm工具一次下载/替换所有失效的外链图片
前言大约一个月前,微博的图片外链失效了,以及掘金因为盗链问题也于2019/06/06决定开启防盗链,造成的影响是:个人博客网站的引用了这些图片外链都不能显示. 目前微博和掘金的屏蔽,在CSDN和se ...
poj3187【dfs】
挑战-搜索题意: 给一个n和sum,代表n层的杨辉三角,然后给一个和,问最低层的数字情况. 思路: ①:预处理一个底层对于和的系数数组, sum = 0Cn-1*num[1] + 1Cn-1*num ...
hdoj5671 BestCoder Round #81 (div.2)
对于交换行.交换列的操作,分别记录当前状态下每一行.每一列是原始数组的哪一行.哪一列即可. 对每一行.每一列加一个数的操作,也可以两个数组分别记录.注意当交换行.列的同时,也要交换增量数组. 输出时通 ...
hdoj3790 【最短路】
这一题啊,其实还是很简单的~(A掉了就很简单啊~) 思路: 松弛,然后在里面维护一个小最短路~: A掉这一题,感觉松弛的理解又上了一个台阶,以及spfa的原理,最短路用到的原理就是松弛,先把图构造到最 ...
bzoj 4446: [Scoi2015]小凸玩密室【树形dp】
神仙题!参考https://www.cnblogs.com/wfj2048/p/7695711.html 注意完全二叉树不是满二叉树!!!! 设g[u][j]为u遍历完子树到深度为i-1的祖先的兄弟的 ...
题解报告：poj 1113 Wall（凸包）
Description Once upon a time there was a greedy King who ordered his chief Architect to build a wall ...
128 Longest Consecutive Sequence 一个无序整数数组中找到最长连续序列
给定一个未排序的整数数组,找出最长连续序列的长度.例如,给出 [100, 4, 200, 1, 3, 2],这个最长的连续序列是 [1, 2, 3, 4].返回所求长度: 4.要求你的算法复杂度为 O ...
D. Black Hills golden jewels 二分答案 + 二分判定
http://codeforces.com/gym/101064/problem/D 题目是给定一个数组,如果两两组合,有C(n, 2)种结果,(找出第一个大于等于第k大的结果) 思路, 二分答案va ...
word2vec的Java源码【转】
一.核心代码 word2vec.java package com.ansj.vec; import java.io.*; import java.lang.reflect.Array; import ...

Deep_into_iris

Deep_into_iris的更多相关文章

随机推荐

热门专题