数据清洗及可视化 实验内容 数据清洗是数据分析中非常重要的一部分,也最繁琐,做好这一步需要大量的经验和耐心.这门课程中,我将和大家一起,一步步完成这项工作.大家可以从这门课程中学习数据清洗的基本思路以及具体操作,同时,练习使用 Pandas 数据分析工具.Seaborn 统计分析可视化工具. 实验知识点 离群点分析 缺失值处理 偏态分布数据处理 实验步骤 环境准备 下载数据 !wget -nc http://labfile.oss.aliyuncs.com/courses/1001/train.…
原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accuracy 问题处理之前要知道的事: 数据科学框架(A Data Science Framework) 1.定义问题(Define the Problem): 问题→需求→方法→设计→技术,这是刚开始拿到问题的解决流程,所以在我们用一些fancy的技巧和算法解决问题之前,必须要明确我们需要解决的问题到…
Titanic 数据集是从 kaggle下载的,下载地址:https://www.kaggle.com/c/titanic/data 数据一共又3个文件,分别是:train.csv,test.csv,gender_submission.csv 先把需要视同的库导入: import os import datetime import operator import numpy as np import pandas as pd import xgboost as xgb from sklearn.…
Titanic 数据集是从 kaggle下载的,下载地址:https://www.kaggle.com/c/titanic/data 数据一共又3个文件,分别是:train.csv,test.csv,gender_submission.csv 先把需要视同的库导入: import os import datetime import operator import numpy as np import pandas as pd import xgboost as xgb from sklearn.…
一.AdaBoost 元算法的基本原理 AdaBoost是adaptive boosting的缩写,就是自适应boosting.元算法是对于其他算法进行组合的一种方式. 而boosting是在从原始数据集选择S次后得到S个新数据集的一种技术.新数据集和原数据集的大小相等.每个数据集都是通过在原始数据集中随机选择一个样本来进行替换而得到的.这里的替换就意味着可以多次地选择同一样本.这一性质就允许新数据集中可以有重复的值,而原始数据集的某些值在新集合中则不再出现. 在S个数据集建好之后,将某个学习算…
自从入了数据挖掘的坑,就在不停的看视频刷书,但是总觉得实在太过抽象,在结束了coursera上Andrew Ng 教授的机器学习课程还有刷完一整本集体智慧编程后更加迷茫了,所以需要一个实践项目来扎实之前所学的知识.于是就参考kaggle上的starter项目Titanic,并选取了kernel中的一篇较为祥尽的指南,从头到尾实现了一遍.因为kaggle入门赛相关方面的参考和指导非常少,因此写博给需要学习的同学做个小参考,也记录下数据挖掘的学习历程.新手上路,如果博文有误或缺失,还希望各位大神指正…
---恢复内容开始--- 原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accuracy Step 4: Perform Exploratory Analysis with Statistics 使用描述性与图表分析数据,重点在于数据可视化,突出数据类别与不同feature的关联性 简单的groupby()获得不同feature对于生存率的影响 箱型图…
分享一篇kaggle入门级案例,泰坦尼克号幸存遇难分析. 参考文章: 技术世界,原文链接 http://www.jasongj.com/ml/classification/ 案例分析内容: 通过训练集分析预测什么人可能生还,并对测试集中乘客做出预测判断 案例分析 加载包 library(dplyr) #bind_rows() library(ggplot2) #绘图 library(ggthemes) library(InformationValue) #计算WOE和IV library(str…
一.读入titanic.xlsx文件,按照教材示例步骤,完成数据清洗. titanic数据集包含11个特征,分别是: Survived:0代表死亡,1代表存活Pclass:乘客所持票类,有三种值(1,2,3)Name:乘客姓名Sex:乘客性别Age:乘客年龄(有缺失)SibSp:乘客兄弟姐妹/配偶的个数(整数值)Parch:乘客父母/孩子的个数(整数值)Ticket:票号(字符串)Fare:乘客所持票的价格(浮点数,0-500不等)Cabin:乘客所在船舱(有缺失)Embark:乘客登船港口:S…
一.读入titanic.xlsx文件,按照教材示例步骤,完成数据清洗. titanic数据集包含11个特征,分别是: Survived:0代表死亡,1代表存活Pclass:乘客所持票类,有三种值(1,2,3)Name:乘客姓名Sex:乘客性别Age:乘客年龄(有缺失)SibSp:乘客兄弟姐妹/配偶的个数(整数值)Parch:乘客父母/孩子的个数(整数值)Ticket:票号(字符串)Fare:乘客所持票的价格(浮点数,0-500不等)Cabin:乘客所在船舱(有缺失)Embark:乘客登船港口:S…