集成开发环境:Pycharm python版本:2.7(anaconda库) 用到的库:科学计算库numpy,数据分析包pandas,画图包matplotlib,机器学习库sklearn 大体步骤分为三步: 1.数据分析 2.交叉验证 3.预测并输出结果 导入库函数 import numpy as np import pandas as pa import matplotlib.pyplot as pl from sklearn.linear_model import LogisticRegre…
自从入了数据挖掘的坑,就在不停的看视频刷书,但是总觉得实在太过抽象,在结束了coursera上Andrew Ng 教授的机器学习课程还有刷完一整本集体智慧编程后更加迷茫了,所以需要一个实践项目来扎实之前所学的知识.于是就参考kaggle上的starter项目Titanic,并选取了kernel中的一篇较为祥尽的指南,从头到尾实现了一遍.因为kaggle入门赛相关方面的参考和指导非常少,因此写博给需要学习的同学做个小参考,也记录下数据挖掘的学习历程.新手上路,如果博文有误或缺失,还希望各位大神指正…
原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accuracy Step 5: Model Data 数据科学是交叉学科,我们仅仅称他为计算机科学的一部分是有失公正的,它包含了数学,cs,商业管理,统计学等等方向. 机器学习被分为监督学习,无监督学习和强化学习,强化学习是前两者的混合. 算法被归为四类:分类.回归.聚类.降维,此kernel专注于分类与…
原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accuracy 问题处理之前要知道的事: 数据科学框架(A Data Science Framework) 1.定义问题(Define the Problem): 问题→需求→方法→设计→技术,这是刚开始拿到问题的解决流程,所以在我们用一些fancy的技巧和算法解决问题之前,必须要明确我们需要解决的问题到…
Computer Virus on Planet Pandora Time Limit: 6000/2000 MS (Java/Others) Memory Limit: 256000/128000 K (Java/Others)Total Submission(s): 2578 Accepted Submission(s): 713 Problem Description Aliens on planet Pandora also write computer progra…
Ubiquitous Religions Time Limit: 5000MS Memory Limit: 65536K Total Submissions: 23997 Accepted: 11807 Description There are so many different religions in the world today that it is difficult to keep track of them all. You are interested in findi…