下面一文章就总结几点关键: 1.要学会观察,尤其是输入数据的特征提取时,看各输入数据和输出的关系,用绘图看! 2.训练后,看测试数据和训练数据误差,确定是否过拟合还是欠拟合: 3.欠拟合的话,说明模型不准确或者特征提取不够,对于特征提取不够问题,可以根据模型的反馈来看其和数据的相关性,如果相关系数是0,则放弃特征,如果过低,说明特征需要再次提炼! 4.用集成学习,bagging等通常可以获得更高的准确度! 5.缺失数据可以使用决策树回归进行预测! 转自:http://blog.csdn.net…
项目地址 https://www.kaggle.com/c/titanic 项目介绍: 除了乘客的编号以外,还包括下表中10个字段,构成了数据的所有特征 Variable Definition Key survival 是否存活 0 = No, 1 = Yes pclass 票的等级 1 = 1st, 2 = 2nd, 3 = 3rd sex 性别   Age 年龄   sibsp 同乘配偶或兄弟姐妹   parch 同乘孩子或父母   ticket 票号   fare 乘客票价   cabin…
泰坦尼克号幸存预测是本小白接触的第一个Kaggle入门比赛,主要参考了以下两篇教程: https://www.cnblogs.com/star-zhao/p/9801196.html https://zhuanlan.zhihu.com/p/30538352 本模型在Leaderboard上的最高得分为0.79904,排名前13%. 由于这个比赛做得比较早了,当时很多分析的细节都忘了,而且由于是第一次做,整体还是非常简陋的.今天心血来潮,就当做个简单的记录(流水账). 导入相关包: import…
一直想着抓取股票的变化,偶然的机会在看股票数据抓取的博客看到了kaggle,然后看了看里面的题,感觉挺新颖的,就试了试. 题目如图:给了一个train.csv,现在预测test.csv里面的Passager是否幸存.train.csv里面包含的乘客信息有 PassagerId 乘客id Survived 乘客是否幸存 Pclass 仓位 Name 乘客姓名 Sex 乘客性别 Age 乘客年龄 SibSp 船上是否有兄弟姐妹 Parch 穿上是否有父母子女 Ticket 船票信息 Fare 票价…
背景 Titanic: Machine Learning from Disaster - Kaggle 2 年前就被推荐照着这个比赛做一下,结果我打开这个页面便蒙了,完全不知道该如何下手. 两年后,再次打开这个页面,看到清清楚楚的Titanic Tutorial - Kaggle,完全傻瓜式的照着做就能做下来.当年是什么蒙蔽了我的眼睛~ Target use machine learning to create a model that predicts which passengers sur…
A Data Science Framework: To Achieve 99% Accuracy https://www.kaggle.com/ldfreeman3/a-data-science-framework-to-achieve-99-accuracy/notebook 额,总共花了2天时间才把上面这个优秀回答运行完,前面还算看得懂,如何清理数据,和画图看联系 但是后面的数据处理,使用各种模型,不知道原理是什么,后面还得花点时间补一下,现在这里记录一下 疑问汇总: 第一问,第21行,左…
https://www.quora.com/How-do-I-learn-machine-learning-1?redirected_qid=6578644   How Can I Learn X? Learning Machine Learning Learning About Computer Science Educational Resources Advice Artificial Intelligence How-to Question Learning New Things Lea…
The Dataset was acquired from https://www.kaggle.com/c/titanic For data preprocessing, I firstly defined three transformers: DataFrameSelector: Select features to handle. CombinedAttributesAdder: Add a categorical feature Age_cat which divided all pa…
昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^) 推荐几本好书: 1.Pattern Recognition and Machine Learning (by Hastie, Tibshirani, and Friedman's ) 2.Elements of Statistical Learning(by Bishop's) 这两本是英文的,但是非常全,第一本需要有一定的数学基础,第可以先看第二本.如果看英文觉得吃力,推荐看一下下面…
Step 1: Basic Python Skills install Anacondaincluding numpy, scikit-learn, and matplotlib Step 2: Foundational Machine Learning Skills Unofficial Andrew Ng course notes Tom Mitchell Machine Learning Lectures Step 3: Scientific Python Packages Overvie…