Kaggle 项目之 Digit Recognizer】的更多相关文章

train.csv 和 test.csv 包含 1~9 的手写数字的灰度图片.每幅图片都是 28 个像素的高度和宽度,共 28*28=784 个像素点,每个像素值都在 0~255 之间. train.csv 包含 785 列,因为第 1 列是手写数字的真实值,后面的 784 列都是像素值.除第一行外,有 42000 条数据. test.csv 除了不包含 label 列,其它跟 train.csv 一样.除第一行外,有 28000 条数据. 先来看看 train.csv 里的灰度图片是什么样子.…
date:2016-09-13 今天开始注册了kaggle,从digit recognizer开始学习, 由于是第一个案例对于整个流程目前我还不够了解,首先了解大神是怎么运行怎么构思,然后模仿.这样的学习流程可能更加有效,目前看到排名靠前的是用TensorFlow.ps:TensorFlow是可以直接安linux环境下面,但是目前不能在windows环境里面运行(伤心一万点). TensorFlow模块用的是NN(神经网络),既然现在接触到可以用神经网络的例子我再也不好意思再逃避学习神经网络下面…
目录 0 前言 1 简介 2 数据准备 2.1 导入数据 2.2 检查空值 2.3 正则化 Normalization 2.4 更改数据维度 Reshape 2.5 标签编码 2.6 分割交叉验证集 3 CNN 3.1 定义网络模型 3.2 设置优化器和退火器 optimizer and annealer 3.3 数据增强 4 评估模型 4.1 训练和交叉验证曲线 4.2 混淆矩阵 Confusion matrix 5 生成结果 0 前言 比赛网址:https://www.kaggle.com/…
一.前言 kaggle上有传统的手写数字识别mnist的赛题,通过分类算法,将图片数据进行识别.mnist数据集里面,包含了42000张手写数字0到9的图片,每张图片为28*28=784的像素,所以整个数据集的大小为(42000,784),加上标签值的一列. 二.模型选择 通过简单的数据观察,发现这些数据都是初始的像素数据,还没经过标准化.所以对其做标准化处理后,我们就可以进入到模型选择的步骤了. 整个数据集dataset的数据量不算小,shape为(42000,784),为了节省时间,我们可以…
准备工作 数据集介绍 数据文件 train.csv 和 test.csv 包含从零到九的手绘数字的灰度图像. 每张图像高 28 像素,宽 28 像素,总共 784 像素.每个像素都有一个与之关联的像素值,表示该像素的亮度或暗度,数字越大表示越暗.该像素值是介于 0 和 255 之间的整数,包括 0 和 255. 训练数据集 (train.csv) 有 785 列.第一列称为"标签",是用户绘制的数字.其余列包含相关图像的像素值. 训练集中的每个像素列都有一个类似 pixelx 的名称,…
Digit Recognizer 手写体数字识别  MNIST数据集 本赛 train 42000样例 test 28000样例,原始MNIST是 train 60000 test 10000 我分别用 Logistic Regression/ 784-200-200-10的Sparse AutoEncoder/Convolution AutoEncoder刷了下 ===============方法一. One-Vs-All 的Logistic Regression===============…
题目链接:Kiggle:Digit Recognizer Each image is 28 pixels in height and 28 pixels in width, for a total of 784 pixels in total. 给的是28像素的高和宽,所以总共有784像素,在处理的过程中,先用PCA进行降维,对数据进行主要的特征分量:然后通过KNN(K-邻近算法)进行对测试数据的预测分类. 1.对于PCA算法:主成分分析,是通过线性变质将原始数据转换程一组各维度无关的表示,可以…
DeepLearning to digit recongnizer in kaggle 近期在看deeplearning,于是就找了kaggle上字符识别进行练习.这里我主要用两种工具箱进行求解.并比对两者的结果. 两种工具箱各自是DeepLearningToolbox和caffe. DeeplearningToolbox源代码解析见:http://blog.csdn.net/lu597203933/article/details/46576017 Caffe学习见:http://caffe.b…
项目地址 https://www.kaggle.com/c/titanic 项目介绍: 除了乘客的编号以外,还包括下表中10个字段,构成了数据的所有特征 Variable Definition Key survival 是否存活 0 = No, 1 = Yes pclass 票的等级 1 = 1st, 2 = 2nd, 3 = 3rd sex 性别   Age 年龄   sibsp 同乘配偶或兄弟姐妹   parch 同乘孩子或父母   ticket 票号   fare 乘客票价   cabin…
文章目录 加载package read data PCA 降维探索 选择50维度, 拆分数据为训练集,测试机 KNN PCA降维和K值筛选 分析k & 维度 vs 精度 预测 生成提交文件 本文采用PCA+KNN的方法进行kaggle手写数字识别,训练数据共有42000行,每行代表一幅数字图片,共有784列(一副数字图像是28*28像素,将一副图像展开为一行即784),更多关于Digit Recognizer项目的介绍https://www.kaggle.com/c/digit-recogniz…
Kaggle(一) 房价预测 (随机森林.岭回归.集成学习)  项目介绍:通过79个解释变量描述爱荷华州艾姆斯的住宅的各个方面,然后通过这些变量训练模型, 来预测房价.   kaggle项目链接:https://www.kaggle.com/c/house-prices-advanced-regression-techniques 数据描述: train.csv - 训练集 test.csv - 测试集 一.加载数据 #加载必要库 import pandas as pd import numpy…
系列 <使用sklearn进行集成学习——理论> <使用sklearn进行集成学习——实践> 目录 1 Random Forest和Gradient Tree Boosting参数详解2 如何调参? 2.1 调参的目标:偏差和方差的协调 2.2 参数对整体模型性能的影响 2.3 一个朴实的方案:贪心的坐标下降法 2.3.1 Random Forest调参案例:Digit Recognizer 2.3.1.1 调整过程影响类参数 2.3.1.2 调整子模型影响类参数 2.3.2 Gr…
SMO例子: 1 from numpy import * 2 import matplotlib 3 import matplotlib.pyplot as plt 4 5 def loadDataSet(fileName): 6 dataMat = []; labelMat = [] 7 fr = open(fileName) 8 for line in fr.readlines(): 9 lineArr = line.strip().split(',') 10 dataMat.append(…
转:http://www.cnblogs.com/jasonfreak/p/5720137.html 目录 1 Random Forest和Gradient Tree Boosting参数详解2 如何调参? 2.1 调参的目标:偏差和方差的协调 2.2 参数对整体模型性能的影响 2.3 一个朴实的方案:贪心的坐标下降法 2.3.1 Random Forest调参案例:Digit Recognizer 2.3.1.1 调整过程影响类参数 2.3.1.2 调整子模型影响类参数 2.3.2 Gradi…
随机森林算法的理论知识 随机森林是一种有监督学习算法,是以决策树为基学习器的集成学习算法.随机森林非常简单,易于实现,计算开销也很小,但是它在分类和回归上表现出非常惊人的性能,因此,随机森林被誉为“代表集成学习技术水平的方法”. 一,随机森林的随机性体现在哪几个方面? 1,数据集的随机选取 从原始的数据集中采取有放回的抽样(bagging),构造子数据集,子数据集的数据量是和原始数据集相同的.不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复. 2,待选特征的随机选取 与数据集的随机选…
https://www.quora.com/How-do-I-learn-machine-learning-1?redirected_qid=6578644   How Can I Learn X? Learning Machine Learning Learning About Computer Science Educational Resources Advice Artificial Intelligence How-to Question Learning New Things Lea…
What's the most effective way to get started with deep learning?       29 Answers     Yoshua Bengio, My lab has been one of the three that started the deep learning approach, back in 2006, along with Hinton's... Answered Jan 20, 2016   Originally Ans…
http://blog.csdn.net/dinosoft/article/details/51813615 前言 对于深度学习,新手我推荐先看UFLDL,不做assignment的话,一两个晚上就可以看完.毕竟卷积.池化啥的并不是什么特别玄的东西.课程简明扼要,一针见血,把最基础.最重要的点都点出来 了. cs231n这个是一个完整的课程,内容就多了点,虽然说课程是computer vision的,但80%还是深度学习的内容.图像的工作暂时用不上,我就先略过了. 突然发现这两个课程都是斯坦福的…
01 - Machine learning infographic 图片解读机器学习的基本概念.五大流派与九种常见算法 EN:http://usblogs.pwc.com/emerging-technology/machine-learning-101/ CN:https://zhuanlan.zhihu.com/p/29440419 Machine learning overview (infographic):http://usblogs.pwc.com/emerging-technolog…
2.4.1 构造kd树 给定一个二维空间数据集,T={(2,3),(5,4),(9,6)(4,7),(8,1),(7,2)} ,构造的kd树见下图 2.4.2 kd树最近邻搜索算法 三.实现算法 下面算法实现并没有从构建kd树再搜索kd树开始,首先数据分为两部分,train数据和predict的数据,将train的数据抽取k个作为predict的最临近k节点,计算这k个数据和predict的距离,继续计算train中其他数据和predict的欧式距离,若小于k中欧式距离,那么替换较大的原始最临近…
Training (deep) Neural Networks Part: 1 Nowadays training deep learning models have become extremely easy with high-quality libraries such as Torch and Theano. These libraries are really helpful for rapidly prototyping deep learning models even witho…
数据分析是个通用技能,适合各行各业,比如运营.产品.分析等职位都会要求会数据分析. 一.考察对数据分析岗位的理解与职业规划 数据分析师与数据工程师的区别在哪里? 为什么转行, 为什么没在公司内部转岗? 你理解的分析师的工作是怎样的? 分析团队的价值是什么? 你觉得数据分析最重要的是什么? 你平时都是怎么做数据清洗的? 数据分析都用哪些工具? 你认为数据分析师应该具备哪些能力? 你对数据分析这个职位有什么看法? 你对自己的职业定位是怎样的? 你的优点和缺点是什么? 为什么要选择做数据分析?(如果是…
今天准备用Keras跑一下LeNet的程序,结果总是编码出错 源代码是2.7写的,编码格式是utf-8.然后尝试网上各种方法不适用,最后还是解决了 源代码: data = gzip.open(r'C:\Users\Administrator\Desktop\Digit Recognizer\mnist.pkl.gz') train_set,valid_set,test_set = cPickle.load(data) 修改后: with gzip.open(r'C:\Users\Administ…
作者:大树 更新时间:01.20 email:59888745@qq.com 数据处理,机器学习 回主目录:2017 年学习记录和总结 .caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px solid #000; } .table { border-collapse: collapse !important; } .table td, .table th { bac…
自从入了数据挖掘的坑,就在不停的看视频刷书,但是总觉得实在太过抽象,在结束了coursera上Andrew Ng 教授的机器学习课程还有刷完一整本集体智慧编程后更加迷茫了,所以需要一个实践项目来扎实之前所学的知识.于是就参考kaggle上的starter项目Titanic,并选取了kernel中的一篇较为祥尽的指南,从头到尾实现了一遍.因为kaggle入门赛相关方面的参考和指导非常少,因此写博给需要学习的同学做个小参考,也记录下数据挖掘的学习历程.新手上路,如果博文有误或缺失,还希望各位大神指正…
一.EDA(Exploratory Data Analysis) EDA:也就是探索性的分析数据 目的: 理解每个特征的意义: 知道哪些特征是有用的,这些特征哪些是直接可以用的,哪些需要经过变换才能用,为之后的特征工程做准备: 1)每个特征的意义.特征的类型: df.describe() df['Category'].unique() 2)看是否存在 missing value(特征数据是否缺失) df.loc[df.Dates.isnull(),'Dates'] 3)看每个特征下的数据分布,用…
Martyr2项目实现--Number部分的问题求解 (1) Find Pi to Nth Digit Find Pi to Nth Digit 问题描述: Find PI to the Nth Digit – Enter a number and have the program generate PI up to that many decimal places. Keep a limit to how far the program will go. 翻译: 给定一个整数N,让程序生成精确…
前言 这是学习视频中留下来的一个作业,我决定根据大佬的步骤来一步一步完成整个项目,项目的下载地址如下:https://www.kaggle.com/c/titanic/data 大佬的传送门:https://zhuanlan.zhihu.com/p/338974416 查看数据 首先我们打开训练集,看到的数据如下 我们可以看到这个数据集里面的特征类别有,乘客序号,是否存活,船票等级,性别,年龄,在船上的亲属数量,票的号码,票价,座舱号,和登船地 所以我们需要判定哪些数据是有效的 读取数据 imp…
原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accuracy Step 5: Model Data 数据科学是交叉学科,我们仅仅称他为计算机科学的一部分是有失公正的,它包含了数学,cs,商业管理,统计学等等方向. 机器学习被分为监督学习,无监督学习和强化学习,强化学习是前两者的混合. 算法被归为四类:分类.回归.聚类.降维,此kernel专注于分类与…
---恢复内容开始--- 原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accuracy Step 4: Perform Exploratory Analysis with Statistics 使用描述性与图表分析数据,重点在于数据可视化,突出数据类别与不同feature的关联性 简单的groupby()获得不同feature对于生存率的影响 箱型图…