Kaggle-pandas(2)】的更多相关文章

pandas内存优化分享 缘由 最近在做Kaggle上的wiki文章流量预测项目,这里由于个人电脑配置问题,我一直都是用的Kaggle的kernel,但是我们知道kernel的内存限制是16G,如下: 在处理数据过程中发现会超出,虽然我们都知道对于大数据的处理有诸如spark等分布式处理框架,但是依然存在下面的问题: 对于个人来说,没有足够的资源让这些框架发挥其优势: 从处理数据的库丰富程度上,还是pandas等更具有优势: 很多时候并不是pandas无法处理,只是数据未经优化: 所以这里还是考…
1:改进我们的特征 在上一个任务中,我们完成了我们在Kaggle上一个机器学习比赛的第一个比赛提交泰坦尼克号:灾难中的机器学习. 可是我们提交的分数并不是非常高.有三种主要的方法可以让我们能够提高他: 用一个更好的机器学习算法: 生成更好的特征: 合并多重机器学习算法. 在这节的任务总,我们将会完成这三个.首先,我们将找到一个不同的算法来使用逻辑回归--随记森林(randaom forests). 2:随机森林简介 正如我们在上一节任务中顺便提到的,决策树能从数据中学会非线性趋势.一个例子如下:…
此为中文翻译版 1:竞赛 我们将学习如何为Kaggle竞赛生成一个提交答案(submisson).Kaggle是一个你通过完成算法和全世界机器学习从业者进行竞赛的网站.如果你的算法精度是给出数据集中最高的,你将赢得比赛.Kaggle也是一个实践你机器学习技能的非常有趣的方式. Kaggle网站有几种不同类型的比赛.其中的预测一个就是预测在泰坦尼克号沉没的时候哪个乘客会成为幸存者. 在这个任务和下一个任务我们将学习如何提交我们的答案. 我们的数据是csv格式.你可以在这里下载数据开始比赛. 每一行…
如何使用Python在Kaggle竞赛中成为Top15 Kaggle比赛是一个学习数据科学和投资时间的非常的方式,我自己通过Kaggle学习到了很多数据科学的概念和思想,在我学习编程之后的几个月就开始了Kaggle比赛,最近还赢得了几个比赛. 要在Kaggle比赛中取得好成绩不仅仅是要求知道一些机器学习算法,而且要有一个准确的思维模式,好学,花大量的时间探索数据.虽然,在很多方面通常都不强调在开始Kaggle比赛的时候使用教程(tutorials),但是在这里,我将告诉大家如何开始Kaggle…
Titanic是kaggle上的一道just for fun的题,没有奖金,但是数据整洁,拿来练手最好不过啦. 这道题给的数据是泰坦尼克号上的乘客的信息,预测乘客是否幸存.这是个二元分类的机器学习问题,但是由于数据样本相对较少,在当时慌乱的情况下幸存者有一定的随机性,还是有一定挑战的.https://www.kaggle.com/c/titanic-gettingStarted/ 一 载入数据 首先,我们要先看一看数据,分析数据的一些较为直观的特征.代码使用numpy pandas和scikit…
这两天报名参加了阿里天池的’公交线路客流预测‘赛,就顺便先把以前看的kaggle的titanic的训练赛代码在熟悉下数据的一些处理.题目根据titanic乘客的信息来预测乘客的生还情况.给了titanic_test.csv和titanic_train.csv两数据表.首先是表的一些字段说明: PassengerId -- A numerical id assigned to each passenger. Survived -- Whether the passenger survived (1…
初窥Kaggle竞赛 原文地址: https://www.dataquest.io/mission/74/getting-started-with-kaggle 1: Kaggle竞赛 我们接下来将要学习如果在Kaggle竞赛上进行一次提交.Kaggle是一个创造算法,与来自全世界的机器学习练习者竞赛的平台.你的算法在给定的数据集中准确率越高你就赢了.Kaggle是一个有趣的途径去联系机器学习技能. Kaggle网站上有不同的竞赛.有一个是预测哪个成哥在泰坦尼克号上存活下来.在接下去的任务中,我…
正文:14pt 代码:15px 1 初探数据 先看看我们的数据,长什么样吧.在Data下我们train.csv和test.csv两个文件,分别存着官方给的训练和测试数据. import pandas as pd #数据分析 import numpy as np #科学计算 from pandas import Series,DataFrame data_train = pd.read_csv("/Users/Hanxiaoyang/Titanic_data/Train.csv") da…
Grupo Bimbo Inventory Demand kaggle比赛解决方案集合 Grupo Bimbo Inventory Demand 在这个比赛中,我们需要预测某个产品在某个销售点每周的需求量.数据包含墨西哥9周的销售数据.每周,货运车辆把产品发往销售点,每笔交易包含销售量和退货量,其中退货量主要由未销售出的和过期的产品组成.每个产品的需求量是指该商品这周的销售量减去下周的退货量. 几点注意: 测试数据中可能包含训练数据中不存在的商品.这在实际的生活中是十分常见的.所以模型必须很好的…
Facial_Keypoints_Detection github code facial-keypoints-detection, 这是一个人脸识别任务,任务是识别人脸图片中的眼睛.鼻子.嘴的位置.训练集包含以下15个位置的坐标,行末是图片的像素值,共96*96个像素值.测试集只包含图片的像素值. left_eye_center, right_eye_center, left_eye_inner_corner, left_eye_outer_corner, right_eye_inner_co…
https://github.com/lijingpeng/kaggle/tree/master/competitions/image_recognize 识别谷歌街景图片中的字母 street-view-getting-started-with-julia 让我们从谷歌街景的图片中鉴定字母,这个题目是让我们学习和使用Julia,Julia有python和R的易用性,有C语言的速度,无奈对Julia不是很熟悉,所以还是想用python来试试. import cv2 import numpy as…
数字序列预测 Github地址 Kaggle地址 # -*- coding: UTF-8 -*- %matplotlib inline import pandas as pd import string import numpy as np import matplotlib.pyplot as plt from sklearn import preprocessing train = pd.read_csv('train.csv') test = pd.read_csv('test.csv')…
Titanic 沉没 参见:https://github.com/lijingpeng/kaggle 这是一个分类任务,特征包含离散特征和连续特征,数据如下:Kaggle地址.目标是根据数据特征预测一个人是否能在泰坦尼克的沉没事故中存活下来.接下来解释下数据的格式: survival 目标列,是否存活,1代表存活 (0 = No; 1 = Yes) pclass 乘坐的舱位级别 (1 = 1st; 2 = 2nd; 3 = 3rd) name 姓名 sex 性别 age 年龄 sibsp 兄弟姐…
kaggle地址 数据预览 首先载入数据集 import pandas as pd import numpy as np train = pd.read_csv('/Users/frank/Documents/workspace/kaggle/dataset/digit_recognizer/train.csv') test = pd.read_csv('/Users/frank/Documents/workspace/kaggle/dataset/digit_recognizer/test.c…
kaggle地址 github地址 特点: 离散特征 离散特征二值化处理 数据概览 import pandas as pd import numpy as np # 载入数据 train = pd.read_csv('~/kaggle/dataset/San_Francisco_Crime_Classification/train.csv', parse_dates = ['Dates']) test = pd.read_csv('~/kaggle/dataset/San_Francisco_C…
电影文本情感分类 Github地址 Kaggle地址 这个任务主要是对电影评论文本进行情感分类,主要分为正面评论和负面评论,所以是一个二分类问题,二分类模型我们可以选取一些常见的模型比如贝叶斯.逻辑回归等,这里挑战之一是文本内容的向量化,因此,我们首先尝试基于TF-IDF的向量化方法,然后尝试word2vec. # -*- coding: UTF-8 -*- import pandas as pd import numpy as np import re from bs4 import Beau…
Kaggle入门 1:竞赛 我们将学习如何为Kaggle竞赛生成一个提交答案(submisson).Kaggle是一个你通过完成算法和全世界机器学习从业者进行竞赛的网站.如果你的算法精度是给出数据集中最高的,你将赢得比赛.Kaggle也是一个实践你机器学习技能的非常有趣的方式.Kaggle网站有几种不同类型的比赛.其中的预测一个就是预测在泰坦尼克号沉没的时候哪个乘客会成为幸存者. 在这个任务和下一个任务我们将学习如何提交我们的答案.我们的数据是csv格式.你可以在这里下载数据开始比赛.每一行重现…
Reference: http://mp.weixin.qq.com/s?src=3&timestamp=1474979163&ver=1&signature=wnZn1UtWreFWjQbpWweZXp6RRvmmKwW1-Kud3x6OF0czmyPqv*F6KzQ1i-dKhi4D-QvDjp1mFDdqAHLPrCLgMOb1KXJcbbkU5-QAREDarkCaPumjQlORzVAOma541S0X2MGgysuH18DI2567rBcTSkMHPsVf6sxClfB…
Titanic是kaggle上一个练手的比赛,kaggle平台提供一部分人的特征,以及是否遇难,目的是预测另一部分人是否遇难.目前抽工作之余,断断续续弄了点,成绩为0.79426.在这个比赛过程中,接触并了解了一些数据挖掘比赛的基本流程,现记录一下. 1. 分析数据 因为数据量比较小,train有800多条数据,test有400多条数据,因此这里用了execl的数据透视表分析. 同时python提供pandas库,可以很好的分析数据. 2. 缺失值填充 关于Age,Fare,Embarked三个…
数据处理:12个使得效率倍增的pandas技巧 1. 背景描述 Python正迅速成为数据科学家偏爱的语言,这合情合理.它拥有作为一种编程语言广阔的生态环境以及众多优秀的科学计算库.如果你刚开始学习Python,可以先了解一下Python的学习路线. python学习路线:https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/lea…
0. 前言 1.任务描述 2.数据概览 3. 数据准备 4. 模型训练 5. kaggle实战 0. 前言 "尽管新技术新算法层出不穷,但是掌握好基础算法就能解决手头 90% 的机器学习问题." 本系列参考书籍 "Hands-on machine learning with scikit-learn and tensorflow"以及kaggle相关资料 1.任务描述 预测任务:根据某时刻房价相关数据,预测区域内该时刻任一街区的平均房价,决定是否对投资该街区的房子.…
今天成功的进驻kaggle社区了! 所以以后就要跟kaggle上面的各位一起学习啦! 今天十分成功的在tensorflow的环境里面装了一堆库--什么seaborn啊pandas啊都一次过 然后--并不懂titanic那个要怎么弄--就是--只给了数据集但是根本不知道从何做起啊-- 所以好好看看别人是怎么做的先 参考一波…
学完了Coursera上Andrew Ng的Machine Learning后,迫不及待地想去参加一场Kaggle的比赛,却发现从理论到实践的转变实在是太困难了,在此记录学习过程. 一:安装Anaconda 教程大多推荐使用Jupyter Notebook来进行数据科学的相关编程,我们通过Anaconda来安装Jupyter Notebook和需要用到的一些python库,按照以下方法重新安装了Anaconda,平台Win10 Anaconda安装 二:Jupyter Notebook 参照以下…
完整代码见kaggle kernel 或 Github 比赛页面:https://www.kaggle.com/c/house-prices-advanced-regression-techniques 这个比赛总的情况就是给你79个特征然后根据这些预测房价 (SalePrice),这其中既有离散型也有连续性特征,而且存在大量的缺失值.不过好在比赛方提供了data_description.txt这个文件,里面对各个特征的含义进行了描述,理解了其中内容后对于大部分缺失值就都能顺利插补了. 参加比赛…
作者:寒小阳 && 龙心尘 时间:2015年11月. 出处: http://blog.csdn.net/han_xiaoyang/article/details/49797143 http://blog.csdn.net/longxinchen_ml/article/details/49798139 声明:版权所有,转载请联系作者并注明出处,谢谢. 1.引言 先说一句,年末双十一什么的一来,真是非(mang)常(cheng)欢(gou)乐(le)!然后push自己抽出时间来写这篇blog的…
原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accuracy 问题处理之前要知道的事: 数据科学框架(A Data Science Framework) 1.定义问题(Define the Problem): 问题→需求→方法→设计→技术,这是刚开始拿到问题的解决流程,所以在我们用一些fancy的技巧和算法解决问题之前,必须要明确我们需要解决的问题到…
刚入手data science, 想着自己玩一玩kaggle,玩了新手Titanic和House Price的 项目, 觉得基本的baseline还是可以写出来,但是具体到一些细节,以至于到能拿到的出手的成绩还是需要理论分析的. 本文旨在介绍kaggle比赛到各种原理与技巧,当然一切源自于coursera,由于课程都是英文的,且都比较好理解,这里直接使用英文 Reference How to Win a Data Science Competition: Learn from Top Kaggl…
目录 前言 相关性分析 数据 数据特点 相关性分析 数据预处理 预测模型 Logistic回归训练模型 模型优化 前言 一般接触kaggle的入门题,已知部分乘客的年龄性别船舱等信息,预测其存活情况,二分类问题. python,所需库 机器学习scikit-learn,数据分析pandas,科学计算numpy,画图工具matplotlib,详细的指导说明 本篇大多是整理了下寒小阳的博文,按照他的思路先熟悉一下. 相关性分析 数据 数据如表所示,Pclass 等级,Sibsp 同辈亲戚人数,Par…
也不知道对不对,就凭着自己的思路写了一个 数据集:https://www.kaggle.com/c/titanic/data import torch import torch.nn as nn import pandas as pd import numpy as np class DataProcessing(object): def __init__(self): pass def get_data(self): data_train = pd.read_csv('train.csv')…
1.Bike Sharing Demand kaggle: https://www.kaggle.com/c/bike-sharing-demand 目的:根据日期.时间.天气.温度等特征,预测自行车的租借量 处理:1.将日期(含年月日时分秒)提取出年,月, 星期几,以及小时 2.season, weather都是类别标记的,利用哑变量编码 算法模型选取: 回归问题:1.RandomForestRegressor 2.GradientBoostingRegressor # -*- coding:…