Graphlab create的基本使用
写在前面
GraphLab Create 是一款机器学习的函数库,其中的SFrame也是十分强大的数据管理工具。它允许直接从硬盘中读取数据,免于将数据全部加载到内存中。这就使得对于大数据的处理成为可能.这也是相对于scikit-learn的一个最大优点,我们知道,scikit-learn是只能读取内存中的数据.
2018-4-29:GraphLab Create一款机器学习中不错的函数库,集成了Jupyter Notebook这款好用的IDE,Notebook用于机器学习/数据统计/分析/建模等领域,Jupyter Notebook也是一款开源 的WEB application, 文件格式是:.ipynb结尾....
GraphLab Create下载地址https://turi.com/
安装
要使用这个函数库,我们当然得先安装了,具体的安装过程也不是很麻烦,在这里,我就不说了,不会的,小伙伴可以直接百度,教程很多的.
安装完成之后,就可以使用了,直接单机桌面的软件图标,然后,选择
会直接跳转到jupyter(原来的notebook)
新建一个工作空间
修改工作空间的名称
这样,我们就可以开始操作啦
一.在使用之前,我们必须得先引入这个包
import graphlab
读取数据集
Tips:假如我们想要查看前几行,或者末尾几行数据
我们使用
sf.head ##查看前几行
sf.tail ##查看尾几行
操纵列数据
上面是一些基本的操作,只要选中某一列就可以进行和类似数组的操作,大家可以去尝试一下
增加一条新的列
二.Graphlab Canvas的简单使用
简单来说,Canvas是一个图形化的工具
上面我们在sf在存储了个人信息的数据集
直接使用sf.show()
会自动在另一个标签页面打开
在里面可以各种点击尝试
我们希望就在当前notebook页面展示,不希望在另一个页面去展示,怎么操作呢?这里,只是需要重定向就好
下面,我们来解决一个场景问题
我们的人员信息表中有一个问题,就是国家列中,USA和United States代表的都是同一个国家美国,但是数据的表现形式不一样,如果,不进行数据的统一的话,那么,我们在进行构建机器学习模型的时候,可能就不会那么准确了,因为机器会把这两种形式看做是两个国家来处理
解决
为了让上面的数据集能够构建机器学习的模型,需要把数据集做一些改变
我们使用apply函数来进行数据的转换操作
好的,到这里Graphlab create常用操作就介绍完了,后面,我们会介绍一些实际的场景如何进行数据的处理
Graphlab create的基本使用的更多相关文章
- 【学习】如何安装GraphLab Create 【转载】
前人走过的路不用再走,慢慢加上一些工具的链接 GraphLab Create安装,链接地址: http://www.imooc.com/article/18094?block_id=tuijian_w ...
- coursera 机器学习课程 GraphLab环境准备
在网上看到coursera有机器学习的课程,正好再学习学习,温固一下,还有很多其他的课程也很好.收费的哟! 手机APP和网站收取的费用有差异,网站上要便宜一下,费用差的挺多的,果断在网站上支付了. 有 ...
- 开源图计算框架GraphLab介绍
GraphLab介绍 GraphLab 是由CMU(卡内基梅隆大学)的Select 实验室在2010 年提出的一个基于图像处理模型的开源图计算框架.框架使用C++语言开发实现. 该框架是面向机器学习( ...
- GraphLab介绍[转]
GraphLab介绍 原文链接:http://blog.jasonding.top/2015/06/08/Machine%20Learning/%E5%BC%80%E6%BA%90%E5%9B%BE% ...
- 一个智障安装了一天的python和graphlab的血泪史
大概的过程是这样的: 先装了python3.6.1.,然后发现搞错了Σ(  ̄□ ̄||),是32 bit的,卸了重装python 3.6.1 (64bit). 然后装easy_install.pip.i ...
- 十分钟了解分布式计算:GraphX
GraphX原型论文 GraphX是Spark中用于图(e.g., Web-Graphs and Social Networks)和图并行计算(e.g., PageRank and Collabora ...
- (转) Deep Learning Resources
转自:http://www.jeremydjacksonphd.com/category/deep-learning/ Deep Learning Resources Posted on May 13 ...
- Pyhton开源框架(加强版)
info:Djangourl:https://www.oschina.net/p/djangodetail: Django 是 Python 编程语言驱动的一个开源模型-视图-控制器(MVC)风格的 ...
- Python开源框架
info:更多Django信息url:https://www.oschina.net/p/djangodetail: Django 是 Python 编程语言驱动的一个开源模型-视图-控制器(MVC) ...
随机推荐
- 90002CAD相关操作
第一章 初识CAD 1.1 CAD能干什么 (1)绘制机械图/建筑图/装修图等二维复杂工程图的不二之选.二维设计软件的王者. (2)CAD可以绘制平面图.轴测图(二维线框表示三维图形).立体图(三 ...
- POJ 1661 暴力dp
题意略. 思路: 很有意思的一个题,我采用的是主动更新未知点的方式,也即刷表法来dp. 我们可以把整个路径划分成横向移动和纵向移动,题目一开始就给出了Jimmy的高度,这就是纵向移动的距离. 我们dp ...
- HDU 2147
题意略. 思路: 题中提到的3种操作,一个是将长方形的n减少1,一个是将m减少1,一个是将n和m同时减少1,都是将长方形规模减少的的操作. 现在我们可以知道,(1,1)先手必输:(1,2),(2,1) ...
- windows系统查询指定端口运行的进程并关闭
假如占用的端口是80: 先打开cmd命令窗口 再查找80端口占用的进程:netstat -aon|findstr "80" ,找到对应的程序的PID号: 根据PID号找到 ...
- 各IDE代码自用开头模板
Pycharm #!/usr/bin/env python # -*- coding: utf-8 -*- # @version : 1.0 # @Time : ${DATE} ${TIME} # @ ...
- C#开发BIMFACE系列2 二次开发流程
系列目录 [已更新最新开发文章,点击查看详细] BIMFACE 平台是一个对外开放的平台,建筑行业的相关公司.软件公司或者有 BIM 业务需求的公司都可以注册成为开发者并使用其提供的强大功能. ...
- 大型互联网公司分布式ID方案总结
ID是数据的唯一标识,传统的做法是利用UUID和数据库的自增ID,在互联网企业中,大部分公司使用的都是Mysql,并且因为需要事务支持,所以通常会使用Innodb存储引擎,UUID太长以及无序,所以并 ...
- HDU2896病毒入侵AC_自动机
#include <iostream> #include <cstdio> #include <cstring> #include <algorithm> ...
- CF - 1106 E Lunar New Year and Red Envelopes DP
题目传送门 题解: 首先要处理出每个时间点会选择哪一个线段. 对于这个问题,可以用multiset去维护信息. 当时间线开始的时候,往mutiset里面插入这个信息,当时间线结束的时候,删除这个信息. ...
- CodeForces 875 D High Cry
High Cry 题解: 把思路转换成总-非法方案数. 对于第i个点来说 找到L[i], R[i] 然后 对于所有的在[ L[i], R[i] ] 的值都 < a[i], 然后对于第i个点来说 ...