偏好是无法度量的. 相比其他的机器学习算法,推荐引擎的输出更直观,更容易理解. 接下来三章主要讲述Spark中主要的机器学习算法.其中一章围绕推荐引擎展开,主要介绍音乐推荐.在随后的章节中我们先介绍Spark和MLib的实际应用,接着介绍一些机器学习的基本思想. 3.1 数据集 用户和艺术家的关系是通过其他行动隐含提现出来的,例如播放歌曲或专辑,而不是通过显式的评分或者点赞得到的.这被称为隐式反馈数据.现在的家用电视点播也是这样,用户一般不会主动评分. 数据集在http://www-etud.i…
本文基于<Spark 高级数据分析>第3章 用音乐推荐和Audioscrobbler数据 完整代码见 https://github.com/libaoquan95/aasPractice/tree/master/c3/recommend 1.获取数据集 本 章 示 例 使 用 Audioscrobbler 公 开 发 布 的 一 个 数 据 集. Audioscrobbler 是 last.fm 的 第一个音乐推荐系统. last.fm 创建于 2002 年,是最早的互联网流媒体广播站点之一.…
2.4 小试牛刀:Spark shell和SparkContext 本章使用的资料来自加州大学欧文分校机器学习资料库(UC Irvine Machine Learning Repository),这个资料库为研究和教学提供了大量非常好的数据源, 这些数据源非常有意义,并且是免费的.由于网络原因,无法从原始地址下载数据集,这里可以从以下链接获取: https://pan.baidu.com/s/1dENp41V 或 http://pan.baidu.com/s/1c29fBVy 获取数据集以后,可…
1. Audioscrobbler数据集 数据下载地址: http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz Audioscrobbler 数据集只记录了播放数据,如“Bob 播放了一首Prince 的歌曲”.播放记录所包含的信息比评分要少.仅凭Bob 播放过某一首歌这一信息并不能说明他真的喜欢这首歌. 虽然人们经常听音乐,但却很少给音乐评分.因此Audiocrobbler 数据集要大得多.它覆盖了更…
Spark高级数据分析--纽约出租车轨迹的空间和时间数据分析 一.地理空间分析: 二.pom.xml 原文地址:https://www.jianshu.com/p/eb6f3e0c09b5 作者:IIGEOywq 一.地理空间分析: object RunGeoTime extends Serializable { val formatter = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss", Locale.ENGLISH) def main(ar…
第二章: 备注:1.本书第二章样例数据由于才有的是短链接,国内的用户可能无法下载.我把数据集拷贝到百度网盘上.大家可以从这个地方下载:http://pan.baidu.com/s/1pJvjHA7 谢谢读者钱先生指出这个问题. 2.P11,要记得设置log4j.properties文件,将日志级别改为WARN,否则看到的输出可能不太一样:有许多的INFO! 勘误表:1.第2章P16页开始部分,“创建RDD的动作(action)并不会导致集群执行分布式计算”中“创建RDD的动作(action)”有…
据我们所知,有‘已知的已知’,有些事,我们知道我们知道:我们也知道,有 ‘已知的未知’,也就是说,有些事,我们现在知道我们不知道.但是,同样存在‘不知的不知’——有些事,我们不知道我们不知道. 上一章中分类和回归都属于监督学习.当目标值是未知时,需要使用非监督学习,非监督学习不会学习如何预测目标值.但是,它可以学习数据的结构并找出相似输入的群组,或者学习哪些输入类型可能出现,哪些类型不可能出现. 5.1 异常检测 异常检测常用于检测欺诈.网络攻击.服务器及传感设备故障.在这些应用中,我们要能够找…
预测是非常困难的,更别提预测未来. 4.1 回归简介 随着现代机器学习和数据科学的出现,我们依旧把从“某些值”预测“另外某个值”的思想称为回归.回归是预测一个数值型数量,比如大小.收入和温度,而分类则指预测标号或类别,比如判断邮件是否为“垃圾邮件”,拼图游戏的图案是否为“猫”. 将回归和分类联系在一起是因为两者都可以通过一个(或更多)值预测另一个(或多个)值.为了能够做出预测,两者都需要从一组输入和输出中学习预测规则.在学习的过程中,需要告诉它们问题及问题的答案.因此,它们都属于所谓的监督学习.…
1,当读写磁盘文件时,read,write等函数确实是不带缓冲机制的吗?请说明原因. 答:所有磁盘I/O都要经过内核的块缓存区(即内核的缓冲区高速缓存).唯一例外的是对原始磁盘设备的I/O,但是我们不考虑这种情况.既然read或write的数据都要被内核缓冲,那么术语“不带缓冲的I/O”指的是在用户的进程中对这两个函数不会自动缓冲,每次read或write就要进行一次系统调用. 2,编写一个与dup2功能相同的函数,要求不调用fcntl函数,并且要有正确的出错处理. 答: #include <s…
ch3 基本概念 标签(空格分隔): JavaScript 语法 标识符 - 第一个字符必须是字母.下划线或美元 - 驼峰大小写格式 严格模式 ECMAScript5引入,定义了一种解析和执行模型.此时,ECMAScript3中的一些不确定行为将得到处理,对某些不安全的操作也会抛出错误. "use strict"; 关键字与保留字 关键字 关键字 关键字 关键字 关键字 break do instanceof typeof case else new var catch finally…
推荐算法流程 推荐算法 预备 wget http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz cd /Users/erichan/garden/spark-1.6.0-bin-hadoop2.6/bin ./spark-shell --master local --driver-memory 6g 1 准备数据 val data ="/Users/erichan/AliDrive/ml_spark/da…
启用严格模式 "use strict" 这是一个 pragma 编译指示 让编码意图更清晰  是一个重要原则 5种简单数据类型 Undefined Null Boolean Number String 1种复杂数据类型 Object 检测数据类型的方法 typeof 有如下值: undefined boolean object string number function typeof Null object 意在保存对象还没有保存对象的变量的初始值最好是什么 null 八进制的第一位…
文件描述符 1.文件描述符的概念 对于内核而言,所有打开的文件都会用一个文件描述符来引用,打开或和创建一个新文件的时候,内核会给进程返回一个文件描述符,而当使用read write时,可以使用这个文件描述符来代替文件. UNIX系统下,使用0 1 2 来分别与标准输入 标准输出 标准出错输出相关联. 2.文件操作有关的函数 open函数 /*fcntl.h定义了很多宏和fcntl函数原型*/ #include <fcntl.h> int open(const char *pathname ,i…
(一)类和结构 类和结构实际上都是创建对象的模板,每个对象都包含数据,并提供了处理和访问数据的方法. 类和结构的区别:内存中的存储方式.访问方式(类是存储在堆上的引用类型,结构是存储在栈的值类型)和它们的一些特征(如结构不支持继承). 较小的数据建议使用结构来提高性能. 创建类使用 class 关键字 例子: class ClassTest { } 创建结构使用 struct 关键字 例子: struct StructTest { } 对于类和结构,都是用关键字new来声明实例:这个关键字创建对…
                                3.4 数据类型 基本数据类型:Undefined.Null.Boolean.Number.String 复杂数据类型:Object 3.4.4 Boolean 类型 boolean 数据转换类型表 数据类型 转换为true的值 转换为false的值                              …
[TOC] 1. 语法 1.1 区分大小写 变量.函数名和操作费都区分大小写. 1.2 标识符 标识符指变量.函数.属性的名字,或者函数的参数.标识符按以下规则组合: 第一个字符必须是一个字母,下划线(_)或一个美元符号($). 其他字符可以是字母.下划线.美元符号或者数字. 标识符采用驼峰大小写格式,也就是第一个字母小写,剩下的每个单词首字母大写,例如: firstSecond myCar doSomethingImportant 1.3 注释 使用c风格的注释 //单行注释 /* 多 行 注…
看后总结: 1.区分大小写 2.标识符是有字母下划线$开头,并有字母.下划线.数字.美元符号组成. 3.建议用驼峰法命名标识符. 4.注释: 单行:// 多行: /*   */ 5.严格模式: 在js文件顶部或者函数的顶部使用"use strict":,将开启严格模式(ECMA 5.0引入) 6.每条语句结尾加分号 7.ECMA的变量是松散类型,就是可以保持任何类型的数据. 8.数据类型分6种: Undefined, Null, Boolean, Number, String, Obj…
潜在语义分析 wget http://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles-multistream.xml.bz2 1 获取数据 def readFile(path: String, sc: SparkContext): RDD[String] = { val conf = new Configuration() conf.set(XmlInputFormat.START_TAG_KEY, "<page…
wget https://archive.ics.uci.edu/ml/machine-learning-databases/00210/donation.zip 数据清洗 cd /Users/erichan/garden/spark-1.6.0-bin-hadoop2.6/bin ./spark-shell --master local val data ="/Users/erichan/AliDrive/ml_spark/data/linkage" val rawblocks =…
1.Javascript有几种数据类型 2.变量 Javascript有几种数据类型 JavaScript中有5种简单数据类型(也称为基本数据类型):Undefined.Null.Boolean.Number和String.还有1种复杂数据类型——Object,Object本质上是由一组无序的名值对组成的.…
1.浮点数值 虽然小数点前面可以没有整数,但是并不推荐这种写法. 由于保存浮点数值需要的内存空间是保存整数值的两倍,因此ECMAScript会不失时机地将浮点数值转化为整数数值.显然,如果小数点后面没有任何数字,那么这个数值就可以作为整数值来保存.同样,如果浮点数值本身表示的就是一个整数,那么该值也会被转换为整数.例如: var floatNum1 = 1.; //小数点后没有数字——解析为1 var floatNum2 = 10.0;//整数,解析未10 浮点数值的最高精度是17位小数,但在进…
本文基于<Spark 高级数据分析>第2章 用Scala和Spark进行数据分析. 完整代码见 https://github.com/libaoquan95/aasPractice/tree/master/c2/Into 1.获取数据集 数据集来自加州大学欧文分校机器学习资料库(UC Irvine Machine Learning Repository),这个资料库为研究和教学提供了大量非常好的数据源, 这些数据源非常有意义,并且是免费的. 我们要分析的数据集来源于一项记录关联研究,这项研究是…
学完了<Spark快速大数据分析>,对Spark有了一些了解,计划更近一步,开始学习<Spark高级数据分析>.这本书是用Scala写的,在学习的过程中想把其中的代码转换成Java版本,应该会花很长时间在这本书上.学习时使用的Spark版本是1.6.1,其实2.0.0已经出了,等以后有机会再更新到2.0吧. 此书自带的源码地址: https://github.com/sryza/aas 我的源码地址: https://github.com/jiangpz/AnalysisWithS…
Working on a Per-Partition Basis(基于分区的操作) 以每个分区为基础处理数据使我们可以避免为每个数据项重做配置工作.如打开数据库连接或者创建随机数生成器这样的操作,我们希望避免为每个元素重做配置工作.Spark有分区版本的map和foreach,通过让RDD的每个分区只运行一次代码,可帮助降低这些操作的成本. 回到我们的呼号例子中,有一个无线电台呼号的在线数据库,我们可以查询联系日志的公共列表.通过使用基于分区的操作,我们可以分享数据库的连接池来避免为多个连接配置…
Python的高级应用(三)面向对象编程 本章学习要点: 面向对象编程介绍 面向对象与面向过程编程的区别 为什么要用面向对象编程思想 面向对象的相关概念 一.面向对象编程介绍 面向对象程序设计(英语:Object-oriented programming,缩写:OOP)是一种程序设计范型,同时也是一种程序开发的方法.对象指的是类的实例. 已经被证实的是,面向对象程序设计推广了程序的灵活性和可维护性,并且在大型项目设计中广为应用. 此外,支持者声称面向对象程序设计要比以往的做法更加便于学习,因为它…
原文网址:http://blog.csdn.net/hubbybob1/article/details/40859835 大家好,从这周开始学习apue<UNIX环境高级编程第三版>,在此,我要感谢网易的一个工程师朋友和室友,没有他们,我不会开始真正的学习这本书,希望大家以后开始慢慢进步.废话少说,直接上课后习题了. UNIX高级编程第一章习题答案: 1.1在系统上验证,除根目录外,目录l和l l是不同的. 答:这个验证有很多方法可使用命令ls .cd.vim等,目录.指向当前目录,目录..指…
<JAVASCRIPT高级程序设计>第三章主要讲述了这门语言的基础概念,内容多而浅,通过思维导图可以帮助我们很好的理清脉络. js函数使用function关键字来声明,以下是一个简单的例子: function sayHi(name, message){ alert("hello," +name + message); } 函数中可以使用return语句指定返回值,如果只有“return;”,则函数在停止执行后,将返回undefined; 定义的函数有2个参数,那么调用这个函…
第三章 MySQL高级查询(一) 一.SQL语言的四个分类 1.       DML(Data Manipulation Language)(数据操作语言):用来插入,修改和删除表中的数据,如INSERT,UPDATE,DELECT. 2.       DDL(Data Definition Language)(数据定义语言):创建或删除数据库对象操作,有CREATE,DROP,ALTER三个语法组成. 3.       DQL (STructured Query Language)(数据查询语…
2019年,新年伊始,我打算好好重读一下<JavaScript高级程序设计>这本前端必备经典书.每天半小时. 以下内容摘自<JavaScript高级程序设计> 2019-2-11 第一章 —— 第三章笔记 1.区分大小写 2.严格模式 "use strict"; ECMAScript5引入了严格模式的概念.支持严格模式的浏览器包括:IE10+,Firefox4+,Safari5.1+,Opera12+,Chrome 3.声明变量 var message = &q…
第三章:Python高级编程-深入类和对象 Python3高级核心技术97讲 笔记 3.1 鸭子类型和多态 """ 当看到一直鸟走起来像鸭子.游泳起来像鸭子.叫起来像鸭子,那么这只鸟就可以被称为鸭子. 这句话看上去有趣,却不太容易理解.接下来用实例来说明. """ # ============ Demo1 start ============= class Cat(object): def say(self): print("I am…