Spark机器学习读书笔记-CH03】的更多相关文章

3.1.获取数据: wget http://files.grouplens.org/datasets/movielens/ml-100k.zip 3.2.探索与可视化数据: In [3]: user_data=sc.textFile("file:///root/studio/MachineLearningWithSpark/ch03/ml-100k/u.user") In [4]: user_data.first() Out[4]: u'1|24|M|technician|85711'…
5.2.从数据中提取合适的特征 [root@demo1 ch05]# sed 1d train.tsv > train_noheader.tsv[root@demo1 ch05]# lltotal 42920-rw-r--r-- 1 root root 21972457 Jan 31 15:03 train_noheader.tsv-rw-r--r-- 1 root root 21972916 Jan 31 15:00 train.tsv[root@demo1 ch05]# hdfs dfs -…
[root@demo1 ch04]# spark-shell --master yarn --jars /root/studio/jblas-1.2.3.jar scala> val rawData = sc.textFile("hdfs://192.168.0.85:8020/user/root/studio/MachineLearningWithSpark/ch04/ml-100k/u.data")rawData: org.apache.spark.rdd.RDD[Strin…
反向传播算法(Back-Propagtion Algorithm)即BP学习属于监督式学习算法,是非常重要的一种人工神经网络学习方法,常被用来训练前馈型多层感知器神经网络. 一.BP学习原理 1.前馈型神经网络 是指网络在处理信息时,信息只能由输入层进入网络,随后逐层向前进行传递,一直到输出层,网络中不存在环路:前馈神经网络是神经网络中的典型分层结构,根据前馈网络中神经元转移函数.网络层数.各层基本单元数目以及权重调整方式的不同,可以形成不同功能特点的神经网络.前馈型神经网络由输入层.中间层(隐…
SVM是一种二类分类模型,有监督的统计学习方法,能够最小化经验误差和最大化几何边缘,被称为最大间隔分类器,可用于分类和回归分析.支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题.支持向量机的学习算法是求解凸二次规划的最优化算法. 一.基本原理 SVM是一个机器学习的过程,在高维空间中寻找一个分类超平面,将不同类别的数据样本点分开,使不同类别的点之间的间隔最大,该分类超平面即为最大间隔超平面,对应的分类器称为最大间隔分类器,对于二分类…
一.机器学习是什么 机器学习的英文名称叫Machine Learning,简称ML,该领域主要研究的是如何使计算机能够模拟人类的学习行为从而获得新的知识和技能,并且重新组织已学习到的知识和和技能,使之在应用中能够不断完善自身的缺陷与不足. 简单来说,机器学习就是让计算机从大量的数据中学习到相关的规律和逻辑,然后利用学习来的规律来预测以后的未知事物. 二.开发机器学习应用程序的步骤 1)收集数据 2)准备输入数据 3)分析输入数据 4)训练算法 5)测试算法 6)使用算法 三.python 1.优…
一.SVM SVM的英文全称是Support Vector Machines,我们叫它支持向量机.支持向量机是我们用于分类的一种算法. 1 示例: 先用一个例子,来了解一下SVM 桌子上放了两种颜色的球,用一根棍分开它们,要求:尽量在放更多球之后,仍然适用. 我们可以这样放: 又在桌上放了更多的球,似乎有一个球站错了阵营.显然,我们需要对棍做出调整. SVM就是试图把棍放在最佳位置,好让在棍的两边有尽可能大的间隙.这个间隙就是球到棍的距离. 现在好了,即使放了更多的球,棍仍然是一个好的分界线.…
一.Boosting算法 .Boosting算法是一种把若干个分类器整合为一个分类器的方法,在boosting算法产生之前,还出现过两种比较重要的将多个分类器整合为一个分类器的方法,即boostrapping方法和bagging方法.我们先简要介绍一下bootstrapping方法和bagging方法. 1 bootstrapping方法的主要步骤 1)重复地从一个样本集合D中采样n个样本 2)针对每次采样的子样本集,进行统计学习,获得假设Hi 3)将若干个假设进行组合,形成最终的假设Hfina…
一.背景 海伦女士一直使用在线约会网站寻找适合自己的约会对象.尽管约会网站会推荐不同的任选,但她并不是喜欢每一个人.经过一番总结,她发现自己交往过的人可以进行如下分类 不喜欢的人 魅力一般的人 极具魅力的人 海伦收集约会数据已经有了一段时间,她把这些数据存放在文本文件datingTestSet.txt中,每个样本数据占据一行,总共有1000行. 海伦收集的样本数据主要包含以下3种特征: 每年获得的飞行常客里程数 玩视频游戏所消耗时间百分比 每周消费的冰淇淋公升数 二.准备数据:数据的解析 在将上…
书籍位置: /Users/baidu/Documents/Data/Interview/机器学习-数据挖掘/<机器学习_周志华.pdf> 一共442页.能不能这个周末先囫囵吞枣看完呢.哈哈哈. 当然了,我觉得Spark上面的实践其实是非常棒的.有另一个系列文章讨论了Spark. 还有另一篇读书笔记(Link)是关于<机器学习实战>.实战经验也很重要. P1 一般用模型指全局性结果(例如决策树),用模式指局部性结果(例如一条规则). P3 如果预测的是离散值,那就是分类-classi…