注:原文中的代码是在spark-shell中编写运行的,本人的是在eclipse中编写运行,所以结果输出形式可能会与这本书中的不太一样. 首先将用户数据u.data读入SparkContext中.然后输出第一条数据看看效果.代码例如以下: val sc = new SparkContext("local", "ExtractFeatures") val rawData = sc.textFile("F:\\ScalaWorkSpace\\data\\ml-…
我们如今開始训练模型,还输入參数例如以下: rank:ALS中因子的个数.通常来说越大越好,可是对内存占用率有直接影响,通常rank在10到200之间. iterations:迭代次数,每次迭代都会降低ALS的重构误差.在几次迭代之后,ALS模型都会收敛得到一个不错的结果,所以大多情况下不须要太多的迭代(一般是10次). lambda:模型的正则化參数,控制着避免过度拟合.值越大,越正则化. 我们将使用50个因子,8次迭代,正则化參数0.01来训练模型: val model = ALS.trai…
生成式深度学习 机器学习模型能够对图像.音乐和故事的统计潜在空间(latent space)进行学习,然后从这个空间中采样(sample),创造出与模型在训练数据中所见到的艺术作品具有相似特征的新作品 使用 LSTM 生成文本 生成序列数据 用深度学习生成序列数据的通用方法,就是使用前面的标记作为输入,训练一个网络(通常是循环神经网络或卷积神经网络)来预测序列中接下来的一个或多个标记.例如,给定输入the cat is on the ma,训练网络来预测目标 t,即下一个字符.与前面处理文本数据…
Machine Learning System Design下面会讨论机器学习系统的设计.分析在设计复杂机器学习系统时将会遇到的主要问题,给出如何巧妙构造一个复杂的机器学习系统的建议.6.4 Building a Spam Classifier6.4.1 Prioritizing What to Work On首先是在设计机器学习系统时需要着重考虑什么问题.以垃圾邮件分类为例.1.确定用监督学习的方法进行学习和预测.2.确定关于邮件的特征.关于挑选特征,实际工作中,是遍历整个训练集,选出出现次数…
1.监督学习(supervised learning)&非监督学习(unsupervised learning) 监督学习:处理具有若干属性且返回值不同的对象.分为回归型和分类型:回归型的返回值是连续的,分类型的返回值是离散的. 非监督学习:将具有若干属性的相同对象分为不同的群体. 2.线性回归模型(监督学习) 2.1 一些符号 m——训练样本数目 x——输入变量 y——输出变量 (x,y)——一个训练样本 (x(i),y(i))——第i个训练样本 h——假设(hypothesis)——预测函数…
总结 机器学习(machine learning)是人工智能的一个特殊子领域,其目标是仅靠观察训练数据来自动开发程序[即模型(model)].将数据转换为程序的这个过程叫作学习(learning) 深度学习(deep learning)是机器学习的众多分支之一,它的模型是一长串几何函数,一个接一个地作用在数据上.这些运算被组织成模块,叫作层(layer).深度学习模型通常都是层的堆叠,或者更通俗地说,是层组成的图.这些层由权重(weight)来参数化,权重是在训练过程中需要学习的参数.模型的知识…
神经网络模型的优化 使用 Keras 回调函数 使用 model.fit()或 model.fit_generator() 在一个大型数据集上启动数十轮的训练,有点类似于扔一架纸飞机,一开始给它一点推力,之后你便再也无法控制其飞行轨迹或着陆点.如果想要避免不好的结果(并避免浪费纸飞机),更聪明的做法是不用纸飞机,而是用一架无人机,它可以感知其环境,将数据发回给操纵者,并且能够基于当前状态自主航行.下面要介绍的技术,可以让model.fit() 的调用从纸飞机变为智能的自主无人机,可以自我反省并动…
机器学习实战(Machine Learning in Action)学习笔记————09.利用PCA简化数据 关键字:PCA.主成分分析.降维作者:米仓山下时间:2018-11-15机器学习实战(Machine Learning in Action,@author: Peter Harrington)源码下载地址:https://www.manning.com/books/machine-learning-in-actiongit@github.com:pbharrin/machinelearn…
Keras 函数式编程 利用 Keras 函数式 API,你可以构建类图(graph-like)模型.在不同的输入之间共享某一层,并且还可以像使用 Python 函数一样使用 Keras 模型.Keras 回调函数和 TensorBoard 基于浏览器的可视化工具,让你可以在训练过程中监控模型 对于多输入模型.多输出模型和类图模型,只用 Keras 中的 Sequential模型类是无法实现的.这时可以使用另一种更加通用.更加灵活的使用 Keras 的方式,就是函数式API(functional…
介绍一维卷积神经网络 卷积神经网络能够进行卷积运算,从局部输入图块中提取特征,并能够将表示模块化,同时可以高效地利用数据.这些性质让卷积神经网络在计算机视觉领域表现优异,同样也让它对序列处理特别有效.对于某些序列处理问题,这种一维卷积神经网络的效果可以媲美 RNN,而且计算代价通常要小很多,并且,对于文本分类和时间序列预测等简单任务,小型的一维卷积神经网络可以替代 RNN,而且速度更快 二维卷积是从图像张量中提取二维图块并对每个图块应用相同的变换,按照同样的方法,也可以使用一维卷积,从序列中提取…