Mahout之（三）相似性度量

User CF 和 Item CF 都依赖于相似度的计算,因为只有通过衡量用户之间或物品之间的相似度,才能找到用户的“邻居”,才能完成推荐.上文简单的介绍了相似性的计算,但不完全,下面就对常用的相似度计算方法进行详细的介绍: 1. 基于皮尔森相关性的相似度 —— Pearson correlation-based similarity 皮尔森相关系数反应了两个变量之间的线性相关程度,它的取值在[-1, 1]之间.当两个变量的线性关系增强时,相关系数趋于1或-1:当一个变量增大,另一个变量也增大时…

Hadoop里的数据挖掘应用-Mahout——学习笔记<三>

之前有幸在MOOC学院抽中小象学院hadoop体验课. 这是小象学院hadoop2.X的笔记由于平时对数据挖掘做的比较多,所以优先看Mahout方向视频. Mahout有很好的扩展性与容错性(基于HDFS&MapReduce开发),实现了大部分常用的数据挖掘算法(聚类.分类.推荐算法)不过数据挖掘调参和业务理解是关键,个人觉得真正想学习的话,还是看正规机器学习的课程比较好. 这里省略了大部分比较技术那一块的笔记... 虽然mahout在速度上有天然优势.但R/Python其实也在接入hadoo…

mahout算法源码分析之Itembased Collaborative Filtering（三）RowSimilarityJob验证

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit. 本篇分析上篇的分析是否正确,主要是编写上篇输出文件的读取以及添加log信息打印相关变量. 首先,编写下面的测试文件分析所有的输出: package mahout.fansy.item; import java.io.IOException; import java.util.Map; import mahout.fansy.utils.read.ReadArbiKV; import org.apach…

学习Mahout(三)

开发+运行第一个Mahout的程序代码: /** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regarding copyright ownership. * The ASF lice…

mahout的特性（三）

mahout的特性虽然在开源领域中相对较为年轻,但 Mahout 已经提供了大量功能,特别是在集群和CF 方面. Mahout 的主要特性包括: Taste CF.Taste 是 Sean Owen 在 SourceForge 上发起的一个针对 CF 的开源项目,并在 2008 年被赠予 Mahout. 一些支持 Map-Reduce 的集群实现包括 k-Means.模糊 k-Means.Canopy.Dirichlet 和 Mean-Shift. Distributed Naive Baye…

【Machine Learning】Mahout基于协同过滤(CF)的用户推荐

一.Mahout推荐算法简介 Mahout算法框架自带的推荐器有下面这些: l GenericUserBasedRecommender:基于用户的推荐器,用户数量少时速度快: l GenericItemBasedRecommender:基于商品推荐器,商品数量少时速度快,尤其当外部提供了商品相似度数据后效率更好: l SlopeOneRecommender:基于slope-one算法的推荐器,在线推荐或更新较快,需要事先大量预处理运算,物品数量少时较好: l SVDRecommender…

《mahout实战》

<mahout实战> 基本信息原书名:Mahout in action 作者: (美)Sean Owen Robin Anil Ted Dunning Ellen Friedman 译者: 王斌韩冀中万吉丛书名: 图灵程序设计丛书出版社:人民邮电出版社 ISBN:9787115347220 上架时间:2014-2-27 出版日期:2014 年3月开本:16开页码:1 版次:1-1 所属分类:计算机 > 软件与程序设计 > JAVA(J#) >…

mahout in Action2.2-聚类介绍-K-means聚类算法

聚类介绍本章包含 1 实战操作了解聚类 2.了解相似性概念 3 使用mahout执行一个简单的聚类实例 4.用于聚类的各种不同的距离測算方法作为人类,我们倾向于与志同道合的人合作-"鸟的羽毛聚集在一起. 我们可以发现反复的模式通过联系在我们的记忆中的我们看到的.听到的.问道的.尝到的东西. 比如,相比較盐 ,糖可以是我们很多其它地想起蜜.所以我们把糖和蜜的味道结合起来叫他们甜蜜. 甚至我们不知道甜蜜的味道,可是知道他跟世界上全部的含糖的东西是相似的.是同一类的.我们还知道它与盐是不同类的…

[Mahout] 完整部署过程

概述 Mahout底层依赖Hadoop,部署Mahout过程中最困难的就是Hadoop的部署本文假设用户本身没有进行Hadoop的部署,记述部署Mahout的过程关于Mahout 官网:http://mahout.apache.org/ 介绍:http://www.ibm.com/developerworks/cn/java/j-mahout/ 目录: 1. 准备工作 2. 部署Hadoop 3.…

Mahout之数据承载

转载自:https://www.douban.com/note/204399134/ 推荐数据的处理是大规模的,在集群环境下一次要处理的数据可能是数GB,所以Mahout针对推荐数据进行了优化. Preference 在Mahout中,用户的喜好被抽象为一个Preference,包含了userId,itemId和偏好值(user对item的偏好).Preference是一个接口,它有一个通用的实现是GenericPreference. Preference 但因为用户的喜好数据是大规模的,我们通…

机器学习中的相似性度量(Similarity Measurement)

机器学习中的相似性度量(Similarity Measurement) 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance). 采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否.在其他领域也经常见到它的影子, 现在对常用的相似性度量作一个总结. 目录: 1. 欧氏距离 2. 曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5. 标准化欧氏距离 6. 马氏距离 7. 夹角余弦…

mahout 安装测试

1 下载在http://archive.apache.org/dist/mahout下载相应版本的mahout 版本,获取官网查看http://mahout.apache.org 相关的信息…

相似性度量(Similarity Measurement)与“距离”(Distance)

在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance).采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否. 本文的目的就是对常用的相似性度量作一个总结. 本文目录: 1. 欧氏距离 2. 曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5. 标准化欧氏距离 6. 马氏距离 7. 巴氏距离(Bhattacharyya Distance) 8. 汉明距离(Hamming dista…

用 Mahout 和 Elasticsearch 实现推荐系统

原文地址本文内容软件步骤控制相关性总结参考资料本文介绍如何用带 Apache Mahout 的 MapR Sandbox for Hadoop 和 Elasticsearch 搭建推荐引擎,只需要很少的代码. This tutorial will give step-by-step instructions on how to: 使用的电影评分数据位于 http://grouplens.org/datasets/movielens/ 使用 Apache Mahout 的协同过滤(c…

利用Mahout实现在Hadoop上运行K-Means算法

利用Mahout实现在Hadoop上运行K-Means算法一.介绍Mahout Mahout是Apache下的开源机器学习软件包,目前实现的机器学习算法主要包含有协同过滤/推荐引擎,聚类和分类三个部分.Mahout从设计开始就旨在建立可扩展的机器学习软件包,用于处理大数据机器学习的问题,当你正在研究的数据量大到不能在一台机器上运行时,就可以选择使用Mahout,让你的数据在Hadoop集群的进行分析.Mahout某些部分的实现直接创建在Hadoop之上,这就使得其具有进行大数据处理的能力,也是…

mahout分类学习和遇到的问题总结

这段时间学习Mahout有喜有悲.在这里首先感谢樊哲老师的指导.以下列出关于这次Mahout分类的学习和遇到的问题,还请大家多多提出建议:(全部文件操作都使用是在hdfs上边进行的). (本人用的环境是Mahout0.9+hadoop-2.2.0) 一.首先将预分类文件转换为序列化化存储: 下边图片列出的是使用的20newsgroup数据(我使用的linux上的eclipse.然后在eclipse上边安装的eclipse-hadoop插件),数据图片例如以下: watermark/2/text/…

mahout中kmeans算法和Canopy算法实现原理

本文讲一下mahout中kmeans算法和Canopy算法实现原理. 一. Kmeans是一个很经典的聚类算法,我想大家都非常熟悉.虽然算法较为简单,在实际应用中却可以有不错的效果:其算法原理也决定了其比较容易实现并行化. 学习mahout就先从简单的kmeans算法开始学起,就当抛砖引玉了. 1. 首先来简单的回顾一下KMeans算法: (1) 根据事先给定的k值建立初始划分,得到k个Cluster,比如,可以随机选择k个点作为k个Cluster的重心,又或者用其他算法得到的Cluster…

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

1 软件环境: VMware8.0 Ubuntu-12.10-desktop-i386 jdk-7u40-linux-i586.tar.gz hadoop-1.2.1.tar.gz eclipse-dsl-juno-SR1-linux-gtk.tar.gz hadoop-eclipse-plugin-1.2.1.jar apache-maven-2.2.1-bin.tar.gz hbase-0.94.11.tar.gz hive-0.10.0.tar.gz mahout-distribution…

转】Mahout分步式程序开发聚类Kmeans

原博文出自于: http://blog.fens.me/hadoop-mahout-kmeans/ 感谢! Mahout分步式程序开发聚类Kmeans Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bi…

转】用Maven构建Mahout项目

原博文出自于: http://blog.fens.me/hadoop-mahout-maven-eclipse/ 感谢! 用Maven构建Mahout项目 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, B…

Mahout之Canopy Clustering深入理解

转自:http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html Mahout学习——Canopy Clustering 聚类是机器学习里很重要的一类方法,基本原则是将“性质相似”(这里就有相似的标准问题,比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中对象尽可能不相似.对聚类算法而言,有三座大山需要爬过去:(1).a large number of cl…

mahout算法源码分析之Itembased Collaborative Filtering（四）共生矩阵乘法

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit. 经过了SimilarityJob的计算共生矩阵后,就可以开始下面一个过程了,这个过程主要是共生矩阵的乘法,要说这个共生矩阵的乘法是啥意思?我也不是很清楚,不清楚就看代码呗. 首先明确共生矩阵,即共生矩阵的输入文件(也是上面个SimilarityJob的输出文件): similarityMatrix================= {102={101:0.14201473202245876,106:0…

Mahout学习之Mahout简介、安装、配置、入门程序测试

一.Mahout简介查了Mahout的中文意思——驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了... 附logo: (就是他,骑在象头上的那个Mahout) 步入正文啦: Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现.分类.聚类等.Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升…

Mahout踩坑之路

一.版本对比公司版Mahout 由于Mahout只能允许于hadoop0.20以上版本上,而百度的hadoop是hadoop0.19的一个分支.因此百度HPC组曾经将Mahout移植到百度的hadoop集群. Mahout上古版本,只有itembased一种算法,且只能用于百度版hadoop. 开源Mahout 运行于开源hadoop集群. 建议Mahout0.8版本,支持多种算法. 二.安装.使用 1. 下载开源mahout http://archive.apache.org/dist/ma…

Mahout分步式程序开发聚类Kmeans（转）

Posted: Oct 14, 2013 Tags: clusterHadoopkmeansMahoutR聚类 Comments: 13 Comments Mahout分步式程序开发聚类Kmeans Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra…

mahout协同过滤算法

一直使用mahout的RowSimilarity来计算物品间的相似度,今晚仔细看了其实现,终于搞明白了他的计算逻辑. 上篇中介绍了整个itemBaseCF的mapreducer过程,主要有三个大的步骤吧,我把他称为prepare阶段,计算相似阶段和利用相似性计算推荐阶段. prepare阶段主要完成的是矩阵转换变换以及统计一些相似及推荐时用到的一些属性. 第二阶段是计算相似性:有几个数据较为重要,如下所示. norms.bin:是用来存放所有用户对一个商品的平方和,数据存储为itemA:doub…

转】机器学习开源框架Mahout配置与入门研究

原博文出自于:http://www.ha97.com/5803.html 感谢! PS:机器学习这两年特别火,ATB使劲开百万到几百万年薪招美国牛校的机器学习方向博士,作为一个技术控,也得折腾下,就这样来初步折腾下Mahout这个机器学习的主流开源框架. 一.Mahout简介查了Mahout的中文意思:驭象的人,再看看Mahout的logo,骑在象头上的那个Mahout.机器学习是人工智能的一个分支,它涉及通过一些技术来允许计算机根据之前的经验改善其输出.此领域与数据挖掘密切相关,并且经…

mahout算法源码分析之Itembased Collaborative Filtering（二）RowSimilarityJob

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit. 本篇开始之前先来验证前篇blog的分析结果,编写下面的测试文件来进行对上篇三个job的输出进行读取: package mahout.fansy.item; import java.io.IOException; import java.util.Map; import org.apache.hadoop.io.Writable; import mahout.fansy.utils.read.ReadA…

机器学习算法与Python实践之（三）支持向量机（SVM）进阶

机器学习算法与Python实践之(三)支持向量机(SVM)进阶机器学习算法与Python实践之(三)支持向量机(SVM)进阶 zouxy09@qq.com http://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法.恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了. 在这一节我们主要是对支持…

hadoop家族之mahout安装

步骤一.下载mahout http://www.apache.org/dyn/closer.cgi/mahout/ 我下载的是 mahout-distribution-0.9.tar.gz 16-Feb-2014 08:31 66M 步骤二.下载完成后放到Linux中并解压解压命令:tar -zxvf mahout-distribution-0.9.tar.gz 步骤三.重命名(选做) 命令:mv mahout-distribution-0.9 mahout 步骤四.配置环境变量 Hado…

【Mahout之（三）相似性度量】的更多相关文章