【甘道夫】通过Mahout构建贝叶斯文本分类器案例具体解释

背景&目标: 1.sport.tar 是体育类的文章,一共同拥有10个类别. 用这些原始材料构造一个体育类的文本分类器,并測试对照bayes和cbayes的效果: 记录分类器的构造过程和測试结果. 2.user-sport.tar 是用户浏览的文章,每一个目录相应一个用户. 利用上题构造的文本分类器,计算每一个用户浏览各类文章的占比. 记录计算过程和结果. 实验环境: Hadoop-1.2.1 Mahout0.6 Pig0.12.1 Ubuntu12 Jdk1.7 原理&a…

【甘道夫】Win7x64环境下编译Apache Hadoop2.2.0的Eclipse小工具

目标: 编译Apache Hadoop2.2.0在win7x64环境下的Eclipse插件环境: win7x64家庭普通版 eclipse-jee-kepler-SR1-win32-x86_64.zip Apache Ant(TM) version 1.8.4 compiled on May 22 2012 java version "1.7.0_45" 參考文章: http://kangfoo.u.qiniudn.com/article/2013/12/build-hadoop2x…

Mahout朴素贝叶斯文本分类

Mahout朴素贝叶斯文本分类算法 Mahout贝叶斯分类器按照官方的说法,是按照<Tackling the PoorAssumptions of Naive Bayes Text Classiers>实现的.分为三个模块:训练.测试和分类.该文档首先简要介绍朴素贝叶斯的基本原理,然后介绍MapReduce实现的思路. 一.MapReduce 朴素贝叶斯算法实现 (一)预处理在训练和分类之前都需要将小文档合并,以及分词处理.大量的小文档会让NameNode占用太多的内存空间存储元数据,另一方…

【甘道夫】MapReduce实现矩阵乘法--实现代码

之前写了一篇分析MapReduce实现矩阵乘法算法的文章: [甘道夫]Mapreduce实现矩阵乘法的算法思路为了让大家更直观的了解程序运行,今天编写了实现代码供大家參考. 编程环境: java version "1.7.0_40" Eclipse Kepler Windows7 x64 Ubuntu 12.04 LTS Hadoop2.2.0 Vmware 9.0.0 build-812388 输入数据: A矩阵存放地址:hdfs://singlehadoop:8020/works…

【甘道夫】通过Mahout构建推荐系统--通过IDRescorer扩展评分规则

通过Mahout构建推荐系统时,假设我们须要添�某些过滤规则(比方:item的创建时间在一年以内),则须要用到IDRescorer接口,该接口源代码例如以下: package org.apache.mahout.cf.taste.recommender; /** * <p> * A {@link Rescorer} which operates on {@code long} primitive IDs, rather than arbitrary {@link Object}s. * …

【甘道夫】怎样在cdh5.2上执行mahout的itemcf on hadoop

环境: hadoop-2.5.0-cdh5.2.0 mahout-0.9-cdh5.2.0 步骤: 基本思路是,将mahout下的全部jar包都引入hadoop的classpath就可以,所以改动了$HADOOP_HOME/etc/hadoop/hadoop-env.sh,加入例如以下代码将mahout的全部jar包引入hadoop的classpath: for b in $MAHOUT_HOME/lib/*.jar; do if [ "$HADOOP_CLASSPATH" ];…

【甘道夫】并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用

今天调研了并行化频繁模式挖掘算法PFP Growth及其在Mahout下的命令使用,简单记录下试验结果,供以后查阅: 环境:Jdk1.7 + Hadoop2.2.0单机伪集群 + Mahout0.6(0.8和0.9版本号都不包括该算法.Mahout0.6能够和Hadoop2.2.0和平共处有点意外orz) 部分输入数据,输入数据一行代表一个购物篮: 4750,19394,25651,6395,5592 26180,10895,24571,23295,20578,27791,2729,8637…

【甘道夫】HBase基本数据操作的详细说明【完整版，精绝】

介绍之前具体写了一篇HBase过滤器的文章.今天把基础的表和数据相关操作补上. 本文档參考最新(截止2014年7月16日)的官方Ref Guide.Developer API编写. 全部代码均基于"hbase 0.96.2-hadoop2"版本号编写,均实測通过. 欢迎转载,请注明来源: http://blog.csdn.net/u010967382/article/details/37878701 概述对于建表,和RDBMS类似,HBase也有namespace的概念.能够指定表…

【甘道夫】HBase连接池 -- HTablePool是Deprecated之后

说明: 近期两天在调研HBase的连接池,有了一些收获,特此记录下来. 本文先将官方文档(http://hbase.apache.org/book.html)9.3.1.1节翻译,方便大家阅读,然后查阅了关键类HConnectionManager的Developer API(http://hbase.apache.org/devapidocs/index.html) 做了一些总结. 最后介绍一些阅读0.96.0.98及最新源代码的精彩发现. 欢迎转载.请注明来源: http://blog.cs…

【甘道夫】HBase基本数据操作详解【完整版，绝对精品】

引言之前详细写了一篇HBase过滤器的文章,今天把基础的表和数据相关操作补上. 本文档参考最新(截止2014年7月16日)的官方Ref Guide.Developer API编写. 所有代码均基于“hbase 0.96.2-hadoop2”版本编写,均实测通过. 欢迎转载,请注明来源: http://blog.csdn.net/u010967382/article/details/37878701 概述对于建表,和RDBMS类似,HBase也有namespace的概念,可以指定表空间创建表,…

【甘道夫】基于Mahout0.9+CDH5.2执行分布式ItemCF推荐算法

环境: hadoop-2.5.0-cdh5.2.0 mahout-0.9-cdh5.2.0 引言尽管Mahout已经宣布不再继续基于Mapreduce开发,迁移到Spark.可是实际面临的情况是公司集群没有足够的内存支持Spark这仅仅把内存当饭吃的猛兽.再加上项目进度的压力以及开发者的技能现状,所以不得不继续使用Mahout一段时间. 今天记录的是命令行执行ItemCF on Hadoop的过程. 历史之前读过一些前辈们关于的Mahout ItemCF on Hadoop编程的相关文章.描…

【甘道夫】HBase（0.96以上版本号）过滤器Filter具体解释及实例代码

说明: 本文參考官方Ref Guide,Developer API和众多博客.并结合实測代码编写.具体总结HBase的Filter功能,并附上每类Filter的对应代码实现. 本文尽量遵从Ref Guide中"9.4. Client Request Filters"的行文顺序,便于读者对照查看,但内容比官方文档更加详实. ***2014年7月18日更新.新增PageFilter和SkipFilter. *** 欢迎转载,请注明来源: http://blog.csdn.net/u0109…

【甘道夫】使用HIVE SQL实现推荐系统数据补全

需求在推荐系统场景中,假设基础行为数据太少,或者过于稀疏,通过推荐算法计算得出的推荐结果非常可能达不到要求的数量. 比方,希望针对每一个item或user推荐20个item,可是通过计算仅仅得到8个.剩下的12个就须要补全. 欢迎转载,请注明出处: http://blog.csdn.net/u010967382/article/details/39674047 策略数据补全的详细策略是: 补全时机:在挖掘计算结束后,挖掘结果导入HBase(终于web系统从HBase取数据)前.进行数据补全,…

【甘道夫】Apache Hadoop 2.5.0-cdh5.2.0 HDFS Quotas 配额控制

前言 HDFS为管理员提供了针对文件夹的配额控制特性,能够控制名称配额(指定文件夹下的文件&文件夹总数),或者空间配额(占用磁盘空间的上限). 本文探究了HDFS的配额控制特性,记录了各类配额控制场景的实验具体过程. 实验环境基于Apache Hadoop 2.5.0-cdh5.2.0. 欢迎转载,请注明出处:http://blog.csdn.net/u010967382/article/details/44452485 名称配额功能试用设置名称配额,即当前文件夹下文件和文件夹的最大数量: c…

【甘道夫】Hive 0.13.1 on Hadoop2.2.0 + Oracle10g部署详细解释

环境: hadoop2.2.0 hive0.13.1 Ubuntu 14.04 LTS java version "1.7.0_60" Oracle10g ***欢迎转载.请注明来源*** http://blog.csdn.net/u010967382/article/details/38709751 到下面地址下载安装包 http://mirrors.cnnic.cn/apache/hive/stable/apache-hive-0.13.1-bin.tar.gz 安装包解压到…

【甘道夫】HBase开发环境搭建过程中可能遇到的异常：No FileSystem for scheme: hdfs

异常: 2014-02-24 12:15:48,507 WARN [Thread-2] util.DynamicClassLoader (DynamicClassLoader.java:<init>(106)) - Failed to identify the fs of dir hdfs://fulonghadoop/hbase/lib, ignored java.io.IOException: No FileSystem for scheme: hdfs 解决: 在pom文件里增加: &…

【甘道夫】官方网站MapReduce代码注释具体实例

引言 1.本文不描写叙述MapReduce入门知识,这类知识网上非常多.请自行查阅 2.本文的实例代码来自官网 http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html 最后的WordCount v2.0,该代码相比源代码中的org.apache.hadoop.examples.WordCount要复杂和完整,更适合作为MapR…

【甘道夫】Ubuntu群集配置 - 免费登陆

引言这是几年前写的文章,但一直以来该问题被反复问到.所以我决定将它又一次搬上屏幕. 正文三个节点:masternode slavenode1 slavenode2 第一步:全部节点分别生成密钥对全部节点都要做:命令行中,在当前用户根文件夹运行 ssh-keygen -t rsa 密钥成功生成后是存储在当前用户根文件夹下的.ssh隐藏文件夹下,直接用 cd .ssh 就能进入,然后用ls命令就能看到id_rsa id_rsa.pub 第二步:拷贝生成authorized_ke…

【甘道夫】CDH5.2的Maven依赖

之前一直结合Maven开发Hadoop2.2.0的程序.环境换成CDH5.2后报错,发现是Maven依赖库的问题. 之前一直使用 http://mvnrepository.com/ 查找maven依赖.但这类站点仅仅能查到通用的maven依赖,没有包括CDH依赖.还好Cloudera提供了CDH的依赖: http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_vd_cdh5_maven_re…

【甘道夫】Win7环境下Eclipse连接Hadoop2.2.0

准备: 确保hadoop2.2.0集群正常执行 1.eclipse中建立javaproject,导入hadoop2.2.0相关jar包 2.在src根文件夹下拷入log4j.properties,通过log4j查看具体日志 log4j.rootLogger=debug, stdout, R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.Pat…

【甘道夫】NN HA 对于 Client 透明的实验

之前转载过一篇[伊利丹]写的NN HA实验记录.该博客描写叙述了主备NN透明切换的过程,也就是说,当主NN挂掉后,自己主动将备NN切换为主NN了,Hadoop集群正常执行. 今天我继续做了一个实验.目的是实现NN的切换不会对Client端程序造成影响,即NN切换对Client透明. 首先,非常重要的一点: 要保证core-site.xml中的 <property> <name>fs.defaultFS</name> <value>hd…

【甘道夫】Hadoop2.2.0 NN HA具体配置+Client透明性试验【完整版】

引言: 前面转载过一篇团队兄弟[伊利丹]写的NN HA实验记录,我也基于他的环境实验了NN HA对于Client的透明性. 本篇文章记录的是亲自配置NN HA的具体全过程,以及全面測试HA对client訪问透明性的全过程.希望对大家有帮助. 实验环境: Hadoop2.2.0的4节点集群.ZK节点3个(ZK节点数最好为奇数个),hosts文件和各节点角色分配例如以下: hosts: 192.168.66.91 master 192.168.66.92 slave1 192.168.66.93 s…

【甘道夫】Ubuntu14 server + Hadoop2.2.0环境下Sqoop1.99.3部署记录

第一步.下载.解压.配置环境变量: 官网下载sqoop1.99.3 http://mirrors.cnnic.cn/apache/sqoop/1.99.3/ 将sqoop解压到目标文件夹,我的是 /home/fulong/Sqoop/sqoop-1.99.3-bin-hadoop200 配置环境变量: export SQOOP_HOME=/home/fulong/Sqoop/sqoop-1.99.3-bin-hadoop200 export PATH=$PATH:$SQOOP_HOME/bin…

【甘道夫】Eclipse+Maven搭建HBase开发环境及HBaseDAO代码演示样例

环境: Win764bit Eclipse Version: Kepler Service Release 1 java version "1.7.0_40" 第一步:Eclipse中新建Maven项目.编辑pom.xml并更新下载jar包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance&qu…

【甘道夫】Hadoop2.2.0环境使用Sqoop-1.4.4将Oracle11g数据导入HBase0.96，并自己主动生成组合行键

目的: 使用Sqoop将Oracle中的数据导入到HBase中,并自己主动生成组合行键! 环境: Hadoop2.2.0 Hbase0.96 sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz Oracle11g jdk1.7 Ubuntu14 Server 这里关于环境吐槽一句: 最新版本号的Sqoop1.99.3功能太弱.仅仅支持导入数据到HDFS,没有别的不论什么选项,太土了.(如有不允许见欢迎讨论给出解决方式) 命令: sqoop import -D s…

【甘道夫】Sqoop1.99.3基础操作--导入Oracle的数据到HDFS

第一步:进入clientShell fulong@FBI008:~$ sqoop.sh client Sqoop home directory: /home/fulong/Sqoop/sqoop-1.99.3-bin-hadoop200 Sqoop Shell: Type 'help' or '\h' for help. sqoop:000> set server --host FBI003 --port 12000 --webapp sqoop Server is set successful…

基于 Apache Mahout 构建社会化推荐引擎

基于 Apache Mahout 构建社会化推荐引擎 http://www.ibm.com/developerworks/cn/views/java/libraryview.jsp 推荐引擎利用特殊的信息过滤(IF,Information Filtering)技术,将不同的内容(例如电影.音乐.书籍.新闻.图片.网页等)推荐给可能感兴趣的用户.通常情况下,推荐引擎的实现是通过将用户的个人喜好与特定的参考特征进行比较,并试图预测用户对一些未评分项目的喜好程度.参考特征的选取可能是从项目本身的信息…

项目实战：Mahout构建图书推荐系统

前言本文是Mahout实现推荐系统的又一案例,用Mahout构建图书推荐系统.与之前的两篇文章,思路上面类似,侧重点在于图书的属性如何利用.本文的数据在自于Amazon网站,由爬虫抓取获得. 目录项目背景需求分析数据说明算法模型程序开发 1. 项目背景 Amazon是最早的电子商务网站之一,以网上图书起家,最后发展成为音像,电子消费品,游戏,生活用品等的综合性电子商务平台.Amazon的推荐系统,是互联网上最早的商品推荐系统,它为Amazon带来了至少30%的流量,和可观的销售利润.…

转】用Mahout构建职位推荐引擎

原博文出自于: http://blog.fens.me/hadoop-mahout-recommend-job/ 感谢! 用Mahout构建职位推荐引擎 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bi…

转】Mahout构建图书推荐系统

原博文出自于: http://blog.fens.me/hadoop-mahout-recommend-book/ 感谢! Mahout构建图书推荐系统 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bi…

【【甘道夫】通过Mahout构建贝叶斯文本分类器案例具体解释】的更多相关文章