【甘道夫】CDH5.2的Maven依赖

【【甘道夫】CDH5.2的Maven依赖】的更多相关文章

【甘道夫】Win7x64环境下编译Apache Hadoop2.2.0的Eclipse小工具

目标: 编译Apache Hadoop2.2.0在win7x64环境下的Eclipse插件环境: win7x64家庭普通版 eclipse-jee-kepler-SR1-win32-x86_64.zip Apache Ant(TM) version 1.8.4 compiled on May 22 2012 java version "1.7.0_45" 參考文章: http://kangfoo.u.qiniudn.com/article/2013/12/build-hadoop2x…

【甘道夫】MapReduce实现矩阵乘法--实现代码

之前写了一篇分析MapReduce实现矩阵乘法算法的文章: [甘道夫]Mapreduce实现矩阵乘法的算法思路为了让大家更直观的了解程序运行,今天编写了实现代码供大家參考. 编程环境: java version "1.7.0_40" Eclipse Kepler Windows7 x64 Ubuntu 12.04 LTS Hadoop2.2.0 Vmware 9.0.0 build-812388 输入数据: A矩阵存放地址:hdfs://singlehadoop:8020/works…

【甘道夫】CDH5.2的Maven依赖

之前一直结合Maven开发Hadoop2.2.0的程序.环境换成CDH5.2后报错,发现是Maven依赖库的问题. 之前一直使用 http://mvnrepository.com/ 查找maven依赖.但这类站点仅仅能查到通用的maven依赖,没有包括CDH依赖.还好Cloudera提供了CDH的依赖: http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_vd_cdh5_maven_re…

【甘道夫】怎样在cdh5.2上执行mahout的itemcf on hadoop

环境: hadoop-2.5.0-cdh5.2.0 mahout-0.9-cdh5.2.0 步骤: 基本思路是,将mahout下的全部jar包都引入hadoop的classpath就可以,所以改动了$HADOOP_HOME/etc/hadoop/hadoop-env.sh,加入例如以下代码将mahout的全部jar包引入hadoop的classpath: for b in $MAHOUT_HOME/lib/*.jar; do if [ "$HADOOP_CLASSPATH" ];…

【甘道夫】Eclipse+Maven搭建HBase开发环境及HBaseDAO代码演示样例

环境: Win764bit Eclipse Version: Kepler Service Release 1 java version "1.7.0_40" 第一步:Eclipse中新建Maven项目.编辑pom.xml并更新下载jar包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance&qu…

【甘道夫】基于Mahout0.9+CDH5.2执行分布式ItemCF推荐算法

环境: hadoop-2.5.0-cdh5.2.0 mahout-0.9-cdh5.2.0 引言尽管Mahout已经宣布不再继续基于Mapreduce开发,迁移到Spark.可是实际面临的情况是公司集群没有足够的内存支持Spark这仅仅把内存当饭吃的猛兽.再加上项目进度的压力以及开发者的技能现状,所以不得不继续使用Mahout一段时间. 今天记录的是命令行执行ItemCF on Hadoop的过程. 历史之前读过一些前辈们关于的Mahout ItemCF on Hadoop编程的相关文章.描…

【甘道夫】HBase（0.96以上版本号）过滤器Filter具体解释及实例代码

说明: 本文參考官方Ref Guide,Developer API和众多博客.并结合实測代码编写.具体总结HBase的Filter功能,并附上每类Filter的对应代码实现. 本文尽量遵从Ref Guide中"9.4. Client Request Filters"的行文顺序,便于读者对照查看,但内容比官方文档更加详实. ***2014年7月18日更新.新增PageFilter和SkipFilter. *** 欢迎转载,请注明来源: http://blog.csdn.net/u0109…

【甘道夫】HBase基本数据操作的详细说明【完整版，精绝】

介绍之前具体写了一篇HBase过滤器的文章.今天把基础的表和数据相关操作补上. 本文档參考最新(截止2014年7月16日)的官方Ref Guide.Developer API编写. 全部代码均基于"hbase 0.96.2-hadoop2"版本号编写,均实測通过. 欢迎转载,请注明来源: http://blog.csdn.net/u010967382/article/details/37878701 概述对于建表,和RDBMS类似,HBase也有namespace的概念.能够指定表…

【甘道夫】使用HIVE SQL实现推荐系统数据补全

需求在推荐系统场景中,假设基础行为数据太少,或者过于稀疏,通过推荐算法计算得出的推荐结果非常可能达不到要求的数量. 比方,希望针对每一个item或user推荐20个item,可是通过计算仅仅得到8个.剩下的12个就须要补全. 欢迎转载,请注明出处: http://blog.csdn.net/u010967382/article/details/39674047 策略数据补全的详细策略是: 补全时机:在挖掘计算结束后,挖掘结果导入HBase(终于web系统从HBase取数据)前.进行数据补全,…

【甘道夫】Apache Hadoop 2.5.0-cdh5.2.0 HDFS Quotas 配额控制

前言 HDFS为管理员提供了针对文件夹的配额控制特性,能够控制名称配额(指定文件夹下的文件&文件夹总数),或者空间配额(占用磁盘空间的上限). 本文探究了HDFS的配额控制特性,记录了各类配额控制场景的实验具体过程. 实验环境基于Apache Hadoop 2.5.0-cdh5.2.0. 欢迎转载,请注明出处:http://blog.csdn.net/u010967382/article/details/44452485 名称配额功能试用设置名称配额,即当前文件夹下文件和文件夹的最大数量: c…