最近在做一个人群标签的项目,也就是根据客户的一些交易行为自动给客户打标签,而这些标签更有利于我们做商品推荐,目前打上标签的数据已达5亿+, 用户量大概1亿+,项目需求就是根据各种组合条件寻找标签和人群信息. 举个例子: 集合A: ( 购买过“牙膏“的人交易金额在10-500元并且交易次数在5次的客户并且平均订单价在20 -200元)  . 集合B: (购买过“牙刷”的人交易金额在5-50 并且交易次数在3次的客户并且平均订单价在10-30元). 求:<1>  获取集合A  交 集合B 客户数…
参照<Spark实战高手之路>学习的,书籍电子版在51CTO网站 资料链接 Hadoop下载[链接](http://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/) JDK下载[链接](http://www.oracle.com/technetwork/java/javase/downloads/index.html) 1.安装好vmvare和Ubuntu虚拟机后,不能使用vim,出现Package has no installation c…
忽略元数据末尾 回到原数据开始处 Hadoop+spark集群搭建 说明: 本文档主要讲述hadoop+spark的集群搭建,linux环境是centos,本文档集群搭建使用两个节点作为集群环境:一个作为Master节点,另一个作为Slave节点,由于spark依赖scala,所以需要安装scala 搭建步骤: 一:安装jdk二:安装hadoop集群(http://www.powerxing.com/install-hadoop-cluster/也可参考这个大家hadopp集群)1:选定一台机器…
Spark集群搭建 视频教程 1.优酷 2.YouTube 安装scala环境 下载地址http://www.scala-lang.org/download/ 上传scala-2.10.5.tgz到master和slave机器的hadoop用户installer目录下 两台机器都要做 [hadoop@master installer]$ ls hadoop2  hadoop-2.6.0.tar.gz  scala-2.10.5.tgz 解压 [hadoop@master installer]$…
Spark集群搭建 1 Spark编译 1.1 下载源代码 git clone git://github.com/apache/spark.git -b branch-1.6 1.2 修改pom文件 增加cdh5.0.2相关profile,如下: <profile> <id>cdh5.0.2</id> <properties> <hadoop.version>2.3.0-cdh5.0.2</hadoop.version> <hb…
最近耳闻Spark风生水起,这两天利用休息时间研究了一下,果然还是给人不少惊喜.可惜,笔者不善JAVA,只有PYTHON和SCALA接口.花了不少时间从零开始认识PYTHON和SCALA,不少时间答了VIM的IDE,总算走入正途.下面将一些SPARK集群搭建心得简单写一下.期间也零星碰到不少问题. //spark 1,去mirror站点下138M大小的编译好的包,去下SCALA 2.9.X,HADOOP该启动的启动 2,配置各种$HOME和$PATH配置$SPARK_HOME/conf/spar…
2017年3月1日, 星期三 Spark集群搭建_Standalone Driver:    node1    Worker:  node2    Worker:  node3 1.下载安装 下载地址:http://spark.apache.org/downloads.html Standalone模式的spark集群虽然不依赖于yarn,但是数据文件存在hdfs,所以需要hdfs集群启动成功 这里下载包也要根据hadoop集群版本启动 比如hadoop2.5.2需要下载spark-1.4.0-…
2017年3月1日, 星期三 Spark集群搭建_YARN 前提:参考Spark集群搭建_Standalone   1.修改spark中conf中的spark-env.sh   2.Spark on YARN--不需要启动Spark集群,因为已经在spark的配置文件中配置了hadoop的目录 附录: 不同运行模式的命令不同 1.standalone client模式 ./bin/spark-submit --class org.apache.spark.examples.SparkPi--ma…
文中的所有操作都是在之前的文章scala的安装及使用文章基础上建立的,重复操作已经简写: 配置中使用了master01.slave01.slave02.slave03: 一.虚拟机中操作(启动网卡)sh /install/initNetwork.shifup eth0 二.基础配置(主机名.IP配置.防火墙及selinux强制访问控制安全系统)vi /etc/sysconfig/network (配置磁盘中主机名字)vi /etc/hosts (配置映射,)hostname 主机名 (修改内存中…
0. 说明 Spark 集群搭建 [集群规划] 服务器主机名 ip 节点配置 s101 192.168.23.101 Master s102 192.168.23.102 Worker s103 192.168.23.103 Worker s104 192.168.23.104 Worker 1. Spark 集群搭建 1.0 前提 完成 Spark 单节点的安装,参照  Spark 基本概念 & 安装  安装部分 基于 Hadoop 完全分布式集群 1.1 配置 JAVA_HOME 环境变量…