Spark集群搭建简配+它到底有多快？【单挑纯C/CPP/HADOOP】

最近耳闻Spark风生水起，这两天利用休息时间研究了一下，果然还是给人不少惊喜。可惜，笔者不善JAVA，只有PYTHON和SCALA接口。花了不少时间从零开始认识PYTHON和SCALA，不少时间答了VIM的IDE，总算走入正途。下面将一些SPARK集群搭建心得简单写一下。期间也零星碰到不少问题。

//spark
1，去mirror站点下138M大小的编译好的包，去下SCALA 2.9.X，HADOOP该启动的启动

2，配置各种$HOME和$PATH
配置$SPARK_HOME/conf/spark-env.sh中的javahome,scalehome,sparkhome
配置slaves文件加入主机名
配置.bash_profile javahome,scalehome,sparkhome 和path

3，把1主和2备用SCP同步一下
scp scala root@192.168.137.104:/root/soft
scp spark root@192.168.137.104:/root
主:start-all.sh
jps多了一个master，jps多了一个worker
http://cent3:8080/
http://cent4:8081/
http://cent2:8081/

4，跑自带实例
./run org.apache.spark.examples.SparkPi local
./run-example org.apache.spark.examples.SparkPi spark://cent3:7077
./run-example org.apache.spark.examples.SparkLR spark://cent3:7077
./run-example org.apache.spark.examples.SparkKMeans spark://cent3:7077 ./kmeans_data.txt 2 1

5，跑spark-shell 【SBT理解不能。。-_-，好复杂】
MASTER=spark://cent3:7077 ./spark-shell
scala> System.setProperty("spark.executor.memory", "512") #调优MEM参数
scala> System.setProperty("spark.cores.max", "5") #调优CPU参数
scala> val file = sc.textFile("hdfs://cent3:9000/user/root/mandela.txt")
scala> val count = file.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_)
scala> count.collect()
res0: Array[(java.lang.String, Int)] = Array((peacefully,2), ("",15), (domination,,1), (African,3), (Peace,1), (handed,1), (awarded,1), (era,,1), (cut,1), (example,1), (my,1), (probed,1), (as,2), (country's,3), (rural,1), (his,9), (voluntary,1), (when,3), (last,1), (elections,1), (its,2), (who,1), (appearance,1), (teeth,1), (neighborhood,1), (three,1), (new,1), (jail,1), (president,3), (Charged,1), (died,1), (prisoner.,1), (mission,1), (years,2), (Mandela,6), (Madiba,,1), (myself,1), (1999.,1), (disease,1), (President,3), (after,1), (grip,1), (ovation,1), (office.,1), (from,8), (prolonged,1), (Nobel,1), (sides,1), (died:,1), (other,1), (personal,1), (wounds.,1), (one,1), (Africa,2), (obscurity,1), (As,1), (forging,1), (son,1), (this,1), (president,,1), (has,2), (Mandela,,3), (apartheid,...

6，跑pyspark实例
cd /root/spark/python
[ALONE+LOCAL] pyspark examples/wordcount.py local[2] mandela.txt
[ALONE+HDFS] pyspark examples/wordcount.py local[2] hdfs://cent3:9000/user/root/mandela.txt
[CLUSTER+LOCAL] pyspark examples/wordcount.py spark://cent3:7077 mandela.txt 前提是所有Master和Worker主机上都有
[CLUSTER+HDFS pyspark examples/wordcount.py spark://cent3:7077 hdfs://cent3:9000/user/root/mandela.txt

好，至此基本上可以随便玩了，github上有官网python例子，省了不少事儿。下面开始他的真身验明，交手C/CPP/HADOOP

环境介绍：

1，某想 E49 Inter Core i5-3320M CPU@2.6GHz / 2048MB / 128G 某星 SSD

2，VituralBox 三台虚拟机cent2,cent3,cent4。其中cent3是老大

虚拟机配置: 1 core / 2048MB / 10G VMDX（SPLIT=2G）/ CENTOS 6，不启用过量分配。

3，单挑对象简介

纯C：以stdio的fgets作为标准输入，sscanf拆分，在一套循环内完成word count。
CPP：以std::cin作为标准输入，未加速，自动空格拆分，用pipe模拟MR，一个读，一个汇总。
HADOOP：以CPP为模板做Streaming，HDFS做介质。
SPARK：本地LOCAL用单线程、双线程共同测试（虽然CPU是1core）
SPARK：AMP最推荐的运载方式，不多言。

4，关联文件，从网上DOWN篇E文小说，复制成100M/500M/1024M，做WORDCOUNT。

5，所有平台做初始配置，不调优。

最终测得结果如下：

结论：

在单机版上spark与纯C不分伯仲，但也领先了cpp不少。
在分布式上，的确比hadoop快N倍，真心强，这还是在split 32MB的情况下。
此次纯c的mmap和OS RawDevice未参与，即便参与估计也就再多给1~3秒，个人感觉spark应该有用到这块一口闷的关键技术。
此次仅仅是wordcount，谣传k-means效果恐怖，有空再测试一把。
由于1核VM，基本上跑起来CPU就是100%。不过SPARK有个特点就是SYS%用的少，这应该就是纯MEM计算的特征。

心得：

集群搭建不难，难在lamada编程，真心考验脑力，有时感觉比ML还复杂，多少理解不能，但还得去学，应该蛮有意思的。
python的同学别高兴太早，关键代码还是要lamada编程。
java和scala同学的福音，自带N多MLLIB。
中文版调优文档较少，国外论坛和WIKI较少，还是得自学。希望国内有人开个BBS组织一下。^_^

Spark集群搭建简配+它到底有多快？【单挑纯C/CPP/HADOOP】的更多相关文章

Spark集群搭建（local、standalone、yarn）
Spark集群搭建 local本地模式下载安装包解压即可使用,测试(2.2版本)./bin/spark-submit --class org.apache.spark.examples.SparkP ...
（四）Spark集群搭建-Java&Python版Spark
Spark集群搭建视频教程 1.优酷 2.YouTube 安装scala环境下载地址http://www.scala-lang.org/download/ 上传scala-2.10.5.tgz到m ...
Spark集群搭建简要
Spark集群搭建 1 Spark编译 1.1 下载源代码 git clone git://github.com/apache/spark.git -b branch-1.6 1.2 修改pom文件 ...
Spark集群搭建中的问题
参照<Spark实战高手之路>学习的,书籍电子版在51CTO网站资料链接 Hadoop下载[链接](http://archive.apache.org/dist/hadoop/core/ ...
Spark集群搭建_Standalone
2017年3月1日, 星期三 Spark集群搭建_Standalone Driver: node1 Worker: node2 Worker: node3 1.下载安装下载地址 ...
Spark集群搭建_YARN
2017年3月1日, 星期三 Spark集群搭建_YARN 前提:参考Spark集群搭建_Standalone 1.修改spark中conf中的spark-env.sh 2.Spark on ...
spark集群搭建
文中的所有操作都是在之前的文章scala的安装及使用文章基础上建立的,重复操作已经简写: 配置中使用了master01.slave01.slave02.slave03: 一.虚拟机中操作(启动网卡)s ...
Spark 集群搭建
0. 说明 Spark 集群搭建 [集群规划] 服务器主机名 ip 节点配置 s101 192.168.23.101 Master s102 192.168.23.102 Worker s103 19 ...
Hadoop集群+Spark集群搭建（一篇文章就够了）
本文档环境基于ubuntu16.04版本,(转发请注明出处:http://www.cnblogs.com/zhangyongli2011/ 如发现有错,请留言,谢谢) 一.准备 1.1 软件版本 Ub ...

随机推荐

csdn仍是"待定"对?
正如标题,我的博客会审查,?我们见证.如此反复.考虑到该博客平台的变化. 看来,这次最终逃脱被"待审核",看来再也不用受这个困扰了,希望以后CSDN可以在 ...
HDU2149-Public Sale
Public Sale Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Tota ...
HTML5 3D翻书效果(双面效应)
最后使用HTML5翻书效果达到测试,比较简单,它的升级版是最后一个问题: 1)后,原来的页面连环画将成为一面镜子 2)无法实现双面翻书. 3)明显感觉页面似有近遮挡标志. 这次的升级版本号实现过程比 ...
为什么在Python3.4.1里输入print 10000L或10000L失败
打开Python的命令行交互窗体,而且在里面进行以下的输入: Python 3.4.1 (v3.4.1:c0e311e010fc, May 18 2014, 10:38:22) [MSC v.1600 ...
mysql经常使用命令总结
MySQL经常使用指令(备查) 最经常使用的显示命令: 1.显示数据库列表. show databases; 2.显示库中的数据表: use mysql; show tables; 3.显示数 ...
C和指针（pointers on C）——第十章：结构和联合（下一个）锻炼
//1.本章只为了刷存在演习.. . typedef struct phone { char * quhao; char * jiaohuantai; char * zhanhaoma; }; typ ...
Nginx+Php-fpm+MySQL+Redis源码编译安装指南
说明:本教程由三部分组成如下: 1. 源码编译安装Nginx 2. 源码编译安装php以及mysql.redis扩展模块 3. 配置虚拟主机文中所涉及安装包程序均提供下 ...
HDU 1711 Number Sequence（kmp）
Problem Description Given two sequences of numbers : a[1], a[2], ...... , a[N], and b[1], b[2], .... ...
nRF905 - 系列示意图
一个.截图备份文件:sch20110521.7z 版权声明:本文博客原创文章,博客,未经同意,不得转载.
体验安装金蝶K/3 Wise 13.0（图像）
金蝶13.0它提供windows7支持,而数据库也升级到SQL server 2008,有许多功能上的改善和增强.原本在位置低版本号需要时间来管理此功能,因为有这个模块没有原因一直没能起来,现在,新版 ...

Spark集群搭建简配+它到底有多快？【单挑纯C/CPP/HADOOP】

Spark集群搭建简配+它到底有多快？【单挑纯C/CPP/HADOOP】的更多相关文章

随机推荐

热门专题