在Hadoop集群里,有三种模式: 1.本地模式 2.伪分布模式 3.全分布模式 在Spark集群里,有四种模式: 1.local单机模式 结果xshell可见: ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./lib/spark-examples-1.3.1-hadoop2.4.0.jar 100 这里写local,就是local[1] 2.standalone集群模式 需要的配置…
很少有人会这样来自问自己?只知道,以键值对的形式处理数据并输出结果,而没有解释为什么要以键值对的形式进行. 包括hadoop的mapreduce里的键值对,spark里的rdd里的map等. 这是为什么呢? 1.键值对的具体含义 首先,我们会通过强调Java标准库中的类似概念,来阐明我们所说的键值对的含义. java.util.Map接口是常用类,如HashMap,甚至原始Hashtable的父类(通过向后重构代码库). 对于任何Java Map对象,其内容是从指定类型的给定键到相关值的一组映射…
Hadoop使用数据复制来实现容错性(I/O高) Spark使用RDD数据存储模型来实现容错性.  RDD是只读的.分区记录的集合.如果一个RDD的一个分区丢失,RDD含有如何重建这个分区的相关信息.这就避免了使用数据复制来保证容错性的要求,从而减少了对磁盘的访问.通过RDD,后续步骤如果需要相同数据集时就不必重新计算或从磁盘加载.…
很多人只会,但没深入体会和想为什么要这样? 拿Hadoop来说,当然,spark也一样的道理. 输出路径由Hadoop自己创建,实际的结果文件遵守part-nnnn的约定. 如何指定一个已有目录作为Hadoop作业的输出路径,作业将无法进行,并会抛出异常抗议一个已经存在的目录.如果想让Hadoop将输出存储到一个目录,它必须是不存的目录.其实,我们可以把这个特点当做Hadoop的一种安全机制,它可以防止Hadoop重写有用的文件以及用户总是忘记弄清的事.…
不多说,直接上干货! 零基础学习hadoop,没有想象的那么困难,也没有想象的那么容易.从一开始什么都不懂,到能够搭建集群,开发.整个过程,只要有Linux基础,虚拟机化和java基础,其实hadoop并没有太大的困难.下面整理一下整个学习过程,给大家一个参考. 首先我们要了解hadoop是什么?Hadoop能够做什么?Hadoop的使用场景是什么?Hadoop和大数据.云计算的关系是什么?如何使用hadoop? 当大家对这些问题有了基本的了解之后,接下来我们就要系统性的学习hadoop了.我个…
前言 说明的是,本博文,是在以下的博文基础上,立足于它们,致力于我的大数据领域! http://kongcodecenter.iteye.com/blog/1231177 http://blog.csdn.net/u010376788/article/details/51337312 http://blog.csdn.net/arkblue/article/details/7897396 第一种:普通做法 首先,编号写WordCount.scala程序. 然后,打成jar包,命名为WC.jar.…
不多说,直接上干货! 说在前面的话 此笔,对于仅对于Hadoop和Spark初中学者.高手请忽略! 1 Java基础: 视频方面:          推荐<毕向东JAVA基础视频教程>.学习hadoop不需要过度的深入,java学习到javase,在Java虚拟机的内存管理.以及多线程.线程池.设计模式.并行化多多理解实践即可.     书籍方面: 推荐李兴华的<java开发实战经典> 2 Linux基础:     视频方面: (1)马哥的高薪Linux视频课程-Linux入门.…
说在前面的话 此笔,对于仅对于Hadoop和Spark初中学者.高手请忽略! 1 Java基础: 视频方面:          推荐<毕向东JAVA基础视频教程>.学习hadoop不需要过度的深入,java学习到javase,在Java虚拟机的内存管理.以及多线程.线程池.设计模式.并行化多多理解实践即可.     书籍方面: 推荐李兴华的<java开发实战经典> 2 Linux基础:     视频方面: (1)马哥的高薪Linux视频课程-Linux入门. (2)兄弟连的新版Li…
1 Java基础: 视频方面:          推荐<毕向东JAVA基础视频教程>.学习hadoop不需要过度的深入,java学习到javase,在Java虚拟机的内存管理.以及多线程.线程池.设计模式.并行化多多理解实践即可.     书籍方面: 推荐李兴华的<java开发实战经典> 2 Linux基础:     视频方面: (1)马哥的高薪Linux视频课程-Linux入门. (2)兄弟连的新版Linux视频教程. (3)老段的讲解鸟哥Linux基础+私房菜. (4)老男孩的…
如何去找到历史版本的Hadoop发行包 找到Hadoop历史版本 这里我需要的Hadoop版本是2.0.3.打开hadoop的下载页面 http://www.apache.org/dyn/closer.cgi/hadoop/common/ 随便打开一个下载镜像,我们都找不到2.0.3这个版本. 具体怎么找到历史版本的Hadoop发行包,步骤如下: http://hadoop.apache.org/releases.html https://archive.apache.org/dist/hado…