spark和mapreduce差不多,都是一种计算引擎,spark相对于MapReduce来说,他的区别是,MapReduce会把计算结果放 在磁盘,spark把计算结果既放在磁盘中有放在内存中,mapreduce把可能会把一个大任务分成多个stage,瓶颈发生在IO,spark有一个叫DAG(有向无环图)的东西,可以把多个算子都放在一个stage进行合并. spark shuffle的时候一定会把数据放在磁盘中,因为如果在shuffle的时候数据丢失,代价特别的昂贵 spark和mapredu…
Spark简介安装和简单例子 Spark简介 Spark是一种快速.通用.可扩展的大数据分析引擎,目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Streaming.GraphX.MLlib等子项目,Spark是基于内存计算的大数据并行计算框架.简单来说Spark是 内存迭代计算,每个算子将计算结果保存在内存中,其他算子,读取这个结果,继续计算. Spark的四个特性: 1.快 Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数…
Mac OSX系统中Hadoop / Hive 与 spark 的安装与配置 环境搭建 记录     Hadoop 2.6 的安装与配置(伪分布式) 下载并解压缩 配置 .bash_profile : export HADOOP_HOME=/Users/fan/Applications/hadoop-2.6.0 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 配置 HDFS : etc/hadoop/core-site.xml: <con…
新公司的新项目,需要用到Oracle数据库,所以现在便来解除此数据库,不得不说,这个数据库还这是麻烦. 安装倒是简单,就是中间会遇到各种问题. 安装步骤参考:https://blog.csdn.net/fancheng614/article/details/78172894 安装完成后,中间不要有太大的报错,只要能进行到这里,就基本OK了. 此时去程序里面找SQL Plus ,运行. 先登录下,使用system超级管理员登录,口令是最开始安装的时候就设置的. 使用下面代码查看,能出来就基本上是安…
学习scala的原因主要是因为以后要学习spark. scala是运行在java虚拟机上的,它是一种面向对象和函数式编程结合的语言,并兼容java程序 相对于java更简单 安装scala前提你要保证你已经安装好了jdk 然后 下载这个msi版本的,下载完直接下一步下一步傻瓜安装 然后下载个IDEA 第一次新的IDEA没法创建scala 然后创建一个scala程序 然后选择你的sdk位置和jdk版本 然后finsh 在src下创建一个scala class文件 在这里可以为你的工程添加依赖外部包…
Hadoop有三种安装模式,分别为单机模式.伪分布式模式和完全分布式模式(集群模式).本文安装版本是hadoop-1.1.2,hadoop-2.x版本安装请参考:http://www.cnblogs.com/hanganglin/articles/4254931.html. 一.单机模式  单机模式是Hadoop的默认模式,单机模式只有一个节点,不使用HDFS,也不加载任何Hadoop的守护进程,该模式主要用户开发调试MapReduce应用程序逻辑. 二.伪分布式模式  伪分布式hadoop是一…
使用HABSE之前,要先安装一个zookeeper 我以前写的有https://www.cnblogs.com/wpbing/p/11309761.html 先简单介绍一下HBASE HBASE是一个数据库----可以提供数据的实时随机读写 他是一个nosql数据库,并不是结构化的,他只能粗略的进行一些查询,像多表之间的连接查询他是很难做到的(至少我这辣鸡不会). 我也是第一次接触这种nosql,人家的表结构不太一样,就是啥吧, 他有一个行健(类似于主键的东西) 然后剩下的就是你可以定义有几个列…
[时间]2014年11月19日 [平台]Centos 6.5 [工具]scp [软件]jdk-7u67-linux-x64.rpm CDH5.2.0-hadoop2.5.0 [步骤] 1. 准备条件 (1)集群规划 主机类型 IP地址 域名 master 192.168.50.10 master.hadoop.com slave1 192.168.50.11 slave1.hadoop.com slave2 192.168.50.12 slave2.hadoop.com slave3 192.1…
1. 启动namenode和datanode,在master上输入命令hdsf dfsadmin -report查看整个集群的运行情况(记得关闭防火墙) 2. 输入命令查看hadoop监听的端口,netstat -ntlp 3. 在宿主机浏览器输入{masterIP}:50070进行查看 4. 关闭集群 master机器命令:hadoop-daemon.sh stop namenode slave机器命令:hadoop-daemon.sh stop datanode 5. 创建集中式管理,在ma…
目标:测试Hadoop的集群安装 参考文档: [1]http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/SingleCluster.html [2]http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/ClusterSetup.html [3]http://www.cnblogs.com/jizhong/p/681388…