目录 目录 1 1. 约定 1 2. 安装Scala 1 2.1. 下载 2 2.2. 安装 2 2.3. 设置环境变量 2 3. 安装Spark 2 3.1. 部署 2 3.2. 下载 3 3.3. 安装 3 3.4. 配置 3 3.4.1. 修改conf/spark-env.sh 3 3.4.2. 修改conf/slaves 3 4. 启动Spark 3 5. 安装Shark 4 5.1. 下载 4 5.2. 安装 4 5.3. 配置 4 5.3.1. 修改shark-env.sh 4 6.…
Hadoop3.0新特性介绍,比Spark快10倍的Hadoop3.0新特性 Apache hadoop 项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce 基于内存+io+磁盘,共同处理数据.其实最大改变的是hdfs,hdfs 通过最近black块计算,根据最近计算原则,本地black块,加入到内存,先计算,通过IO,共享内存计算区域,最后快速形成计算结果. 1. Hadoop 3.0简介 Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4…
最近想对自己学的东西做些回顾,想到写博客是个不错的方式,方便他人也有利自己,刚开始写不足之处大家多担待. 编译前需要安装JDK1.6以上.scala.Maven.Ant.hadoop2.20 如下图(/etc/profile): Spark编译有提供了两种方式: Maven编译:在 /etc/profile文中添加:export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" 执行命令:mv…
本文转载于雪晴数据网 相关内容: sparklyr包:实现Spark与R的接口,会用dplyr就能玩Spark Sparklyr与Docker的推荐系统实战 R语言︱H2o深度学习的一些R语言实践--H2o包 R用户的福音︱TensorFlow:TensorFlow的R接口 mxnet:结合R与GPU加速深度学习 碎片︱R语言与深度学习 ---------------------------------------- 日前,Rstudio公司发布了sparklyr包.该包具有以下几个功能: 实现…
1.准备: centos 6.5 jdk 1.7 Java SE安装包下载地址:http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html maven3.3.9 Maven3.3.9安装包下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache//maven/maven-3/3.3.9/binaries/ spark 2…
不多说,直接上干货! http://blog.csdn.net/jianglushou9763/article/details/73332805 如果需要 APACHE BEAM2.0.0版本如何支持SPARK2.0.2 则 http://blog.csdn.net/lvyanwenwen/article/details/78088279 欢迎大家,加入我的微信公众号:大数据躺过的坑        人工智能躺过的坑       同时,大家可以关注我的个人博客:    http://www.cnb…
目录 目录 1 1. 前言 2 2. 概念 2 2.1. Region name 2 3. 约定 2 4. 相关端口 3 5. 下载HBase 3 6. 安装步骤 3 6.1. 修改conf/regionservers 3 6.2. 修改conf/hbase-site.xml 3 6.2.1. hbase.master.info.port 5 6.2.2. hbase.master.info.bindAddress 5 6.3. 修改conf/hbase-env.sh 5 7. 系统设置 6 8…
目录 目录 1 1. 前言 1 2. 约定 2 3. 相关端口 2 4. 下载HBase 2 5. 安装步骤 2 5.1. 修改conf/regionservers 2 5.2. 修改conf/hbase-site.xml 3 5.2.1. hbase.master.info.port 4 5.2.2. hbase.master.info.bindAddress 4 5.3. 修改conf/hbase-env.sh 4 6. 启动运行 5 7. 基本的HBase命令 5 8. 备HMaster配…
环境篇:Kylin3.0.1集成CDH6.2.0 Kylin是什么? Apache Kylin™是一个开源的.分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区.它能在亚秒内查询巨大的表. Apache Kylin™ 令使用者仅需三步,即可实现超大数据集上的亚秒级查询. 定义数据集上的一个星形或雪花形模型 在定义的数据表上构建cube 使用标准 SQL 通过 ODBC.JDBC 或 R…
一.服务器环境配置 1 系统要求 名称 地址 操作系统 root密码 Master1 10.1.0.30 Centos 7.7 Root@bidsum1 Master2 10.1.0.105 Centos 7.7 Worker1 10.1.0.127 Centos 7.7   Worker2 10.1.0.106 Centos 7.7   Worker3 10.1.0.3 Centos 7.7 系统要求 Centos 7.3以上 64bit 最小化安装 浏览器 Google Chrome 2 S…