拓展:

Hadoop 3.0

NameNode HA

NameNode是Active

NameNode是Standby可以有多个

HBase

Cluster

单节点故障?

HBaster -> BackMaster

HRegionServer

WEBUI 60010

Spark 课程安排
分为两个部分:
第一部分:基础篇
SCALA:1天
SparkCore:2天 - MapReduce
SparkSQL:1天 - Hive Shark = Hive on Spark
关键,企业中必用的,必须掌握
SparkStreaming:1天 - Storm
DStream
企业实时数据统计分析
Spark 2.0
StructureStreaming
第二部分:项目篇
基于Spark交互式用户行为分析系统
三天
额外扩展:
Spark MLlib学习 1天

Spark:
加州大学伯克利分校AMPLab
AMP
A:算法
M:机器
P:人类

=============================================================
1、为什么学习SCALA
-1,Spark框架SCALA编程、Kafka
源码
-2,Spark编程
SCALA、Python、JAVA、R
细心:
Spark官方文档、讲义,Spark编程代码都是Python语言

databrick
金砖

JAVA
C阵营(C、C#、C++)
Python - Spark
火的

函数
没有放在类中
方法
放在类中

隐式转换
"偷龙转凤"

大数据框架,”helloworld"程序就WordCount
hadoop -> (hadoop, 1) -> (hadoop, list(11,1,1)) -> (hadoop, 14)

rdd.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
-1,
line.toString().split(" ")

==========================================================
Spark 1.x
Scala 2.10.x 4
Spark 2.x
Scala 2.11.x 8

Scala 语言
交互式编程语言,Shell类似,交互式命令行
正是由于提供交互式命令行,所以使得Spark程序开发、测试,很方便

对于Scala语言来说,IDE工具
The Scala IDE (based on Eclipse),
支持不是很好,提示,编译语法
IntelliJ IDEA with the Scala plugin,
最多,支持很好
NetBeans IDE with the Scala plugin.

DELIMITED FIELDS TERMINATED BY '\t'

DELIMITED FIELDS TERMINATED BY char [ESCAPED BY char]]

T => U
表示函数
确定一个方法的两个标准
-1,参数
个数、类型
-2,返回值
(Int, Int) => Int

def map(f: T => U): RDD ={

}

在JAVA中,循环来说,通常有两个关键字
break
跳出整个循环
continue
跳出当前的循环

回顾一下:
JAVA中的FOR循环
for(int index = 1 ; index ++ ; index <= 10){
println(index)
}

for(index <- 1 to 10){
println(index)
}

apply()方法

《OD学spark》20160924scala基础的更多相关文章

  1. 《OD学spark》20161022

    一.Spark Core 1. 什么是Spark Shuffle Wide Dependencies *ByKey: groupByKey,reduceByKey 关联操作:join,cogroup ...

  2. 《OD学spark》20160925 Spark Core

    一.引言 Spark内存计算框架 中国Spark技术峰会 十二场演讲 大数据改变世界,Spark改变大数据 大数据: 以Hadoop 2.x为主的生态系统框架(MapReduce并行计算框架) 存储数 ...

  3. 【原创 Hadoop&Spark 动手实践 12】Spark MLLib 基础、应用与信用卡欺诈检测系统动手实践

    [原创 Hadoop&Spark 动手实践 12]Spark MLLib 基础.应用与信用卡欺诈检测系统动手实践

  4. 小白学Docker之基础篇

    系列文章: 小白学Docker之基础篇 小白学Docker之Compose 小白学Docker之Swarm PS: 以下是个人作为新手小白学习docker的笔记总结 1. docker是什么 百科上的 ...

  5. 7天学完Java基础之0/7

    笔记-7天学完Java基础之0/7 1.常用命令提示符(cmd) 启动:Win+R,输入cmd​

  6. Spark编程基础_RDD初级编程

    摘要:Spark编程基础_RDD初级编程 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素 ...

  7. Spark编程基础_RDD编程

    RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合.RDD具有数据流模型的特 ...

  8. 简明易懂,将细节隐藏,面向新手树立web开发概念——学完Java基础语法,超快速上手springboot+mybatiJavaWeb开发

    简明易懂,将细节隐藏,面向新手树立web开发概念 --学完Java基础语法,超快速上手JavaWeb开发 Web本质(先忽视各种协议) Web应用可以理解为浏览器和服务器之间的交互. 我们可以看一个简 ...

  9. 《OD学hadoop》Linux基础

    一.Linux基本环境 1. Linux常见版本及VMware虚拟机安装Linux系统 2. 虚拟机网络配置(IP地址.主机名.防火墙) 3. 文件基本命令操作 4. 四大远程连接工具使用 二.Lin ...

随机推荐

  1. php设计模式课程---2、为什么会用到简单工厂设计模式

    php设计模式课程---2.为什么会用到简单工厂设计模式 一.总结 一句话总结: 比如调用数据库的语句,如果调用的数据库名字改了,或者调用的数据库类型改了(比如从Mysql用到了Mysqli),那么要 ...

  2. java:练习超市卖场

    java:练习超市卖场 涉及到:大商品类,具体商品(以书为例),卖场类 Goods,Book,superMart,  商品类Goods: public interface Goods { //商品类 ...

  3. UVA 291 The House Of Santa Claus(DFS算法)

    题意:从 节点1出发,一笔画出 圣诞老人的家(所谓一笔画,就是遍访所有边且每条边仅访问一次). 思路:深度优先搜索(DFS算法) #include<iostream> #include&l ...

  4. Linux tar.gz 、zip、rar 解压 压缩命令

    tar -c: 建立压缩档案 -x:解压 -t:查看内容 -r:向压缩归档文件末尾追加文件 -u:更新原压缩包中的文件 这五个是独立的命令,压缩解压都要用到其中一个,可以和别的命令连用但只能用其中一个 ...

  5. 纯css实现3D字体

    下面分别是html,css和js代码: <div class="wrapper"> <h1 contenteditable data-heading=" ...

  6. Abp模块分析

    1.什么是模块? 模块化是一种处理复杂系统分解为更好的可管理模块的方式.模块化用来分割,组织和打包软件.每个模块完成一个特定的子功能,所有的模块按某种方法组装起来,成为一个整体,完成整个系统所要求的功 ...

  7. Java中数学计算的相关方法

    1:Math类 2.BigInteger类  3.BigDecimal类 BigInteger bi = new BigInteger("12433241123"); BigDec ...

  8. OpenAL播放pcm或wav数据流-windows/ios/android(一)

    OpenAL播放pcm或wav数据流-windows/iOS/Android(一)   最近在研究渲染问题,本文采用openal做pcm和wav数据流播放,并非本地文件,demo是windows的,i ...

  9. GridView有用的小方法--2017年2月13日

    原文:http://blog.csdn.net/21aspnet/article/category/285354更多:http://blog.csdn.net/21aspnet/article/cat ...

  10. maven的配置文件取不同版本

    1. 两个地方需要配置首先是要定义配置源,dev/test/prod对应的配置源需要指定:这是灵活的,可变的:其次要定义配置文件,该配置文件里面的内容采用占位符的方式来编制,在编译打包的过程中要动态根 ...