Scala进阶之路-Spark本地模式搭建

　　　　　　　　　　Scala进阶之路-Spark本地模式搭建

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰

一.Spark简介

1>.Spark的产生背景

　　传统式的Hadoop缺点主要有以下两点：　　

　　　　第一.迭代式计算效率低（一个MapReduce依赖上一个MapReduce的结果）;

　　　　第二.交互式数据挖掘效率低（运行一个HIVE语句效率是极低的，第一天输入的SQL可能等到第二天才能拿到结果）

　　Spark优化了Hadoop的两个缺点，可以将多个job合并成一个job来执行，也可以将于磁盘的交互迁移到内存进行交互，从而提升了工作效率。

2>.Spark是什么

、软件栈中所有的程序库和高级组件 都可以从下层的改进中获益。

、运行整个软件栈的代价变小了。不需要运行5到10套独立的软件系统了，一个机构只需要运行一套软件系统即可。系统的部署、维护、测试、支持等大大缩减。

、能够构建出无缝整合不同处理模型的应用。

Spark Core：
　　实现了 Spark 的基本功能，包含任务调度、内存管理、错误恢复、与存储系统 交互等模块。Spark Core 中还包含了对弹性分布式数据集(resilient distributed dataset，简称RDD)的 API 定义。

Spark SQL：
　　是 Spark 用来操作结构化数据的程序包。通过 Spark SQL，我们可以使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。Spark SQL 支持多种数据源，比 如 Hive 表、Parquet 以及 JSON 等。

Spark Streaming：
　　是 Spark 提供的对实时数据进行流式计算的组件。提供了用来操作数据流的 API，并且与 Spark Core 中的 RDD API 高度对应。

Spark MLlib：
　　提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据 导入等额外的支持功能。

集群管理器：
　　Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计 算。为了实现这样的要求，同时获得最大灵活性，Spark 支持在各种集群管理器(cluster manager)上运行，包括 Hadoop YARN、Apache Mesos，以及 Spark 自带的一个简易调度 器，叫作独立调度器。 

    Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于凤巢、大搜索、直达号、百度大数据等业务；阿里利用GraphX构建了大规模的图计算和图挖掘系统，实现了很多生产系统的推荐算法；腾讯Spark集群达到8000台的规模，是当前已知的世界上最大的Spark集群。

3>.Spark的安装模式

安装模式可分为以下几种:

Local、Local-Cluster、Standalone、Yarn、Mesos

Master节点主要运行集群管理器的中心化部分，所承载的作用是分配Application到Worker节点，维护Worker节点，Driver，Application的状态。

Worker节点负责具体的业务运行。

二.部署Spark本地模式

1>.下载Spark软件

　　官网下载地址：http://spark.apache.org/downloads.html

　　当然点上面的网页只是对该版本的支持，允许我调戏你一下，哈哈，实际上下载位置应该在这里：https://archive.apache.org/dist/spark/ 。

2>.解压下载的Spark并创建软连接

[yinzhengjie@s101 download]$ wget https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.7.tgz

[yinzhengjie@s101 download]$ ll

total

-rw-r--r--  yinzhengjie yinzhengjie  Jan    spark-2.1.-bin-hadoop2..tgz

[yinzhengjie@s101 download]$

[yinzhengjie@s101 download]$ tar -zxf spark-2.1.-bin-hadoop2..tgz -C /soft/

[yinzhengjie@s101 download]$

[yinzhengjie@s101 download]$ ln -s /soft/spark-2.1.-bin-hadoop2./ /soft/spark

[yinzhengjie@s101 download]$

[yinzhengjie@s101 download]$ ll /soft/ | grep spark

lrwxrwxrwx    yinzhengjie yinzhengjie    Jul  : spark -> /soft/spark-2.1.-bin-hadoop2./

drwxr-xr-x   yinzhengjie yinzhengjie  Dec    spark-2.1.-bin-hadoop2.

[yinzhengjie@s101 download]$

3>.配置环境变量并使环境变量生效

[yinzhengjie@s101 download]$ tail - /etc/profile

#ADD spark Path

export SPARK_HOME=/soft/spark

PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

[yinzhengjie@s101 download]$

[yinzhengjie@s101 download]$ source /etc/profile

[yinzhengjie@s101 download]$

4>.启动Spark

5>.查看进程是否启动

6>.查看WebUI界面

三.Spark初体验-使用Spark实现单词统计

1>.创建测试文件

[yinzhengjie@s101 download]$ cat /home/yinzhengjie/.txt

hello world

yinzhengjie hello word

hello scala

hello java

hello python

hello shell

hello yinzhengjie

hello golang

[yinzhengjie@s101 download]$

2>.实现单词统计

体验Spark

----------------------

    .登录spark

　　　　　　spark-shell

    .编写scala代码

        //1.加载文本

        val rdd1 = sc.textFile("/home/yinzhengjie/1.txt")

        //2.压扁

        val rdd2 = rdd1.flatMap(line=>{line.split(" ")})

        //3.变换，标1成对

        val rdd3 = rdd2.map(word=>{(word , )})

        //4.按照key进行化简

        val rdd4 = rdd3.reduceByKey((a,b)=> a + b).sortBy(t=> -t._2 )

        //5.输出结果

        rdd4.collect()

    .一行完成

         sc.textFile("/home/yinzhengjie/1.txt").flatMap(_.split(" ")).map((_,)).reduceByKey(_+_).sortBy(t=> -t._2 ).collect()

Scala进阶之路-Spark本地模式搭建的更多相关文章

Scala进阶之路-Spark独立模式（Standalone）集群部署
Scala进阶之路-Spark独立模式(Standalone)集群部署作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们知道Hadoop解决了大数据的存储和计算,存储使用HDFS ...
Scala进阶之路-Spark底层通信小案例
Scala进阶之路-Spark底层通信小案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Spark Master和worker通信过程简介 1>.Worker会向ma ...
Scala进阶之路-为什么要学习Scala以及开发环境搭建
Scala进阶之路-为什么要学习Scala以及开发环境搭建作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 最近人工智能和大数据那是相当的火呀,人工智能带动了Python的流行,区块 ...
Scala进阶之路-idea下进行spark编程
Scala进阶之路-idea下进行spark编程作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 1>.创建新模块并添加maven依赖 <?xml version=&qu ...
Spark进阶之路-Spark HA配置
Spark进阶之路-Spark HA配置作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 集群部署完了,但是有一个很大的问题,那就是Master节点存在单点故障,要解决此问题,就要借 ...
Scala进阶之路-Scala的基本语法
Scala进阶之路-Scala的基本语法作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.函数式编程初体验Spark-Shell之WordCount var arr=Array( ...
Scala进阶之路-Scala中的高级类型
Scala进阶之路-Scala中的高级类型作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.类型(Type)与类(Class)的区别在Java里,一直到jdk1.5之前,我们说 ...
Scala进阶之路-Scala高级语法之隐式(implicit)详解
Scala进阶之路-Scala高级语法之隐式(implicit)详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们调用别人的框架,发现少了一些方法,需要添加,但是让别人为你一 ...
Scala进阶之路-并发编程模型Akka入门篇
Scala进阶之路-并发编程模型Akka入门篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Akka Actor介绍 1>.Akka介绍写并发程序很难.程序员不得不处 ...

随机推荐

『编程题全队』Beta 阶段冲刺博客一
1.提供当天站立式会议照片一张 2.每个人的工作 (有work item 的ID) (1) 昨天已完成的工作孙志威: 1.讨论并制定了Beta阶段的计划孙慧君: 1.Beta阶段任务的认领黄华林 ...
Gradle下载类库源码
https://blog.csdn.net/xiaoxing598/article/details/68958383 备选:https://www.cnblogs.com/yoyotl/p/62917 ...
java mail smtp port
https://www.tutorialspoint.com/javamail_api/javamail_api_smtp_servers.htm https://www.mkyong.com/jav ...
hive启动方式
pandas函数应用
1.管道函数 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/5/24 15:03 # @Author : zhang cha ...
关于miniconda的安装，配置以及包批量安装和使用
由于时间很晚了.就不写废话了. conda官方文档地址:http://conda.pydata.org/docs/ 一切其实都可以从miniconda的文档找到,这里只纪录自己操作的时候遇到的值得一说 ...
mybatis 一对多的注入指的是连表查询时候将不同的查询结果以列表存储对象形式注入进去多对一指的是查询多条结果但都是一样的只需注入一条
mybatis 一对多的注入指的是连表查询时候将不同的查询结果以列表存储对象形式注入进去多对一指的是查询多条结果但都是一样的只需注入一条
postgres(pgAdmin) 客户端保存密码
pgAdmin 大象客户端保存密码后连接服务器,删除掉当前连接,建立一个新的连接不用输入密码也能连接上,其实是客户端保存了密码,让人误以为是空密码可登录.可以通过右键连接,选择重载服务配置,再次连接就 ...
ubuntu 安装 postgresql
安装环境: Ubuntu 10.04-desktop-i386 PostgreSQL 8.4 1. 安装PostgreSQL 输入如下命令 sudo apt-get install postgresq ...
python中 Lambda,Map,Filter,Itertools,Generator高级函数的用法
Lambda 函数 Lambda 函数是一种比较小的匿名函数--匿名是指它实际上没有函数名. Python 函数通常使用 def a_function_name() 样式来定义,但对于 lambda ...

Scala进阶之路-Spark本地模式搭建

Scala进阶之路-Spark本地模式搭建的更多相关文章

随机推荐

热门专题