《OD学spark》20160925 Spark Core

一、引言

Spark内存计算框架

中国Spark技术峰会

十二场演讲

大数据改变世界，Spark改变大数据

大数据：

以Hadoop 2.x为主的生态系统框架（MapReduce并行计算框架）

存储数据、处理数据

分布式

Spark：

类似于MapReduce的另外一种分布式计算框架

核心：

数据结构：RDD，集合List[T]

MapReduce

最大的痛点：

IO性能瓶颈，也是所有分布式计算框架的痛点

（1）磁盘IO，

input(disk) -> map -> DISK(local)->reduce->output(DISK)

（2）网络IO，

shuffle

2015年Spark Submit

阿里巴巴和databricks

全球，每天使用Spark处理数据最大的公司

数据量： 1PB = 1024TB

腾讯：集群规模 8000台

Spark：内存计算框架

为什么要将中间结果存储到磁盘中呢？要进行写呢？我放入内存不行吗？

input(disk) -> flatMap -> memory->map->memory->groupByKey->memory->map->output(DISK)

分析：

（1）将中间处理的数据，存储在内存中

（2）提供很多的Operation，上百种

list.map(_ * 2).filter(_ % 5 == 1).map(_ + 100)

对于迭代计算、机器学习

Scala->Java->JVM

作业：

假期期间，MapReduce Shuffle过程，好好再理解

Spark处理分析数据：

（1）读取输入数据

Core： Rdd

SQL: DataFrame

Streaming：DStream

（2）process data

Core： rdd#xxx

SQL: df#xxx

Streaming：dstream#xxx

里面的方法基本上95%以上都是高阶函数，依据你自己的需求，定义操作

（3）ouputdata

resultRdd.saveAsTextFile("")

resultDF.write.jdbc.(url, tableName, props)

resultDStream.foreach(Redis\HBase\RDBMS)

钨丝计划：三阶段

腾讯：技术发展路线

服务器，上百台，产生数据

运维人员

维护上百台集群的产生的日志文件

产品人员提供的需求，需要进行数据分析

（1）MySQL+Python

每台机器都有MySQL数据库

使用Python对数据进行清洗，加载到MySQL表中

各自统计分析->聚合->格子分析统计

（2）HADOOP+Hive

HDFS（分布式存储）

MapReduce

Hive

HiveQL

分区表/year/month/day/number

Hive + Python

如何集成？

（3）HADOOP+SPARK

二、Spark简介

设置Hive为本地模式，进行测试

HiveQL转换为MapReduce的本地模式

set hive.exec.mode.local.auto

set hive.exec.mode.local.auto = true

select session_id, count(1)

from db_hive.page_views

group by session_id

limit 5

使用SparkCore

val rdd = sc.textFile("/path")

val sessionIdRdd = rdd.map(line => line.split("\t")).mpa(x => (x(2), 1)).reduceByKey(_ + _)

sessionIdRdd.take(5)

使用SparkSQL

val df = sqlContext.sql("

select session_id, count(1)

from db_hive.page_views

group by session_id

limit 5

");

sqlContext.cacheTable("db_hive.page_views")

df.show()

DSL语句

val df = sqlContext.sql("select * from db_hive.page_views")

df.groupBy("session_id")

Core/Spark SQL/Streaming/Graphx/MLlib/R/StructStreaming(2.0)

JAR

处理的数据

HDFS/Hive/HBase/ES/JSON/JDBC

Spark程序运行模式

本地模式，

集群模式：YARN、Mesos（分布式资源管理框架）、Standalone集群、EC2

七牛云存储技术总监陈超

Tachyon李浩源

三、Spark学习网站

（1）官方文档

http://spark.apache.org/docs/1.6.2/

（2）源码

https://github.com/apache/spark

导入IDEA

（3）官方博客

http://databricks.com/blog

英文

《OD学spark》20160925 Spark Core的更多相关文章

深入理解Spark 2.1 Core （十一）：Shuffle Reduce 端的原理与源代码分析
http://blog.csdn.net/u011239443/article/details/56843264 在<深入理解Spark 2.1 Core (九):迭代计算和Shuffle的原理 ...
大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...
《OD学hive》第四周0717
一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spar ...
【转】科普Spark，Spark是什么，如何使用Spark
本博文是转自如下链接,为了方便自己查阅学习和他人交流.感谢原博主的提供! http://www.aboutyun.com/thread-6849-1-1.html http://www.aboutyu ...
大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序
第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...
Spark记录-Spark性能优化解决方案
Spark性能优化的10大问题及其解决方案问题1:reduce task数目不合适解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism.通常,r ...
Spark 以及 spark streaming 核心原理及实践
收录待用,修改转载已取得腾讯云授权作者 | 蒋专蒋专,现CDG事业群社交与效果广告部微信广告中心业务逻辑组员工,负责广告系统后台开发,2012年上海同济大学软件学院本科毕业,曾在百度凤巢工作三年, ...
Spark之 spark简介、生态圈详解
来源:http://www.cnblogs.com/shishanyuan/p/4700615.html 1.简介 1.1 Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithm ...
Spark Streaming——Spark第一代实时计算引擎
虽然SparkStreaming已经停止更新,Spark的重点也放到了 Structured Streaming ,但由于Spark版本过低或者其他技术选型问题,可能还是会选择SparkStreami ...
大数据体系概览Spark、Spark核心原理、架构原理、Spark特点
大数据体系概览Spark.Spark核心原理.架构原理.Spark特点大数据体系概览(Spark的地位) 什么是Spark? Spark整体架构 Spark的特点 Spark核心原理 Spark架构 ...

随机推荐

java：安装Runtime Environment，设置Tomcat Server 的方法
Eclipse 中开发Webapp, 一般需要配置Tomcat Server, 以便在Eclipse 中进行Debug.具体的步骤如下: 1. Windows ==>Preference ==& ...
html网页小图标
<link rel="shortcut icon" href="../image/favicon.ico"/>
Python编程-一个小爬虫工具的实现过程
需求描述: 1,打开网站: 2,获取网站的文件内容: 3,返回保存到文件中: 这里的就用到了多线程的方法 import requests,threading,time def write_html(u ...
MySQL丨删除一张表小常识
在MySQL里面 ,对于删除一张表里面的所有内容有两种语句: 1.delete from table_name; 2.truncate table table_name; 解析:以上两种方式都可以删除 ...
php-fpm进程内存泄漏
线上服务器内存报警线上web8G内存的服务器,内存几乎吃光,top查看,发现php-fpm进程每个都是几十M,php-fpm配置static, 一共150个解决排除过程中,其他机器相同配置都没有 ...
poj2661 Factstone Benchmark（大数不等式同取对数）
这道题列出不等式后明显是会溢出的大数,但是没有必要写高精度,直接两边取对数(这是很简明实用的处理技巧)得: log2(n!)=log2(n)+log2(n-1)+...+log2(1)<=log ...
欧拉函数（汇总&例题）
定义欧拉函数 $\varphi(n)$表示小于等于$n$的正整数中与$n$互质的数的数目. 性质 1.积性函数(证明). 2.$\varphi(1)=1$(显然) 3.对于质数$n$,$\varph ...
BZOJ5372: [Pkusc2018]神仙的游戏
BZOJ5372: [Pkusc2018]神仙的游戏 https://lydsy.com/JudgeOnline/problem.php?id=5372 分析: 如果$len$为\(border\ ...
bzoj 4500: 矩阵差分约束系统
题目: Description 有一个n*m的矩阵,初始每个格子的权值都为0,可以对矩阵执行两种操作: 选择一行, 该行每个格子的权值加1或减1. 选择一列, 该列每个格子的权值加1或减1. 现在有K ...
[转]升级Flash Builder 4.6中的Flash Player版本
Adobe自发布Flash Builder 4.6后,就暂停了Flash Builder新版本的发布.但AIR和FlashPlayer版本仍然保持不断的更新.在下载新的AIRSDK并覆盖到Flash ...

《OD学spark》20160925 Spark Core

《OD学spark》20160925 Spark Core的更多相关文章

随机推荐

热门专题