spark学习收集

Nucky_yang 2024-11-07 17:04:28 原文

spark优化：

http://www.cnblogs.com/hark0623/p/5533803.html

董西成学生写的经验分享（很详细很强大）

spark官网 API

http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.api.java.JavaRDD

spark java api解读--简书

比如：repartitionAndSortWithinPartitions、fullOuterJoin、leftOuterJoin等等

http://www.jianshu.com/u/c8bdd2f507eb

还有今天踩的坑scala 的isInstanceOf、asInstanceOf （classOf）

Spark性能优化指南——高级篇（美团）

https://zhuanlan.zhihu.com/p/21483985

技术大牛-(李伯韬)的技术博客

http://www.cnblogs.com/bourneli/p/4394271.html

spark排错与优化---超时问题

http://blog.csdn.net/lsshlsw/article/details/49155087

《Spark 官方文档》Spark配置-spark官方文档--各参数

http://ifeve.com/spark-config/

FetchFailedException解决方案

http://blog.csdn.net/lsshlsw/article/details/51213610

spark JVM调优之调节executor堆外内存与连接等待时长

http://blog.csdn.net/hutao_hadoop/article/details/52694550

在独立集群模式下：

1. 集群task并行度：SPARK_ EXECUTOR_INSTANCES* SPARK_EXECUTOR_CORES；

2. 集群内存总量：(executor个数) * (SPARK_EXECUTOR_MEMORY+ spark.yarn.executor.memoryOverhead)+(SPARK_DRIVER_MEMORY+spark.yarn.driver.memoryOverhead)。

重点强调：Spark对Executor和Driver额外添加堆内存大小，Executor端：由spark.yarn.executor.memoryOverhead设置，默认值executorMemory * 0.07与384的最大值。Driver端：由spark.yarn.driver.memoryOverhead设置，默认值driverMemory * 0.07与384的最大值。

在yarn模式下，这些配置受yarn的配置限制。

RDD、DataFrame和DataSet的区别

http://www.jianshu.com/p/c0181667daa0

RDD是分布式的Java对象的集合。

DataFrame是分布式的Row对象的集合。

DataSet以Catalyst逻辑执行计划表示，并且数据以编码的二进制形式被存储，不需要反序列化就可以执行sorting、shuffle等操作。

sprk on yarn的CPU空闲问题

yarn默认情况下，只根据内存调度资源，所以spark on yarn运行的时候，即使通过--executor-cores指定vcore个数为N，但是在yarn的资源管理页面上看到使用的vcore个数还是1.----没效果。

http://blog.csdn.net/u012684933/article/details/46800207（原贴）

下边帖子说明了原因

http://www.jianshu.com/p/25788c6caf49（YARN Capacity Scheduler（容量调度器））

Capacity Scheduler有两种比较器用以比较两个资源的大小：

1.默认是DefaultResourceCalculator，它只考虑内存资源。

2.另外一种是DominantResourceCalculator，它采用了DRF比较算法，同时考虑内存和CPU两种资源。

解决：替换资源比较器

<property>

  <name>yarn.scheduler.capacity.resource-calculator</name>

  <!-- <value>org.apache.hadoop.yarn.util.resource.DefaultResourceCalculator</value> -->

  <value>org.apache.hadoop.yarn.util.resource.DominantResourceCalculator</value>

</property>

替换后发现内存和cpu都充分使用了

Spark学习+总结+面试

微信 --spark原创

Spark数据本地化及 Locality Levels降级策略

http://www.w2请删掉bc.com/article/222724

今日头条分享

https://www.toutiao.com/c/user/7019620242/#mid=1588835969253380

spark学习收集的更多相关文章

spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
Spark学习（一） -- Spark安装及简介
标签(空格分隔): Spark 学习中的知识点:函数式编程.泛型编程.面向对象.并行编程. 任何工具的产生都会涉及这几个问题: 现实问题是什么? 理论模型的提出. 工程实现. 思考: 数据规模达到一台 ...
Spark学习笔记之SparkRDD
Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② ...
用Spark学习FP Tree算法和PrefixSpan算法
在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法.由于scikit-l ...
用Spark学习矩阵分解推荐算法
在矩阵分解在协同过滤推荐算法中的应用中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法. 1. Spark推荐算法概述在Spark MLlib ...
Spark学习笔记2（spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后 ...
Spark学习笔记3（IDEA编写scala代码并打包上传集群运行）
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的sp ...
2019-1-24 Spark 学习 --总体架构
2019-1-24 Spark 学习 --总体架构新建模板小书匠 1548339392539.jpg 1548339357270.jpg 1548339372461.jpg 1548339345 ...
[转]Spark学习之路（三）Spark之RDD
Spark学习之路 (三)Spark之RDD https://www.cnblogs.com/qingyunzong/p/8899715.html 目录一.RDD的概述 1.1 什么是RDD? ...

随机推荐

关于AQS的一点总结
关于AQS的一点总结 2017年03月13日 09:48:13 那只是一股逆流阅读数:772 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/ ...
深入理解 Linux Cgroup 系列（二）：玩转 CPU
原文链接:深入理解 Linux Cgroup 系列(二):玩转 CPU 上篇文章主要介绍了 cgroup 的一些基本概念,包括其在 CentOS 系统中的默认设置和控制工具,并以 CPU 为例阐述 c ...
UML统一建模语言介绍
统一建模语言简介统一建模语言(Unified Modeling Language,UML)是用来设计软件蓝图的可视化建模语言,1997 年被国际对象管理组织(OMG)采纳为面向对象的建模语言的国际标 ...
linux中常用命令alias
1.查看系统中所有的命令别名 alias 2.查看指定的别名 alias 别名 2.设定别名 alias 别名='原命令' 3.删除别名 unalias 别名 4.使别名永久生效 vi ~/.bash ...
golang ---查看进程（Windows）
package main import ( "fmt" "os" "os/exec" "strconv" "s ...
go ---switch语句
package main import ( "fmt" ) func main() { var ar = [...]string{"A", "B&qu ...
c#winform简单实现Mysql数据库的增删改查的语句
通过简单的SQL语句实现对数据库的增删改查. 窗口如下: 定义打开与关闭连接函数,方便每次调用: 增加指令: 删除指令: 修改指令: 查找指令: 表格情况:
推荐算法之Thompson(汤普森)采样
如果想理解汤普森采样算法,就必须先熟悉了解贝塔分布. 一.Beta(贝塔)分布 Beta分布是一个定义在[0,1]区间上的连续概率分布族,它有两个正值参数,称为形状参数,一般用α和β表示,Beta分布 ...
Calendar类set方法中的坑
最近写了一个支付宝微信对账报表,发现系统金额比支付宝微信的少好多,左查右查发现是追缴金额没统计到,再一查发现月结束日期为2019-09-31,9月咋会有31,为啥呢就追缴金额不行呢,因为其他类型用TI ...
Django模型层（models.py）之模型创建
Django数据库操作是十分重要的内容,这两天简单学习了数据库的操作,这里做个总结. 1.ORM简介简单的来说,ORM就是对象-关系-映射.它实现了数据模型与数据库的解耦,即数据模型的设计不需要依赖 ...