Spark部分：几个重要的端口汇总

大数据常见端口汇总-hadoop、hbase、hive、spark、kafka、zookeeper等（持续更新）

常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口Zookeeper: 2181 : 客户端连接zookeeper的端口 2888 : zookeeper集群内通讯使用,Leader监听此端口 3888…

Windows Server 2016-客户端加域端口汇总

简单对客户端加域端口做汇总操作,希望对大家有帮助. 之前有对服务端口做汇总,具体请参照:Windows Server 2016-Active Directory域服务端口汇总:http://blog.51cto.com/wenzhongxiang/2088693 协议端口端口类型备注 TCP/UDP 53 DNS 用户和计算机认证,名称解析,信任 TCP/UDP 88 Kerberos 用户和计算机身份验证,林级信任 TCP/UDP 135 RPC,EPM 复制 TCP/UDP 137 N…

Windows Server 2016-Active Directory域服务端口汇总

本章为大家简单整理一下有关Windows server Active Directory和Active Directory域服务(AD DS)组件的端口要求.生产环境中我们在做网络调整.防火墙或者开关端口白名单等操作的时候,很多时候都会遇到同步异常等问题,具体是哪些策略影响端口通信引起的我们很难及时排查,本章将为大家简单整理一下,希望大家可以少走弯路,提高排错效率.注:可写域控制器和只读域控制器(RODC)都具有相同的端口要求. 一.默认动态端口范围: 在由基于Windows Server 20…

Spark 1.x 爆内存相关问题汇总及解

Spark 1.x 爆内存相关问题汇总及解决 OOM # 包括GC Overhead limitjava.lang.OutOfMemoryError # on yarn org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl - Container [<edited>] is running beyond physical memory limits. Current us…

利用 awk 将当前的链接按端口汇总倒排序

写了一行命令,利用 awk 将当前的链接按端口汇总倒排序 :) netstat -ano | awk /tcp.*:1[15].*:[1-5]/'{print $4}' | awk -F ':' '{print $1,$2}' | sort -k2 | awk '{if(aa!=$2){aa=$2;count=0;};count++;dict[aa]=count} END{for(key in dict)print key,dict[key]}' | sort -k2 -r netstat -…

Spark部分：几个重要的端口汇总

50070:HDFSwebUI的端口号 8485:journalnode默认的端口号 9000:非高可用访问数rpc端口 8020:高可用访问数据rpc 8088:yarn的webUI的端口号 8080:master的webUI,Tomcat的端口号 7077:spark基于standalone的提交任务的端口号 8081:worker的webUI的端口号 18080:historyServer的webUI的端口号 4040:application的webUI的端口号 2181:zookeepe…

Spark笔记——技术点汇总

目录概况手工搭建集群引言安装Scala 配置文件启动与测试应用部署部署架构应用程序部署核心原理 RDD概念 RDD核心组成 RDD依赖关系 DAG图 RDD故障恢复机制 Standalone模式的Spark架构 YARN模式的Spark架构应用程序资源构建 API WordCount示例 RDD构建 RDD缓存与持久化 RDD分区数共享变量 RDD Operation RDD Operation隐式转换 RDD[T]分区Operation RDD[T]常用聚合Operati…

Spark数据传输及ShuffleClient（源码阅读五）

我们都知道Spark的每个task运行在不同的服务器节点上,map输出的结果直接存储到map任务所在服务器的存储体系中,reduce任务有可能不在同一台机器上运行,所以需要远程将多个map任务的中间结果fetch过来.那么我们就来学习下shuffleClient.shuffleClient存在于每个exeuctor的BlockManager中,它不光是将shuffle文件上传到其他executor或者下载到本地的客户端,也提供了可以被其他exeuctor访问的shuffle服务.当有外部的(其他…

Spark Streaming + Flume整合官网文档阅读及运行示例

1,基于Flume的Push模式(Flume-style Push-based Approach) Flume被用于在Flume agents之间推送数据.在这种方式下,Spark Streaming可以很方便的建立一个receiver,起到一个Avro agent的作用.Flume可以将数据推送到改receiver. 1),需求从集群中选择一台机器, 当Flume+Spark Streaming程序运行时,需要保证Spark的一个worker运行在同一台机器上. Flume可以通过…

Spark学习之Spark调优与调试(二)

下面来看看更复杂的情况,比如,当调度器进行流水线执行(pipelining),或把多个 RDD 合并到一个步骤中时.当RDD 不需要混洗数据就可以从父节点计算出来时,调度器就会自动进行流水线执行.上一篇博文结尾处输出的谱系图使用不同缩进等级来展示 RDD 是否会在物理步骤中进行流水线执行.在物理执行时,执行计划输出的缩进等级与其父节点相同的 RDD 会与其父节点在同一个步骤中进行流水线执行.例如,当计算 counts 时,尽管有很多级父 RDD,但从缩进来看总共只有两级.这表明物理执行只需要两个…

Spark学习之Spark调优与调试(一)

一.使用SparkConf配置Spark 对 Spark 进行性能调优,通常就是修改 Spark 应用的运行时配置选项.Spark 中最主要的配置机制是通过 SparkConf 类对 Spark 进行配置.当创建出一个 SparkContext 时,就需要创建出一个 SparkConf 的实例. import org.apache.spark.SparkContext import org.apache.spark.SparkConf object Test { def main(args: A…

spark学习笔记_1

简单的讲,Apache Spark是一个快速且通用的集群计算系统. Apache Spark 历史: 2009年由加州伯克利大学的AMP实验室开发,并在2010年开源,13年时成长为Apache旗下大数据领域最活跃的开源项目之一.2014年5月底spark1.0.0发布,2016年6月spark2.0发布,至今最近的版本是xxx(看官网). Spark的使用场景: 实时查看浏览统计信息,流式计算,SQL查询,图计算,机器学习. Spark特点: 快速的处理能力.由于spark可以将中间输出和最后…

Spark配置参数详解

以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration. Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置环境变量:可以通过每个节点的conf/spark-env.sh脚本设置.例如IP地址.端口等信息日志配置:可以通过log4j.properties配置 Spark属性 Spark属性控制大部分的应用程序设置,并且为每个应用程序分别配置它.这些属性可以直接在SparkC…

Spark编程指南分享

转载自:https://www.2cto.com/kf/201604/497083.html 1.概述在高层的角度上看,每一个Spark应用都有一个驱动程序(driver program).驱动程序就是运行用户的main主程序并在集群上执行各种并行操作的程序.Spark中的一个主要的抽象概念就是弹性分布数据集(resilient distributed dataset,RDD),RDD是分布在多个节点构成的集群上的元素的集合,并支持并行操作.RDD可以由Hadoop的分布式文件系统(或其他支持…

spark各种模式提交任务介绍

前言本文章部分内容翻译自: http://spark.apache.org/docs/latest/submitting-applications.html 应用提交 Spark的bin目录中的spark-submit脚本用于在集群上启动应用程序.它可以通过统一的界面使用Spark支持的所有集群管理器,因此您不必为每个集群管理器配置应用程序. 捆绑应用程序的依赖关系如果您的代码依赖于其他项目,则需要将它们与应用程序一起打包,以便将代码分发到Spark集群.为此,请创建包含代码及其依赖项的程序…

Scala进阶之路-Spark独立模式（Standalone）集群部署

Scala进阶之路-Spark独立模式(Standalone)集群部署作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们知道Hadoop解决了大数据的存储和计算,存储使用HDFS分布式文件系统存储,而计算采用MapReduce框架进行计算,当你在学习MapReduce的操作时,尤其是Hive的时候(因为Hive底层其实仍然调用的MapReduce)是不是觉得MapReduce运行的特别慢?因此目前很多人都转型学习Spark,今天我们就一起学习部署Spark集群吧. 一.准备…

Spark：java.net.BindException: Address already in use: Service 'SparkUI' failed after 16 retries!

Spark多任务提交运行时候报错. java.net.BindException: Address already retries! at sun.nio.ch.Net.bind0(Native Method) at sun.nio.ch.Net.bind(Net.java:) at sun.nio.ch.Net.bind(Net.java:) at sun.nio.ch.ServerSocketChannelImpl.bind(ServerSocketChannelImpl.java:) at…

Spark之standalone模式

standalone hdfs:namenode是主节点进程,datanode是从节点进程 yarn:resourcemanager是主节点进程,nodemanager是从节点进程 hdfs和yarn是hadoop里面的节点进程信息在spark里面有 master:主节点进程 worker:从节点进程使用standalone模式: 将$SPARK_HOME/conf/目录下的slaves.template修改为slaves后添加主机名,如果有5个台机器就应该进行如下slaves的配置hado…

Spark记录-spark-submit学习

#查看帮助:./bin/spark-submit --help ./bin/spark-shell --help 用法1: spark-submit [options] <app jar | python file> [app arguments]用法2: spark-submit --kill [submission ID] --master [spark://...]用法3: spark-submit --status [submission ID] --master [spark:/…

spark的运行方式——转载

本文转载自: spark的运行方式本文主要讲述运行spark程序的几种方式,包括:本地测试.提交到集群运行.交互式运行等. 在以下几种执行spark程序的方式中,都请注意master的设置,切记. 运行自带样例可以用 run-example 执行spark自带样例程序,如下: ./bin/run-example org.apache.spark.examples.SparkPi 或者同样的: run-example SparkPi 交互运行可以用 spark-shell 以交互…

Spark SQL慕课网日志分析（1）--系列软件(单机)安装配置使用

来源: 慕课网 Spark SQL慕课网日志分析_大数据实战目标: spark系列软件的伪分布式的安装.配置.编译 spark的使用系统: mac 10.13.3 /ubuntu 16.06,两个系统都测试过软件: hadoop,hive,spark,scala,maven hadoop伪分布式.spark伪分布式详细: software 存放安装的软件包 app 所有软件的安装目录 data 课程中所有使用的测试数据目录 source 软件源码目录,spark 1)下载hadoop a…

spark sql 对接 HDFS

上一篇博客我向大家介绍了如何快速地搭建spark run on standalone,下面我将介绍saprk sql 如何对接 hdfs 我们知道,在spark shell 中操作hdfs 上的数据是很方便的,但是操作也未免过于繁琐,幸好spark 还想用户提供另外两种操作 spark sql 的方式一 spark-sql 启动方式也比较简单如果不添加 hive.metastore.warehouse.dir hiveconf 这个参数,则启动的spark sql 是基于本地文件的,默认为…

部署spark 1.3.1 standalong模式

之前已经写过很多次部署spark 的博客,但是之前部署都是照瓢画葫芦,不得其中的细节,并且以前都是部署spark on yarn 部署环境 scala 2.10.2,jdk 1.6,spark 版本1.3.1 下载地址:https://spark.apache.org/downloads.html 两台ubuntu14.04 x64桌面版,其中ubuntu1 做master , ubuntu2 做slave, spark 版本为 1.3.1 部署spark 前,首先要做的配置两台机器的信任关系,…

在CentOS下安装tomcat并配置环境变量（改默认端口8080为8081）

不多说,直接上干货! 第一步:下载tomcat压缩包 http://archive.apache.org/dist/tomcat/tomcat-7/v7.0.73/bin/ 第二步:上传tomcat压缩包 [hadoop@HadoopMaster app]$ lltotal 3092drwxrwxr-x. 9 hadoop hadoop 4096 Feb 22 06:05 elasticsearch-2.4.3-rw-r--r--. 1 hadoop hadoop 908862 Jan 10 1…

spark一些入门资料

spark一些入门资料 A Scala Tutorial for Java Programmers http://docs.scala-lang.org/tutorials/scala-for-java-programmers.html 学习资源(视频教程,书,样例等) spark.apache.org/documentation.html 入门指南 spark.apache.org/docs/latest/quick-start.html 编程指南 spark.apache.org/docs/…

Spark开发常用参数

Driver spark.driver.cores driver端分配的核数,默认为1,thriftserver是启动thriftserver服务的机器,资源充足的话可以尽量给多. spark.driver.memory driver端分配的内存数,默认为1g,同上. spark.driver.maxResultSize driver端接收的最大结果大小,默认1GB,最小1MB,设置0为无限. 这个参数不建议设置的太大,如果要做数据可视化,更应该控制在20-30MB以内.过大会导致OOM. sp…

【Spark部分：几个重要的端口汇总】的更多相关文章

大数据常见端口汇总-hadoop、hbase、hive、spark、kafka、zookeeper等（持续更新）

Windows Server 2016-客户端加域端口汇总

Windows Server 2016-Active Directory域服务端口汇总

Spark 1.x 爆内存相关问题汇总及解

利用 awk 将当前的链接按端口汇总倒排序

Spark部分：几个重要的端口汇总

Spark笔记——技术点汇总

Spark数据传输及ShuffleClient（源码阅读五）

Spark Streaming + Flume整合官网文档阅读及运行示例

Spark学习之Spark调优与调试(二)

Spark学习之Spark调优与调试(一)

spark学习笔记_1

Spark配置参数详解

Spark编程指南分享

spark各种模式提交任务介绍

Scala进阶之路-Spark独立模式（Standalone）集群部署

Spark：java.net.BindException: Address already in use: Service 'SparkUI' failed after 16 retries!

Spark之standalone模式

Spark记录-spark-submit学习

spark的运行方式——转载

Spark SQL慕课网日志分析（1）--系列软件(单机)安装配置使用

spark sql 对接 HDFS

部署spark 1.3.1 standalong模式

在CentOS下安装tomcat并配置环境变量（改默认端口8080为8081）

spark一些入门资料

Spark开发常用参数

Spark（四十七）：Spark UI 数据可视化

Spark配置详解

Spark in action Spark 以及SparkR的安装配置说明

Spark 配置参数