参考:spark开发环境搭建(基于idea 和maven) 安装JDK 从这里下载Java 8的JDK 设置JAVA_HOME环境变量,在Mac上它大概会是/Library/Java/JavaVirtualMachines/jdk1.8.0_181.jdk/Contents/Home/这个样子 我选择的是在~/.bash_profile文件里添加一句: export JAVA_HOME=/path/to/JDK,路径换成自己的JDK路径 安装Maven Mac下用Brew安装即可: brew i…
本人的开发环境: 1.虚拟机centos 6.5 2.jdk 1.8 3.spark2.2.0 4.scala 2.11.8 5.maven 3.5.2     在开发和搭环境时必须注意版本兼容的问题,不然会出现很多莫名其妙的问题   1.启动master进程 ./sbin/start-master.sh   2.启动worker进程 ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://hadoop000:7077 [注…
准备条件 我用的Eclipse版本 Eclipse Java EE IDE for Web Developers. Version: Luna Release (4.4.0) 我用的是Eclipse for Java EE, 这个和Eclipse 是一样的 最好是用高版本的Eclipse,版本太低的话不支持Scala-IDE 1.安装Scala-IDE 在Eclipse中开发Scala程序需要有scala插件,我们现在安装scala插件 下面是安装过程截图 Scala IDE用于提供scala语…
转载地址:http://jingpin.jikexueyuan.com/article/47043.html 本文先叙述如何配置eclipse中maven+scala的开发环境,之后,叙述如何实现spark的本地运行.最后,成功运行scala编写的spark程序. 刚开始我的eclipse+maven环境是配置好的. 系统:win7 eclipse版本:Luna Release(4.4.0) maven是从EclipseMarket中安装的,如图1. 当初构建eclipse+maven环境时,仅…
前提条件 下载安装Scala IDE build of Eclipse SDK 构建工程 1.新建maven工程 2.配置项目信息 3.新建scala对应的Source Folder 4.添加scala对应Archetype 5.配置pom.xml添加依赖包 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <v…
http://jingpin.jikexueyuan.com/article/47043.html 新的scala 编译器idea使用 https://www.jetbrains.com/idea/help/creating-and-running-your-scala-application.html 遇到问题,解决:spark 1.5.2只与scala 2.10.*系列兼容 建立SBT project,scala code一定写在src/main/scala下面,如果没写main,就exte…
写在前面 因为本地电脑没装flume,nginx各种.所以之前写Streaming程序的时候,都是打包了放到集群上跑.就算我在程序代码里不停地logger,调试起来也hin不方便. 于是本地写了两个程序,在intellj调试. 主要就是包括两个程序: 一个是GenerateChar.scala用来向某个指定端口,使用socket发消息: 另一个就是要测试的Streaming程序了. GenerateChar package com.wttttt.spark import java.io.Prin…
如何一步一步地在Intellij IDEA使用Maven搭建spark开发环境,并基于scala编写简单的spark中wordcount实例. 1.准备工作 首先需要在你电脑上安装jdk和scala以及开发工具Intellij IDEA,本文中使用的是win7系统,环境配置如下: jdk1.7.0_15 scala2.10.4 scala官网下载地址:http://www.scala-lang.org/download/ 如果是windows请下载msi安装包. 这两个可以在官网上下载jdk和s…
准备工作: 将运行Scala-Eclipse的机器节点(CloudDeskTop)内存调整至4G,因为需要在该节点上跑本地(local)Spark程序,本地Spark程序会启动Worker进程耗用大量内存资源 本地运行模式(主要用于调试) 1.首先将Spark的所有jar包拷贝到hadoop用户家目录下 [hadoop@CloudDeskTop spark-2.1.1]$ pwd /software/spark-2.1.1 [hadoop@CloudDeskTop spark-2.1.1]$ c…
本文将分两部分来介绍如何在IntelliJ IDEA中运行Java/Scala/Spark程序: 基本概念介绍 在IntelliJ IDEA中创建和运行java/scala/spark程序 基本概念介绍 IntelliJ IDEA 本文使用版本为: ideaIC-2020.1 IDEA 全称 IntelliJ IDEA,是java编程语言开发的集成环境.IntelliJ在业界被公认为最好的java开发工具,它的旗舰版本还支持HTML,CSS,PHP,MySQL,Python等,免费版只支持Jav…
在MacOs上配置hadoop和spark环境 Setting up Hadoop with Spark on MacOs Instructions 准备环境 如果没有brew,先google怎样安装brew 先uninstall老版本的Hadoop brew cleanup hadoop 然后更新homebrew formulae brew update brew upgrade brew cleanup 检查版本信息 brew info hadoop brew info apache-spa…
Spark程序本地运行   本次安装是在JDK安装完成的基础上进行的!  SPARK版本和hadoop版本必须对应!!! spark是基于hadoop运算的,两者有依赖关系,见下图: 前言: 1.环境变量配置: 1.1 打开“控制面板”选项 1.2.找到“系统”选项卡 1.3.点击“高级系统设置” 1.4.点击“环境变量” 2.新建和编辑环境变量 1.下载hadoop-2.6.0.tar.gz文件,并解压在本地 1.1 新建环境变量上配置 HADOOP_HOME D:\JAVA\hadoop 1…
spark 源码编译 scala 版本2.11.4 os:ubuntu 14.04 64位 memery 3G spark :1.1.0 下载源码后解压 1 准备环境,安装jdk和scala,具体参考:http://www.cnblogs.com/chenfool/p/3858930.html 2 编译 其实spark 官网上说得挺详细的,但是使用官网介绍的方法,在下载依赖包时,被天朝墙了,导致总是下载不成功.幸好还有一个maven的编译方法,下面网址是spark官网介绍如何使用maven编译s…
1 概述 开发调试spark程序时,因为要访问开启kerberos认证的hive/hbase/hdfs等组件,每次调试都需要打jar包,上传到服务器执行特别影响工作效率,所以调研了下如何在windows环境用idea直接跑spark任务的方法,本文旨在记录配置本地调试环境中遇到的问题及解决方案. 2 环境 Jdk 1.8.0 Spark 2.1.0 Scala 2.11.8 Hadoop 2.6.0-cdh5.12.1 Hive 1.1.0-cdh5.12.1 环境搭建略,直接看本地调试spar…
生产环境的 Spark Job 都是跑在集群上的,毕竟 Spark 为大数据而生,海量的数据处理必须依靠集群.但是在开发Spark的的时候,不可避免我们要在本地进行一些开发和测试工作,所以如何在本地用好Spark也十分重要,下面给大家分享一些经验. 首先你需要在本机上安装好了Java,Scala和Spark,并配置好了环境变量.详情请参考官方文档或其他教程. spark-shell 本地运行Spark最直接的方式就是在命令行里面运行spark-shell,成功后你将看到如下信息: 首先可以仔细阅…
在eclipse的maven插件中搜寻本地仓库中的jar搜索不到的解决方案 之前,用过maven管理项目的童鞋都知道本地会有一个${User_Home}.m2/repository仓库 是用来存放jar包的地方.但是,在eclipse中的maven仓库中 搜索不到本地仓库中的jar包. 原因是因为maven中的本地仓库的index索引没有更新,导致在eclipse的maven插件中搜索不到. 解决方案: 在eclipse中打开菜单 window-> show view –> other –&g…
Spark数据本地性 分布式计算系统的精粹在于移动计算而非移动数据,但是在实际的计算过程中,总存在着移动数据的情况,除非是在集群的所有节点上都保存数据的副本.移动数据,将数据从一个节点移动到另一个节点进行计算,不但消耗了网络IO,也消耗了磁盘IO,降低了整个计算的效率.为了提高数据的本地性,除了优化算法(也就是修改spark内存,难度有点高),就是合理设置数据的副本.设置数据的副本,这需要通过配置参数并长期观察运行状态才能获取的一个经验值. Spark中的数据本地性有三种: PROCESS_LO…
1. 官网下载源码 source code,地址: http://spark.apache.org/downloads.html 2. 使用maven编译: 注意在编译之前,需要设置java堆大小以及永久代大小,避免mvn出现内存溢出的情况. windows下设置:%MAVEN_HOME%\bin\mvn.cmd,将其中的 @REM set MAVEN_OPTS=-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=80…
Apache Maven为项目构建提供了绝佳的解决方案,其本地仓库中缓存了远程代理仓库或中央仓库中的资源,从而提高网络资源使用效率,很好很强大!  但是并非所有资源都可以根据GroupId.ArtifactId和Version信息从中央或代理仓库中获取.例如Oracle数据库的驱动程序,由于版权的原因,任何组织提供的公网Maven仓库都不可能提供该JAR包资源.而这时如果我们的项目使用Maven进行构建,就可以选择将Oracle的驱动程序JAR包作为Maven构件安装到本地仓库中供开发使用. …
前言:关于这个话题网上有很多,本文旨在引导实战纠偏,理论偏少,如果按照步骤还不能达到本文目的,请留言. 1 环境准备 1.1 软件准备 idea:官方下载社区版,下载后安装 maven:Apache-maven-3.3.9,为一个压缩包,解压到指定路径 jdk:jdk1.8.0_131,下载后安装,一般是默认安装路径 1.2 环境配置 1.2.1 maven仓库设置 apache-maven-3.3.9\conf\settings.xml 设置本地仓库和镜像url 1.2.2 环境变量设置 高级…
目录 环境变量配置maven 执行一下命令即可 诚邀访问我的个人博客:我在马路边 更好的阅读体验点击查看原文:Maven将jar倒入本地maven仓库 原创博客,转载请注明出处 @ 在Java项目开发过程中总会遇到自定义jar包或其他jar不存在maven仓库中,但是因为网络等原因无法更新maven仓库或者无法加载此jar包,那么可以通过下面方法将jar包引入到本地maven仓库中. 环境变量配置maven # 新建系统变量,保存maven所在位置 key=MAVEN_PATH value=E:…
1.参考. 利用IDEA工具编译Spark源码(1.60~2.20) https://blog.csdn.net/He11o_Liu/article/details/78739699 Maven编译打包spark(2.1.0)源码及出现问题的解决方案(win7+Intellij IDEA) https://blog.csdn.net/u011464774/article/details/76704785 通过maven将spark源码导入ideahttps://blog.csdn.net/pcn…
[rdd 惰性执行] 为了提高计算效率 spark 采用了哪些机制 1-rdd 基于分布式内存数据集进行运算 2-lazy evaluation  :惰性执行,即rdd的变换操作并不是在运行该代码时立即执行,而仅记录下转换操作的对象:只有当运行到一个行动代码时,变换操作的计算逻辑才真正执行. http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds [ rd…
笔者出于工作及学习的目的,经常与Spark源码打交道,也难免对Spark源码做修改及测试.本人一向讲究借助工具提升效率,开发Spark过程中也在摸索如何更加顺畅的对源码进行调试. Spark基于Scala,采用IntelliJ IDEA和sbt应对日常开发,自然是最佳选择了.如何导入及编译Spark项目,网上资料很多,官网给的教程也比较详细: http://spark.apache.org/docs/latest/building-spark.html http://spark.apache.o…
本来想用Eclipse的.然而在网上找了一圈,发现大家都在说IntelliJ怎样怎样好.我也受到了鼓励,遂决定在这台破机器上鼓捣一次IntelliJ吧. Spark程序远程调试,就是将本地IDE连接到Spark集群中.让程序一边执行,一边通过debuger实时查看执行情况,配置好以后和本地debug差点儿相同. 之前有写过Spark集群的安装部署.http://blog.csdn.net/u013468917/article/details/50979184当时是在hadoop2.2.0平台部署…
关键词:hive, debug 本地调试(local debug) Hive 可分为 exec (hive-exec,主要对应源码里的ql目录) 和 metastore 两部分,其中exec对外有两种接口方式 CLIDriver 和 HiveServer2的ThriftCLIService.前者对应的就是直接执行hive命令的command line,后者对应就是thrift直连或jdbc的连接方式,因此这里其实有个知识点:hive命令的执行是不经过hiveserver2的服务的,虽然底层代码是…
需求说明 如果要本地调试Hbase程序,那么可以用本地连接集群的方式 配置文件 在maven里,配置文件cluster.properties放在target/classes里 cluster.properties的内容如下: hbase.address=hadoop1,hadoop2,.... 读取配置文件代码: import java.io.IOException; import java.util.Properties; public class ClusterConfigUtil { pr…
1.写好的程序直接在hadoop集群里面执行 2.如果需要在本地调试,需要注释掉mapred-site.xml <configuration> <!-- <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> --> </configuration>     解释 :本地不需要此配置 不是运行在…
当我们写完一个比较复杂的Topology之后,倘若直接提交到服务器上运行,难免会有很多问题,如何进行本地的调试Topology,是我们非常关心的问题.我们依然以WordCount作为代码示例. 首先,必须调整main函数. 当main函数中,设定薇本地模式后,即可直接如调试Java应用程序一样,调试相应的代码,由于本地调试中,Computing会运行一个Local Cluster,因此在调试的时候,一样要添加对zookeeper的引用,如下: 但是,在最终打包的到服务器上运行的时候,无须将zoo…
spark的远程调试 spark-env.sh文件里面,加上下面配置即可: if [ "$DEBUG_MODE" = "true" ]; then export SPARK_JAVA_OPTS+="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8000" fi hive的远程调试设置 Hive 0.8 以上版本开始支持远程调试(注1). 1. 以debug模式启动…