Ubuntu14.04或16.04下Hadoop及Spark的开发配置

对于Hadoop和Spark的开发，最常用的还是Eclipse以及Intellij IDEA. 其中，Eclipse是免费开源的，基于Eclipse集成更多框架配置的还有MyEclipse。Intellij分为Community版和Ultimate版，前者免费，后者付费。付费版同样是集成了更多的框架便于开发，主要是针对web开发人员。这里我们讲述两个IDE的配置方法，并推荐使用Intellij完成配置。首先需要明确的是，本文的配置是基于Java语言，基于Scala语言配置Spark开发环境在Intellij下是相似且简单的，这里略过不提。

1. Eclipse下配置Hadoop及Spark开发环境

1.1 配置Hadoop开发环境

在Eclipse下配置开发环境有三种方案。均亲测有效。

方案一：基于普通的Java项目

第一步，将插件hadoop-eclipse-plugin-2.6.0.jar放在eclispe的plugins目录下，启动eclipse后，新建普通Java项目，在项目中引入两个依赖包：hadoop-common-2.6.2.jar，hadoop-core-0.20.205.0.jar;

此处提供下载：链接：http://pan.baidu.com/s/1i4XOQsl 密码：gjqg

第二步，在Preferences 中配置Hadoop的安装地址，运行项目时程序能够自动加载Hadoop安装目录下的jar包，至此配置完成。

这种方案在运行时需要选择“Run on Hadoop”选项运行，hadoop-eclipse-plugin-2.6.0.jar插件将会根据第二步中配置的Hadoop路径寻找jar包，因此最终打包后的jar包也最小，最小是6MB左右。打包后的jar包当然也需要使用hadoop jar命令执行，不支持java -jar命令执行。

方案二：基于Map Reduce项目

第一步，将插件hadoop-eclipse-plugin-2.6.0.jar放在eclispe的plugins目录下，启动eclipse后，新建Project，选择Map Reduce Project建立新项目;

第二步，在Preferences 中配置Hadoop的安装地址，运行项目时程序能够自动加载Hadoop安装目录下的jar包，至此配置完成。

这种方案下不用配置依赖，因为项目已经按照你装好的Hadoop自动装填依赖的jar包。缺点是最终打包后的jar包比较大，最小也有40MB左右，因为包含着所有的需要的Hadoop jar包。正因如此，打包后的jar包既可以使用hadoop jar命令执行，也支持java -jar命令执行。

方案三：基于Maven构建项目

直接新建Maven项目，在项目根目录的pom.xml中添加基础的Hadoop依赖项，maven将会自动引入依赖。添加后可能如下所示。

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <groupId>malab</groupId>

    <artifactId>hadoop</artifactId>

    <version>1.0-SNAPSHOT</version>

    <build>

        <plugins>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-compiler-plugin</artifactId>

                <configuration>

                    <source>1.7</source>

                    <target>1.7</target>

                </configuration>

            </plugin>

        </plugins>

    </build>

   <!--这是需要的添加的依赖，按需添加，下面的只是基本配置-->

    <dependencies>

        <!--hadoop-->

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-client</artifactId>

            <version>2.6.0</version>

        </dependency>

    </dependencies>

</project>

添加后，静静等上几分钟（取决于网速），就配置完成了。

1.2 配置Spark开发环境：基于Maven构建项目（官网推荐）

在pom.xml中<dependencies></dependencies>添加依赖项（官网上有说明配置信息：http://spark.apache.org/docs/latest/programming-guide.html）：

    <dependencies>

        <!--spark-->

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>2.0.2</version>

        </dependency>

        <!--ml-->

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-mllib_2.10</artifactId>

            <version>2.0.2</version>

        </dependency>

        <!--sql-->

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.10</artifactId>

            <version>2.0.2</version>

        </dependency>

        <!--streaming-->

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-streaming_2.10</artifactId>

            <version>2.0.2</version>

        </dependency>

        <!--hive-->

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-hive_2.10</artifactId>

            <version>2.0.2</version>

        </dependency>

        <!--hadoop-->

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-client</artifactId>

            <version>2.6.0</version>

        </dependency>

    </dependencies>

显然，以上配置把所有的spark常用的hadoop用到的jar包依赖都配置了。

2. Intellij下配置Hadoop及Spark开发环境（推荐）

由于Intellij下没有插件直接支持，因此推荐使用Maven构建。

第一步，新建project，选择maven，然后一路下一步，完成后配置pom.xml即可。pom.xml文件配置的<dependencies></dependencies>中的内容与1.2节中一致。

第二步，到此开发环境配置完成。

maven配置下导出的jar包会比较大，因为包含了很多maven配置的依赖。如果你想要小一点的导出结果，删除导出的maven依赖即可。当然，这个不是件特别重要的事。

愿世界和平。

Ubuntu14.04或16.04下Hadoop及Spark的开发配置的更多相关文章

buntu14.04和16.04官方默认更新源sources.list和第三方源推荐（干货！）转
配置完成后: sudo apt-get update 安装和删除软件: sudo apt-get install sudo apt-get remove buntu14.04和16.04官方默认更新源 ...
Change default network name (ens33) to old “eth0” on Ubuntu 18.04 / Ubuntu 16.04
Change default network name (ens33) to old “eth0” on Ubuntu 18.04 / Ubuntu 16.04 By Raj Last updated ...
linux: ubuntu 14.04 和16.04 快速下载
由于官网服务器在国外,下载速度奇慢,所以我们可以利用阿里云镜像下载ubuntuubuntu 14.04:http://mirrors.aliyun.com/ubuntu-releases/14.04/ ...
Ubuntu14.04或16.04下安装JDK1.8+Scala+Hadoop2.7.3+Spark2.0.2
为了将Hadoop和Spark的安装简单化,今日写下此帖. 首先,要看手头有多少机器,要安装伪分布式的Hadoop+Spark还是完全分布式的,这里分别记录. 1. 伪分布式安装伪分布式的Hadoo ...
Ubuntu16.04下Hadoop的本地安装与配置
一.系统环境 os : Ubuntu 16.04 LTS 64bit jdk : 1.8.0_161 hadoop : 2.6.4 部署时使用的用户名为hadoop,下文中需要使用用户名的地方请更改为 ...
阿里云，腾讯云，等等的云 Ubuntu14.04升级16.04
16.04有很多好处.在此不说了这几天来回折腾了各种的云,然后发现国内的都没有16.04 但是ubuntu可以直接在线升级在此记下来升级的过程不管是腾讯云也好阿里云也好,或者别的什么云,只要是 ...
Ubuntu14.04和16.04官方默认更新源sources.list和第三方源推荐（干货！）
不多说,直接上干货! 写在前面:笔者由于还在学校学习,学校没有开发给Linux用的上网客户端,所以只能用在windows系统中通过安装虚拟机运行linux比较方便,但没有外网,只有学校的教育网,所以我 ...
Ubuntu14.04或16.04下普通用户的root权限获得
Ubuntu系统默认不允许使用root登录,因此初始root帐户是不能使用的,需要在普通账户下利用sudo权限修改root密码.然后以root帐户进行相关操作. 具体操作: 1.打开系统,用普通帐户登 ...
ubantu18.04下Hadoop安装与伪分布式配置
1 下载下载地址:http://mirror.bit.edu.cn/apache/hadoop/common/stable2/ 2 解压将文件解压到 /usr/local/hadoop cd ~ ...

随机推荐

sudo：有效用户 ID 不是 0，sudo 属于 root 并设置了 setuid 位吗
遇见这种问题应该检查sudo文件拥有者名称 ---x--x--x. 1 cmp cmp 130720 sudo 明显拥有者有问题 chown root:root /usr/bin/sudo chmo ...
获取本地的IP地址（内网）
方法一 public static String getLocalIpAddress() { try { for (Enumeration<NetworkInterface> en = N ...
【转】实现ViewPager懒加载的三种方法
方法一在Fragment可见时请求数据.此方案仍预加载了前后的页面,但是没有请求数据,只有进入到当前Framgent时才请求数据. 优点:实现了数据的懒加载缺点:一次仍是三个Framgment对象, ...
序列化多个form表单内容同时提交
一.首先将表单主体序列化为json对象. 方法: //将表单序列化为json,这里加了个jQuery的扩展方法 $.fn.serializeJson = function () { var resul ...
WinForm BaseClass类常用通用方法
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.D ...
Mac 下locate命令使用问题WARNING: The locate database (/var/db/locate.database) does not exist.
想在Mac下使用locate时,提醒数据库没创建: WARNING: The locate database (/var/db/locate.database) does not exist. To ...
TFS源代码管理的8大注意事项
TFS源代码管理的8大注意事项目录源代码管理的8大注意事项... 1 1. 使用TFS进行源代码管理... 2 2. 如果代码没放在源代码管理软件里,等于它不存在... 2 3. 要早提交,常提交 ...
Java中的URL类
Java的网络类可以让你通过网络或者远程连接来实现应用.而且,这个平台现在已经可以对国际互联网以及URL资源进行访问了.Java的URL类可以让访问网络资源就像是访问你本地的文件夹一样方便快捷.我们 ...
JsonHelper developed by using Newtonsoft.Json.NET, Deserialize to <T> object , XmlToJson/JsonToXml, QuoteName by using JToken Path.
namespace TestConsoleApplication { using System; using System.Diagnostics; using System.Threading; u ...
winform快速开发平台 -> 快速绑定ComboBox数据控件
通常我们在处理编辑窗体时.往往会遇到数据绑定.例如combobox控件绑定数据字典可能是我们经常用到的.然而在我的winform快速开发平台中我是如何处理这个频繁的操作呢? 首先,我们要绑定combo ...

Ubuntu14.04或16.04下Hadoop及Spark的开发配置

Ubuntu14.04或16.04下Hadoop及Spark的开发配置的更多相关文章

随机推荐

热门专题