Ubuntu 14.10 下Hadoop FTP文件上传配置

　　最近老板提出一个需求，要用Hadoop机群管理生物数据，并且生物数据很多动辄几十Ｇ，几百Ｇ，所以需要将这些数据传到ＨＤＦＳ中，在此之前搭建了ＨＵＥ用来图形化截面管理ＨＤＦＳ数据，但是有个问题，上面使用的ＲＥＳＴ　ＡＰＩ接口，用的是ＨＴＴＰ协议，速度慢，并且一旦挂了就得重来，所以迫切需要一个ＦＴＰ工具来进行上传下载。

　　其实ＨＤＦＳ整合了众多文件系统，在其中有一个综合性的文件系统抽象，它提供了文件系统实现的各类接口，HDFS只是这个抽象文件系统的一个实例。提供了一个高层的文件系统抽象类org.apache.hadoop.fs.FileSystem，这个抽象类展示了一个分布式文件系统，并有几个具体实现，如下表1-1所示。

表1-1 Hadoop的文件系统

文件系统	URI方案	Java实现（org.apache.hadoop）	定义
Local	file	fs.LocalFileSystem	支持有客户端校验和本地文件系统。带有校验和的本地系统文件在fs.RawLocalFileSystem中实现。
HDFS	hdfs	hdfs.DistributionFileSystem	Hadoop的分布式文件系统。
HFTP	hftp	hdfs.HftpFileSystem	支持通过HTTP方式以只读的方式访问HDFS，distcp经常用在不同的HDFS集群间复制数据。
HSFTP	hsftp	hdfs.HsftpFileSystem	支持通过HTTPS方式以只读的方式访问HDFS。
HAR	har	fs.HarFileSystem	构建在Hadoop文件系统之上，对文件进行归档。Hadoop归档文件主要用来减少NameNode的内存使用。
KFS	kfs	fs.kfs.KosmosFileSystem	Cloudstore（其前身是Kosmos文件系统）文件系统是类似于HDFS和Google的GFS文件系统，使用C++编写。
FTP	ftp	fs.ftp.FtpFileSystem	由FTP服务器支持的文件系统。
S3（本地）	s3n	fs.s3native.NativeS3FileSystem	基于Amazon S3的文件系统。
S3（基于块）	s3	fs.s3.NativeS3FileSystem	基于Amazon S3的文件系统，以块格式存储解决了S3的5GB文件大小的限制。

　　Hadoop提供了许多文件系统的接口，用户可以使用URI方案选取合适的文件系统来实现交互。

　　可以看到上面有ＦＴＰ接口，要是有现成的ＦＴＰ工具就好了。后来发现一个开源软件hdfs-over-ftp，不过这个项目是几年之前的，后来呗一个哥们儿做了下修改能支持hadoop2.4.1，下面地址是他更新后的地址http://download.csdn.net/detail/zhulin40/7732063，我下再之后配置了下，可以用。

１　下载压缩文件，解压到任意目录

２　修改里面的POM文件，我用的hadoop是２．６．０

<!-- <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-core</artifactId>

            <version>0.20</version>

        </dependency> -->

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-common</artifactId>

            <version>2.6.0</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-hdfs</artifactId>

            <version>2.6.0</version>

        </dependency>

        <dependency>

            <groupId>org.apache.mina</groupId>

            <artifactId>mina-core</artifactId>

            <version>2.0.-M2</version>

        </dependency>

3　配置/hdfs-over-ftp-master/src/main/resources下的users.properties，我添加了一个用户hadoop,密码也是hadoop，需要ＭＤ５一下

#hadoop|hadoop

ftpserver.user.hadoop.userpassword=0238775c7bd96e2eab98038afe0c4279

ftpserver.user.hadoop.homedirectory=/

ftpserver.user.hadoop.enableflag=true

ftpserver.user.hadoop.writepermission=true

ftpserver.user.hadoop.maxloginnumber=

ftpserver.user.hadoop.maxloginperip=

ftpserver.user.hadoop.idletime=

ftpserver.user.hadoop.uploadrate=

ftpserver.user.hadoop.downloadrate=

ftpserver.user.hadoop.groups=hadoop,users

4　配置hdfs-over-ftp.properties，指定端口，ｈｄｆｓ-url，这里有个问题，我的ＨＤＦＳ是ＨＡ的，但是我试了下，好像是不支持ＨＡ写法，只支持主机名：端口号形式

#uncomment this to run ftp server

port =

data-ports = -

#uncomment this to run ssl ftp server

#ssl-port = 2226

#ssl-data-ports = 2227-2229

# hdfs uri

# hdfs-uri = hdfs://hadoop-cluster/

hdfs-uri = hdfs://-:/

# have to be a user which runs HDFS

# this allows you to start ftp server as a root to use 21 port

# and use hdfs as a superuser

superuser = hadoop

5　进入到解压目录下面，执行hdfs-over-ftp.sh启动（需要maven编译），如果不报错，说明ＦＴＰ服务启动了

6　用ＦＴＰ客户端连接，我安装了ＦｉｌｅＺｉｌｌａ，也是蛮好用的

参考：

http://blog.csdn.net/zhulin40/article/details/38444875

http://www.cnblogs.com/xia520pi/archive/2012/05/28/2520813.html

Ubuntu 14.10 下Hadoop FTP文件上传配置的更多相关文章

Ubuntu 14.10 下Hadoop HttpFS 配置
因为hadoop集群中需要配置一个图形化管理数据的截面,后来找到HUE,那么在配置HUE的过程中,发现需要配置httpfs,因为配置了httpfs,hue才能去操作hdfs中的数据. HttpFs能干 ...
Ubuntu 14.10 下Hadoop 错误集
1 FATAL org.apache.hadoop.ha.ZKFailoverController: Unable to start failover controller. Parent znode ...
Ubuntu 14.10 下Hadoop代码编译问题总结
问题1 protoc (compile-protoc) on project hadoop-common: org.apache.maven.plugin.MojoExecutionExceptio ...
Ubuntu 13.10下Hadoop 2.2 安装、配置、编译（伪分布式）
1.安装JDK.在此不做解说,上篇博文里已介绍过.http://www.cnblogs.com/lifeinsmile/p/3578677.html 2.配置ssh. ssh服务,用于管理远程Hado ...
Ubuntu 14.10下基于Nginx搭建mp4/flv流媒体服务器(可随意拖动)并支持RTMP/HLS协议(含转码工具)
Ubuntu 14.10下基于Nginx搭建mp4/flv流媒体服务器(可随意拖动)并支持RTMP/HLS协议(含转码工具) 最近因为项目关系,收朋友之托,想制作秀场网站,但是因为之前一直没有涉及到这 ...
Ubuntu 14.10 下Hive配置
1 系统环境 Ubuntu 14.10 JDK-7 Hadoop 2.6.0 2 安装步骤 2.1 下载Hive 我第一次安装的时候,下载的是Hive-1.2.1,配置好之后,总是报错 [ERROR] ...
linux下常用FTP命令上传下载文件【转】
1. 连接ftp服务器格式:ftp [hostname| ip-address]a)在linux命令行下输入: ftp 192.168.1.1 b)服务器询问你用户名和密码,分别输入用户名和相应密码 ...
Java实现FTP文件上传与下载
实现FTP文件上传与下载可以通过以下两种种方式实现(不知道还有没有其他方式),分别为:1.通过JDK自带的API实现:2.通过Apache提供的API是实现. 第一种方式 package com.cl ...
java/struts/Servlet文件下载与ftp文件上传下载
1.前端代码使用超链接到Struts的Action或Servlet <a target="_blank" href="ftpFileAction!download ...

随机推荐

[LeetCode&Python] Problem 206. Reverse Linked List
Reverse a singly linked list. Example: Input: 1->2->3->4->5->NULL Output: 5->4-> ...
在Maven项目中，指定使用阿里云仓库下载jar包
Maven项目中,在pom.xml的</project>标签之前加入一下标签,指定使用阿里云仓库下载jar包.  <repo ...
1.。net框架
1..net框架结构主要包含公共语言运行时(CLR)和框架类库(.NET Framework 类库 ,FCL) 2.CLR 1.对于一个将要面向.NET平台进行开发的人来说,了解一下.NET平台的整 ...
CodeForces - 1101G :(Zero XOR Subset)-less(线性基)
You are given an array a1,a2,…,an of integer numbers. Your task is to divide the array into the maxi ...
R49 A-D D图有向有环图
A. Palindromic Twist 给一个字符串(小写字母) 每个字符+1,-1:变成其他字符 a只能变b z只能变y 看能否变成回文字符串 #include<bits/stdc+ ...
初始While循环和for循环
While循环 While循环,是一个循环加判断的组合,满足判断条件返回真(True)开始循环代码块,不满足判断条件返回假(False)不循环格式: While 条件: 代码块注意:在Whil ...
Two Sum II - Input array is sorted
Given an array of integers that is already sorted in ascending order, find two numbers such that the ...
合并两个sorted ranges(merge和inplace_merge)
merge //版本一:用operator <比较元素 template <class InputerIterator1,class InputerIterator2,class Outp ...
KiCad 如何在原理图添加元件时看到 PCB 封装？
KiCad 如何在原理图添加元件时看到 PCB 封装? 这个功能默认是关闭,评估关闭的原因是因为 PCB 封装很大,而且在前期也没必要详细知道 PCB 封装. 但是有时修改可以看到 PCB 封装会方便 ...
22 初始模块 random time collections functools
一 .初始模块 1.从⼩到⼤的顺序: ⼀条代码 < 语句块 < 代码块(函数, 类) < 模块 2.引入模块的方式 ① import 模块 ② from 模块 im ...

Ubuntu 14.10 下Hadoop FTP文件上传配置

Ubuntu 14.10 下Hadoop FTP文件上传配置的更多相关文章

随机推荐

热门专题