hadoop配置2.6.1 centos7

上传文件（分发）的三种方式：

1.本地：

-file 的模式，上传一些小的文件。

例如：

-file ./test

INPUT_FILE_PATH_1="/The_Man_of_Property.txt"

OUTPUT_PATH="/output_file_broadcast"

$HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH

# Step 1.

$HADOOP_CMD jar $STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH_1 \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_func white_list" \

    -reducer "python red.py reduer_func" \

    -jobconf "mapred.reduce.tasks=3" \

    -file ./map.py \

    -file ./red.py \

    -file ./white_list

run.sh

2.-cacheFile ,向计算节点分发hdfs文件。（文件需要先上传到HDFS中）

例如：

-cacheFile "hdfs://master:9000/white_list#ABC" \

3.-cacheArchive，向计算节点分发hdfs文件。（文件需要先上传到HDFS中）

例如：

-cacheArchive "hdfs://master:9000/w.tar.gz#WH.gz" \ 
这种情况是streaming结构会自动给你解压文件，不用你去考虑。只需要改相应的文件路径就好了。

def get_file_handler(f):

    file_in = open(f, 'r')

    return file_in

def get_cachefile_handlers(f):

    f_handlers_list = []

    if os.path.isdir(f):

        for fd in os.listdir(f):

            f_handlers_list.append(get_file_handler(f + '/' + fd))

    return f_handlers_list

def read_local_file_func(f):

    word_set = set()

    for cachefile in get_cachefile_handlers(f):

        for line in cachefile:

            word = line.strip()

            word_set.add(word)

    return word_set

def mapper_func(white_list_fd):

    word_set = read_local_file_func(white_list_fd)

    for line in sys.stdin:

        ss = line.strip().split(' ')

        for s in ss:

            word = s.strip()

            #if word != "" and (word in word_set):

            if word != "":

                print "%s\t%s" % (s, 1)

if __name__ == "__main__":

    module = sys.modules[__name__]

    func = getattr(module, sys.argv[1])

    args = None

    if len(sys.argv) > 1:

        args = sys.argv[2:]

    func(*args)

map.py

#!/usr/bin/python

import sys

def reduer_func():

    current_word = None

    count_pool = []

    sum = 0

    for line in sys.stdin:

        word, val = line.strip().split('\t')

        if current_word == None:

            current_word = word

        if current_word != word:

            for count in count_pool:

                sum += count

            print "%s\t%s" % (current_word, sum)

            current_word = word

            count_pool = []

            sum = 0

        count_pool.append(int(val))

    for count in count_pool:

        sum += count

    print "%s\t%s" % (current_word, str(sum))

if __name__ == "__main__":

    module = sys.modules[__name__]

    func = getattr(module, sys.argv[1])

    args = None

    if len(sys.argv) > 1:

        args = sys.argv[2:]

    func(*args)

red.py

HADOOP_CMD="/usr/local/src/hadoop-2.6.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-2.6.1/share/hadoop/tools/lib/hadoop-streaming-2.6.1.jar"

INPUT_FILE_PATH_1="/The_Man_of_Property.txt"

OUTPUT_PATH="/output_cachearchive_broadcast"

$HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH

# Step 1.

$HADOOP_CMD jar $STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH_1 \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_func WH.gz" \

    -reducer "python red.py reduer_func" \

    -jobconf "mapred.reduce.tasks=10" \

    -jobconf  "mapred.job.name=cachefile_demo" \

    -jobconf  "mapred.compress.map.output=true" \

    -jobconf  "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \

    -jobconf  "mapred.output.compress=true" \

    -jobconf  "mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \

    -cacheArchive "hdfs://master:9000/w.tar.gz#WH.gz" \

    -file "./map.py" \

    -file "./red.

red.py

HADOOP_CMD="/usr/local/src/hadoop-2.6.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-2.6.1/share/hadoop/tools/lib/hadoop-streaming-2.6.1.jar"

#！/user/bin/env python

#上面这个是让系统自己寻找python可执行文件

#输入文件，多个文件可以使用，分隔，前提文件需要先上传到hdfs上。

INPUT_FILE_PATH_1="/1.txt,/2.txt"  

#hdfs上的输出文件目录的位置

OUTPUT_PATH="/table1"

$HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH

# Step 1.

$HADOOP_CMD jar $STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH_1 \

    -output $OUTPUT_PATH \

    -mapper "python map.py " \

    -reducer "python red.py " \

    -file ./map.py \

    -file ./red.py \

    -jobconf mapred.reduce.tasks=2 \    #设置reduce的数量

    #下面两行：是开启map阶段产生的数据是否压缩，第二行是压缩的格式

    -jobconf  "mapred.compress.map.output=true" \            ###1

    -jobconf  "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \   ###1

    #下面两行是：最终输出的是否开启压缩，及其压缩的格式

    -jobconf  "mapred.output.compress=true" \　　　　　　　　###2

    -jobconf  "mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \   ###2

　　

    #下面是压缩文件上传的位置 “#”后面是别名，在配置文件中可以使用，slave节点#在运行过程中也是使用别名来建目录的。　　

     -cacheArchive "hdfs://master:9000/w.tar.gz#WH.gz" \                        ###第三种传文件的方式。

    #下面第一行是表示以什么分隔，默认是制表符“\t”

    #第二行是以分隔后的前两个作为key,剩下为value

    #第三行是在key中以，分隔，

    #第四行是在第三行分隔后，用第一列分桶

    -jobconf stream.map.output.field.separator=','  /

    -jobconf stream.num.map.output.key.fields=2\     -jobconf map.output.key.field.separator=',' /

    -jobconf num.key.fields.for.partition=1 \

    #下面是在你自己设置partition时写入的东西。

    -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner

run.sh

-jobconf mapred.text.key.partitioner.options=-k2,3 \ 相当于-jobconf num.key.fields.for.partition=1\
的扩展，意思是在key中，选择2,3列作为partition
在没有设partion的时候，默认等于
先分桶，之后再在桶中按照key排序，

补充：！！！

可以通过压缩文件的方式，控制map的数量，一个压缩文件对应一个map

还可以不影响路径，即可以让目录结构保持不变.


-----------------------------------------

def get_file_handler(f):

    file_in = open(f, 'r')

    return file_in

def get_cachefile_handlers(f):

    f_handlers_list = []

    if os.path.isdir(f):

        for fd in os.listdir(f):

            f_handlers_list.append(get_file_handler(f + '/' + fd))

    return f_handlers_list

def read_local_file_func(f):

    word_set = set()

    for cachefile in get_cachefile_handlers(f):

        for line in cachefile:

            word = line.strip()

            word_set.add(word)

    return word_set

def mapper_func(white_list_fd):

    word_set = read_local_file_func(white_list_fd)

    for line in sys.stdin:

        ss = line.strip().split(' ')

        for s in ss:

            word = s.strip()

            #if word != "" and (word in word_set):

            if word != "":

                print "%s\t%s" % (s, 1)

if __name__ == "__main__":

    module = sys.modules[__name__]

    func = getattr(module, sys.argv[1])

    args = None

    if len(sys.argv) > 1:

        args = sys.argv[2:]

    f

#!/usr/bin/python

import sys

def reduer_func():

    current_word = None

    count_pool = []

    sum = 0

    for line in sys.stdin:

        word, val = line.strip().split('\t')

        if current_word == None:

            current_word = word

        if current_word != word:

            for count in count_pool:

                sum += count

            print "%s\t%s" % (current_word, sum)

            current_word = word

            count_pool = []

            sum = 0

        count_pool.append(int(val))

    for count in count_pool:

        sum += count

    print "%s\t%s" % (current_word, str(sum))

if __name__ == "__main__":

    module = sys.modules[__name__]

    func = getattr(module, sys.argv[1])

    args = None

    if len(sys.argv) > 1:

        args = sys.argv[2:]

    f

HADOOP_CMD="/usr/local/src/hadoop-2.6.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-2.6.1/share/hadoop/tools/lib/hadoop-streaming-2.6.1.jar"

INPUT_FILE_PATH_1="/The_Man_of_Property.txt"

OUTPUT_PATH="/output_cachearchive_broadcast"

$HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH

# Step 1.

$HADOOP_CMD jar $STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH_1 \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_func WH.gz" \

    -reducer "python red.py reduer_func" \

    -jobconf "mapred.reduce.tasks=10" \

    -jobconf  "mapred.job.name=cachefile_demo" \

    -jobconf  "mapred.compress.map.output=true" \

    -jobconf  "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \

    -jobconf  "mapred.output.compress=true" \

    -jobconf  "mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \

    -cacheArchive "hdfs://master:9000/w.tar.gz#WH.gz" \

    -file "./map.py" \

    -file "./red.

hadoop配置2.6.1 centos7的更多相关文章

Centos7中hadoop配置
Centos7中hadoop配置 1.下载centos7安装教程: http://jingyan.baidu.com/article/a3aad71aa180e7b1fa009676.html (注意 ...
hadoop配置优化
yarn-site.xml <property> <name>yarn.nodemanager.resource.memory-mb</name> <valu ...
hadoop配置错误
经过上一周的郁闷期(拖延症引发的郁闷),今天终于开始步入正轨了.今天主要是解决hadoop配置的错误以及网络时断时续的问题. 首先说明一下之前按照这篇文章的方法配置完全没有问题,但是等我配置好了发现h ...
Hadoop 配置好hive，第一次在conf能进入，第二次就不行了，怎么办？
问题描述: 在 Hadoop 配置好 hive 数据仓库,在conf目录下通过hive命令进入hive数据仓库,非常顺利. 但关闭终端,第二次按这种方式却显示,无次命令. 怎么办? 解决办法: 在h ...
Hadoop配置第2节-JDK的安装
Hadoop配置-JDK的安装总体目标:完成zookeeper+Hadoop+Hbase 整合平台搭建进度:1:集群网络属性配置2:集群免密码登陆配置3:JDK的安装4:Zookeeper的安 ...
Hadoop配置要点必看
hadoop 配置要点软件版本 java 1.8.0_151 hadoop 2.6.1 part1 $HADOOP_HOME/etc/hadoop 目录下配置参数. slaves 配置从节点 ya ...
hadoop生态搭建（3节点）-04.hadoop配置
如果之前没有安装jdk和zookeeper,安装了的请直接跳过 # https://www.oracle.com/technetwork/java/javase/downloads/java-arch ...
nutch+hadoop 配置使用
nutch+hadoop 配置使用配置nutch+hadoop 1,下载nutch.如果不需要特别开发hadoop,则不需要下载hadoop.因为nutch里面带了hadoop core包以及相关配 ...
Docker Hadoop 配置常见错误及解决办法
Docker Hadoop 配置常见错误及解决办法问题1:wordcount运行卡住,hadoop 任务运行到running job就卡住了 INFO mapreduce.Job: Running ...

随机推荐

react事件中的事件对象和常见事件
不管是在原生的js还是vue中,所有的事件都有其事件对象,该事件对象event中包含着所有与事件相关的信息,在react中,所有的事件也有其事件对象,在触发DOM上的某个事件时,就会产生一个事件对象. ...
PHPer常见的面试题总结
1.平时喜欢哪些php书籍及博客?CSDN.虎嗅.猎云 2.js闭包是什么? 3.for与foreach哪个更快? 4.php鸟哥是谁?能不能讲一下php执行原理? 5.php加速器有哪些?apc.z ...
[UE4]第一人称与第三人称
一.给Character添加一个SkeletalMesh,并设置为第三人称模型.并设置自己看不到该模型. 二.添加给骨骼的右手添加一个Socket插槽用来挂载武器三.判断当前角色是否被本地Contr ...
RabbitMQ用户角色及权限控制（转）
转载至:https://blog.csdn.net/awhip9/article/details/72123257 2017年05月15日 10:39:26 awhip9 阅读数:3538 ### ...
家庭版Windows设置远程连接
家庭版Windows设置远程连接1. windows+R 打开运行,输入 regedit 打开注册表 2.依次打开路径计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Microsof ...
GRUB2 命令行使用笔记
在GRUB界面按C可进入命令行模式,学会命令行模式有助于玩转单机多OS. 磁盘描述规则: hd0,0 表示第1硬盘第1分区 help 显示帮助(内容会比这里全,此处只做几条常用命令介绍) cat 命令 ...
cocos子节点转父节点坐标原理浅析（局部坐标转世界坐标同理）
在CCNode的类中,有一个得到一个节点坐标系转换父亲坐标系的一个矩阵,节点内坐标乘以这个矩阵,就可以转换为在节点父节点中的坐标,方法名为: Mat4& Node::getNodeToPar ...
PHP：引用PhpExcel导出数据到excel表格
我使用的是tp3.2框架(下载地址:http://www.thinkphp.cn/topic/38123.html) 1.首先要下载PhpExcel类库,放在如下图目录下 2.调用方法 public ...
新型DenseBody框架:一张照片获得3D人体信息
来自云从科技和上海交通大学的研究者近期提出一种新型框架 DenseBody,可直接从一张彩色照片中获取 3D 人体姿势和形状.该研究设计了一种高效的 3D 人体姿势和形状表示,无需中间表示和任务,端到 ...
新的开始接触ASP.NET Core跨平台的框架
今天我刚学习了使用Visual Studio 2015新建了.NET Core项目写了一个小的CSHTML代码.按我的话说就是,把C#和HTML合起来使用了,写了一个简单的关于学生的“增” “删” “ ...

hadoop配置2.6.1 centos7

hadoop配置2.6.1 centos7的更多相关文章

随机推荐

热门专题