hadoop倒排索引

1.前言

学习hadoop的童鞋，倒排索引这个算法还是挺重要的。这是以后展开工作的基础。首先，我们来认识下什么是倒拍索引：

倒排索引简单地就是：根据单词，返回它在哪个文件中出现过，而且频率是多少的结果。这就像百度里的搜索，你输入一个关键字，那么百度引擎就迅速的在它的服务器里找到有该关键字的文件，并根据频率和其他一些策略（如页面点击投票率）等来给你返回结果。这个过程中，倒排索引就起到很关键的作用。

2.分析设计

倒排索引涉及几个过程：Map过程，Combine过程，Reduce过程。下面我们来分析以上的过程。

2.1Map过程

当你把需要处理的文档上传到hdfs时，首先默认的TextInputFormat类对输入的文件进行处理，得到文件中每一行的偏移量和这一行内容的键值对<偏移量，内容>做为map的输入。在改写map函数的时候，我们就需要考虑，怎么设计key和value的值来适合MapReduce框架，从而得到正确的结果。由于我们要得到单词,所属的文档URL,词频，而<key,value>只有两个值，那么就必须得合并其中得两个信息了。这里我们设计key=单词＋URL，value=词频。即map得输出为<单词＋URL，词频>，之所以将单词＋URL做为key，时利用MapReduce框架自带得Map端进行排序。

下面举个简单得例子：

图1 map过程输入／输出

2.2 Combine过程

combine过程将key值相同得value值累加，得到一个单词在文档上得词频。但是为了把相同得key交给同一个reduce处理，我们需要设计为key=单词，value＝URL+词频

图2 Combin过程输入/输出

2.3Reduce过程

reduce过程其实就是一个合并的过程了，只需将相同的key值的value值合并成倒排索引需要的格式即可。

图3 reduce过程输入/输出

3.源代码

package reverseIndex;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class InvertedIndex {

    public static class InvertedIndexMapper extends Mapper<Object, Text, Text, Text>{

        private Text keyInfo=new Text();

        private Text valueInfo=new Text();

        private FileSplit split;

        public void map(Object key,Text value,Context context)throws IOException,InterruptedException {

            //获得<key,value>对所属的对象

            split=(FileSplit)context.getInputSplit();

            StringTokenizer itr=new StringTokenizer(value.toString());

            while (itr.hasMoreTokens()) {

                //key值有单词和url组成，如"mapreduce:1.txt"

                keyInfo.set(itr.nextToken()+":"+split.getPath().toString());

                valueInfo.set("1");

                context.write(keyInfo, valueInfo);

            }

        }

    }

    public static class InvertedIndexCombiner extends Reducer<Text, Text, Text, Text>{

            private Text info=new Text();

            public void reduce(Text key,Iterable<Text> values,Context context)throws IOException,InterruptedException {

                //统计词频

                int sum=0;

                for (Text value:values) {

                    sum+=Integer.parseInt(value.toString());

                }

                int splitIndex=key.toString().indexOf(":");

                //重新设置value值由url和词频组成

                info.set(key.toString().substring(splitIndex+1)+":"+sum);

                //重新设置key值为单词

                key.set(key.toString().substring(0,splitIndex));

                context.write(key, info);

            }

        }

    public static class InvertedIndexReduce extends Reducer<Text, Text, Text, Text> {

            private Text result=new Text();

            public void reduce(Text key,Iterable<Text>values,Context context) throws IOException,InterruptedException{

                //生成文档列表

                String fileList=new String();

                for (Text value:values) {

                    fileList+=value.toString()+";";

                }

                result.set(fileList);

                context.write(key, result);

            }

        }

    public static void main(String[] args) throws Exception {

        // TODO Auto-generated method stub

        Configuration conf=new Configuration();

        String[] otherArgs=new GenericOptionsParser(conf,args).getRemainingArgs();

        if (otherArgs.length!=2) {

            System.err.println("Usage:invertedindex<in><out>");

            System.exit(2);

        }

        Job job=new Job(conf,"InvertedIndex");

        job.setJarByClass(InvertedIndex.class);

        job.setMapperClass(InvertedIndexMapper.class);

        job.setMapOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);

        job.setCombinerClass(InvertedIndexCombiner.class);

        job.setReducerClass(InvertedIndexReduce.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);

        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

        System.exit(job.waitForCompletion(true)?0:1);

    }

}

hadoop倒排索引的更多相关文章

Hadoop 倒排索引
倒排索引是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎.它主要是用来存储某个单词(或词组)在一个文档或一组文档中存储位置的映射,即提供了一种根据内容来查找文档的方式.由于不是根据文档来确 ...
Hadoop之倒排索引
前言: 从IT跨度到DT,如今的数据每天都在海量的增长.面对如此巨大的数据,如何能让搜索引擎更好的工作呢?本文作为Hadoop系列的第二篇,将介绍分布式情况下搜索引擎的基础实现,即“倒排索引”. 1. ...
hadoop学习笔记之倒排索引
开发工具:eclipse 目标:对下面文档phone_numbers进行倒排索引: 13599999999 1008613899999999 12013944444444 13800138000137 ...
hadoop实现倒排索引
hadoop实现倒排索引本文用hadoop实现倒排索引算法,用基本的分两步完成,不使用combine 第一步读入文档,统计文档中各个单词的个数,与word count类似,但这里把word-fil ...
Hadoop学习笔记(8) ——实战做个倒排索引
Hadoop学习笔记(8) ——实战做个倒排索引倒排索引是文档检索系统中最常用数据结构.根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index).结构如 ...
Hadoop案例（四）倒排索引（多job串联)与全局计数器
一. 倒排索引(多job串联) 1. 需求分析有大量的文本(文档.网页),需要建立搜索索引 xyg pingping xyg ss xyg ss a.txt xyg pingping xyg pin ...
hadoop学习第三天-MapReduce介绍&&WordCount示例&&倒排索引示例
一.MapReduce介绍 (最好以下面的两个示例来理解原理) 1. MapReduce的基本思想 Map-reduce的思想就是“分而治之” Map Mapper负责“分”,即把复杂的任务分解为若干 ...
Hadoop实战-MapReduce之倒排索引(八)
倒排索引 (就是key和Value对调的显示结果) 一.需求:下面是用户播放音乐记录,统计歌曲被哪些用户播放过 tom LittleApple jack YesterdayO ...
Hadoop MapReduce编程 API入门系列之倒排索引（二十四）
不多说,直接上代码. 2016-12-12 21:54:04,509 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] - Initializing JV ...

随机推荐

newsstand杂志阅读应用源码ipad版
一款newsstand iPad杂志阅读应用源码(newsstand在线下载/动态显示等)可以支持在线下载/动态显示等 ,也是一款newsstand iPad杂志阅读应用源码.运行之后,会在iPad ...
jquery获取html元素的绝对位置和相对位置
jquery获取html元素的绝对位置坐标和相对父元素的位置坐标方法:绝对位置坐标:$("#elem").offset().top$("#elem").offs ...
WCF 配置文件（三）
配置文件概述 WCF服务配置是WCF服务编程的主要部分.WCF作为分布式开发的基础框架,在定义服务以及定义消费服务的客户端时,都使用了配置文件的方法.虽然WCF也提供硬编程的方式,通过在代码中直接设置 ...
【Qt】Qt环境搭建(Qt Creator)【转】
简述上一节中介绍了如何进行Qt和Visual Studio的下载安装,随后演示了如何将Qt集成到Visual Studio中,并完成了我们第一个Qt小程序-Hello World.下面主要讲解如何利 ...
创建SQL数据库指定文件路径
create database b2c on primary -- 默认就属于primary文件组,可省略(/*--数据文件的具体描述--*/ name='b2c', -- 主数据文件的逻 ...
Visual Assist X破解方法
VC2008的破解方法:使用2008的朋友我就不多说了,直接拷贝到你选择的那个安装目录去,例如 C:\Program Files\Visual Assist\ ,直接运覆盖VA_X.dll 即可VC2 ...
redis　界面软件使用
ubuntu 下下载安装包 sudo dpkg -i redis-desktop-manager_0.8.3-120_amd64.deb//安装 redis-desktop-manager //启动
EntityFramework中的datetime2异常的解决
(转) 最近使用.net的Entity Framework构建网站数据层,给一个实体的DATETIME类型的属性赋值时突然莫名奇妙显示有一个类型不匹配的异常如下: System.Data.Sql ...
Interview-Largest independent set in binary tree.
BT(binary tree), want to find the LIS(largest independent set) of the BT. LIS: if the current node i ...
android 播放语音文件出现 prepare failed ，不能下载amr文件
amr文件的路径正确,但是android 却不能播放出来. 调试发现时根本就没有下载下来原因: IIS服务器不允许下载该文件,需要配置MIME 解决方法: 进入IIS目录,配置MIME

hadoop倒排索引

hadoop倒排索引的更多相关文章

随机推荐

热门专题