运用mapreduce计算tf-idf

问题描写叙述：给定一个大文件，文件里的内容每一行为：文档名，文档内容。

input

文档名1，word1 Word2 .......

文档名2，word1 Word2 .......

output

word 文档名 tfidf值

package com.elex.mapreduce;

import java.io.IOException;

import java.net.URI;

import java.util.HashMap;

import java.util.Iterator;

import java.util.LinkedList;

import java.util.Map;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Counter;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.Mapper.Context;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import com.elex.mapreduce.TFIDF_4.IDFMap;

import com.elex.mapreduce.TFIDF_4.IDFReduce;

import com.elex.utils.DataClean;

import com.google.common.io.Closeables;

public class TFIDF_5 {

	public static String hdfsURL = "hdfs://namenode:8020";

	public static String fileURL = "/tmp/usercount";

	public static class TFMap extends Mapper<Object, Text, Text, Text> {

		public void map(Object key, Text value, Context context)

				throws IOException, InterruptedException {

			String userWordstmp = value.toString();

			StringTokenizer userWords = new StringTokenizer(userWordstmp, "\n");

			while (userWords.hasMoreTokens()) {

				String userWordFragtmp = userWords.nextToken();

				StringTokenizer userWordFrag = new StringTokenizer(

						userWordFragtmp, ",");

				String user = userWordFrag.nextToken();

				Text outputKey = new Text();

				Text outputValue = new Text();

				while (userWordFrag.hasMoreTokens()) {

					String words = userWordFrag.nextToken();

					HashMap<String, Integer> wordMap = DataClean.clean(words,

							"!total");

					int wordTotal = wordMap.get("!total");

					wordMap.remove("!total");

					for (Map.Entry<String, Integer> wordEntry : wordMap

							.entrySet()) {

						String word = wordEntry.getKey();

						int wordCount = wordEntry.getValue();

						float tf = (float) wordCount / (float) wordTotal;

						String outputStr = word + " " + Float.toString(tf)

								+ ",";

						byte[] bytes = outputStr.getBytes();

						outputValue.append(bytes, 0, bytes.length);

					}

				}

				outputKey.set(user);

				context.write(outputKey, outputValue);

			}

		}

	}

	public static class TFReduce extends Reducer<Text, Text, Text, Text> {

		public void reduce(Text key, Iterable<Text> values, Context context)

				throws IOException, InterruptedException {

			// StringBuffer sb = new StringBuffer();

			Iterator<Text> iter = values.iterator();

			while (iter.hasNext()) {

				// sb.append(iter.next().toString() + "\t");

				context.write(key, iter.next());

			}

			// Text outputValue = new Text();

			// outputValue.set(sb.toString());

			// context.write(key, outputValue);

		}

	}

	public static class IDFMap extends Mapper<Object, Text, Text, Text> {

		public void map(Object key, Text value, Context context)

				throws IOException, InterruptedException {

			String valuesTmp = value.toString();

			StringTokenizer userWordFrag = new StringTokenizer(valuesTmp, "\n");

			while (userWordFrag.hasMoreTokens()) {

				// String userWordtmp = userWordFrag.nextToken();

				StringTokenizer userWords = new StringTokenizer(

						userWordFrag.nextToken(), "\t");

				String user = userWords.nextToken();

				while (userWords.hasMoreTokens()) {

					StringTokenizer wordTFs = new StringTokenizer(

							userWords.nextToken(), ",");

					while (wordTFs.hasMoreTokens()) {

						StringTokenizer wordTF = new StringTokenizer(

								wordTFs.nextToken());

						String word = wordTF.nextToken();

						String tf = wordTF.nextToken();

						Text outputKey = new Text();

						Text outputValue = new Text();

						outputKey.set(word);

						outputValue.set(user + "\t" + tf);

						context.write(outputKey, outputValue);

					}

				}

			}

		}

	}

	public static class IDFReduce extends Reducer<Text, Text, Text, Text> {

		long userCount = 0;

		public void setup(Context context) throws IOException {

			Configuration conf = context.getConfiguration();

			Path path = new Path(fileURL);

			FileSystem fs = FileSystem.get(URI.create(hdfsURL), conf);

			if (!fs.isFile(path)) {

				FSDataOutputStream output = fs.create(path, true);

				output.close();

			}

			FSDataInputStream input = fs.open(path);

			StringBuffer sb = new StringBuffer();

			byte[] bytes = new byte[1024];

			int status = input.read(bytes);

			while (status != -1) {

				sb.append(new String(bytes));

				status = input.read(bytes);

			}

			if (!"".equals(sb.toString())) {

				userCount = Long.parseLong(sb.toString().trim());

			}

			input.close();

		}

		public void reduce(Text key, Iterable<Text> values, Context context)

				throws IOException, InterruptedException {

			LinkedList<String> userList = new LinkedList<String>();

			Iterator<Text> iter = values.iterator();

			long wordCount = 0;

			while (iter.hasNext()) {

				wordCount++;

				userList.add(iter.next().toString());

			}

			float idf = (float) Math.log((float) userCount

					/ (float) (wordCount + 1));

			Iterator<String> userIter = userList.iterator();

			Text outputValue = new Text();

			while (userIter.hasNext()) {

				String usertftmp = userIter.next();

				StringTokenizer usertf = new StringTokenizer(usertftmp, "\t");

				String user = usertf.nextToken();

				String tfStr = usertf.nextToken();

				float tf = Float.parseFloat(tfStr.trim().toString());

				float tfidf = tf * idf;

				String outputTmp = user + "\t" + tfidf;

				outputValue.set(outputTmp);

				context.write(key, outputValue);

			}

		}

	}

	public static class UserCountMap extends Mapper<Object, Text, Text, Text> {

		public void map(Object key, Text value, Context context)

				throws IOException, InterruptedException {

			String userWordtmp = value.toString();

			StringTokenizer userWord = new StringTokenizer(userWordtmp, "\n");

			while (userWord.hasMoreTokens()) {

				userWord.nextToken();

				Text outputKey = new Text();

				outputKey.set("usercount");

				Text one = new Text();

				one.set("1");

				context.write(outputKey, one);

			}

		}

	}

	public static class UserCountCombine extends

			Reducer<Text, Text, Text, Text> {

		public void reduce(Text key, Iterable<Text> values, Context context)

				throws IOException, InterruptedException {

			long user = 0;

			for (Text value : values) {

				String valueTmp = value.toString();

				user += Long.parseLong(valueTmp);

			}

			Text outputValue = new Text();

			outputValue.set(Long.toString(user));

			context.write(key, outputValue);

		}

	}

	public static class UserCountReduce extends Reducer<Text, Text, Text, Text> {

		int userCount = 0;

		public void reduce(Text key, Iterable<Text> values, Context context)

				throws IOException, InterruptedException {

			for (Text value : values) {

				String valueTmp = value.toString();

				userCount += Long.parseLong(valueTmp);

			}

		}

		public void cleanup(Context context) throws IOException {

			Configuration conf = context.getConfiguration();

			FileSystem fs = FileSystem.get(URI.create(hdfsURL), conf);

			Path path = new Path(fileURL);

			FSDataOutputStream output = fs.create(path, true);

			String content = Long.toString(userCount);

			output.write(content.getBytes());

			output.flush();

			output.close();

		}

	}

	public static void main(String[] args) throws IOException,

			ClassNotFoundException, InterruptedException {

		// TODO Auto-generated method stub

		Configuration conf = new Configuration();

		// conf.set("mapred.child.java.opts", "-Xmx4096m");

		Job tfJob = Job.getInstance(conf, "tfjob");

		tfJob.setJarByClass(TFIDF_5.class);

		tfJob.setMapperClass(TFMap.class);

		// tfJob.setCombinerClass(TFCombine.class);

		tfJob.setReducerClass(TFReduce.class);

		tfJob.setOutputKeyClass(Text.class);

		tfJob.setOutputValueClass(Text.class);

		FileInputFormat.setInputPaths(tfJob, new Path(args[0]));

		FileOutputFormat.setOutputPath(tfJob, new Path(args[1]));

		tfJob.waitForCompletion(true);

		// Job userCountJob = Job.getInstance(conf, "usercountjob");

		// userCountJob.setJarByClass(TFIDF_5.class);

		// userCountJob.setMapperClass(UserCountMap.class);

		// userCountJob.setCombinerClass(UserCountCombine.class);

		// userCountJob.setReducerClass(UserCountReduce.class);

		// userCountJob.setOutputKeyClass(Text.class);

		// userCountJob.setOutputValueClass(Text.class);

		// FileInputFormat.setInputPaths(userCountJob, new Path(args[1]));

		// FileOutputFormat.setOutputPath(userCountJob, new Path(args[2]));

		// userCountJob.waitForCompletion(true);

<span style="white-space: pre;">		</span>//计算文档数，并暂时储存到hdfs上

		Counter ct = tfJob.getCounters().findCounter(

				"org.apache.hadoop.mapreduce.TaskCounter", "MAP_INPUT_RECORDS");

		System.out.println(ct.getValue());

		Iterable<String> groupNames = tfJob.getCounters().getGroupNames();

		for (String groupName : groupNames) {

			System.out.println(groupName);

		}

		FileSystem fs = FileSystem.get(URI.create(hdfsURL), conf);

		Path path = new Path(fileURL);

		FSDataOutputStream output = fs.create(path, true);

		String content = Long.toString(ct.getValue());

		output.write(content.getBytes());

		output.flush();

		output.close();

		Job idfJob = Job.getInstance(conf, "idfjob");

		idfJob.setJarByClass(TFIDF_5.class);

		idfJob.setMapperClass(IDFMap.class);

		idfJob.setReducerClass(IDFReduce.class);

		idfJob.setOutputKeyClass(Text.class);

		idfJob.setOutputValueClass(Text.class);

		FileInputFormat.setInputPaths(idfJob, new Path(args[1]));

		FileOutputFormat.setOutputPath(idfJob, new Path(args[3]));

		System.exit(idfJob.waitForCompletion(true) ? 0 : 1);

	}

}

最初运用了一个单独的job计算文档数，后面经过公司前辈的指点，能够通过计算tf的时候运用输入数据的条数来巧妙的计算文档数。

运用mapreduce计算tf-idf的更多相关文章

TF/IDF（term frequency/inverse document frequency)
TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明. 一. TF/IDF描述单个term与特定document的相 ...
TF/IDF计算方法
FROM:http://blog.csdn.net/pennyliang/article/details/1231028 我们已经谈过了如何自动下载网页.如何建立索引.如何衡量网页的质量(Page R ...
tf–idf算法解释及其python代码实现(下)
tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...
tf–idf算法解释及其python代码实现(上)
tf–idf算法解释 tf–idf, 是term frequency–inverse document frequency的缩写,它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要,常用在信息 ...
文本分类学习（三）特征权重（TF/IDF）和特征提取
上一篇中,主要说的就是词袋模型.回顾一下,在进行文本分类之前,我们需要把待分类文本先用词袋模型进行文本表示.首先是将训练集中的所有单词经过去停用词之后组合成一个词袋,或者叫做字典,实际上一个维度很大的 ...
信息检索中的TF/IDF概念与算法的解释
https://blog.csdn.net/class_brick/article/details/79135909 概念 TF-IDF(term frequency–inverse document ...
Elasticsearch学习之相关度评分TF&IDF
relevance score算法,简单来说,就是计算出,一个索引中的文本,与搜索文本,他们之间的关联匹配程度 Elasticsearch使用的是 term frequency/inverse doc ...
tf idf公式及sklearn中TfidfVectorizer
在文本挖掘预处理之向量化与Hash Trick中我们讲到在文本挖掘的预处理中,向量化之后一般都伴随着TF-IDF的处理,那么什么是TF-IDF,为什么一般我们要加这一步预处理呢?这里就对TF-IDF的 ...
25.TF&IDF算法以及向量空间模型算法
主要知识点: boolean model IF/IDF vector space model 一.boolean model 在es做各种搜索进行打分排序时,会先用boolean mo ...

随机推荐

vc根据域名获取IP地址 gethostbyname()函数
以下是VC Socket初始化时用到的两个函数一.WSAStartup函数 int WSAStartup ( ...
docker学习笔记6：利用dockerfile创建镜像介绍（生成简单web服务器镜像）
本文介绍如何利用dockerfile来创建镜像.下面介绍具体的操作过程: 一.创建构建环境操作示例如下: xxx@ubuntu:~$ pwd /home/xxx xxx@ubuntu:~$ mkdi ...
C#调用存储过程实现分页(个人代码笔记)
分页的存储过程: drop proc LoadPageMain create Proc LoadPageMain @pageIndex )) Fid ) ].Rows ) ...
Java基础04 封装与接口
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 总结之前的内容,对象(object)指代某一事物,类(class)指代象的类型.对 ...
windows azure 实例
public class Album : TableServiceEntity { } public class PhotoAlbumDataContext : TableServiceContext ...
前端面试题整理（html）
1.<!DOCTYPE>标签的定义与用法. <!DOCTYPE> 声明必须是 HTML 文档的第一行,位于 <html> 标签之前. <!DOCTYPE> ...
hadoop部署、启动全套过程
Hadoop是Apache基金会的开源项目,为开发者提供了一个分布式系统的基础架构,用户可以在不了解分布式系统的底层细节的情况下开发分布式的应用,充分利用集群的强大功能,实现高速运算和存储.Hadoo ...
2014/08/24——升级stepbystep修复tc不刷新问题并加入杭电bc
问题: 自从tc站点升级以后做题统计的tc一栏就不刷新了,为此全哥也更新了一下stepbystep的配置文件什么的,我仅仅要将其挂到server上即可了．由于加了杭电的bc,看来这事儿不easy.还 ...
Eclipse用法和技巧六：自动生成get和set方法1
java的类中,除了常量声明为静态且公有的,一般的对象数据作用域,都是声明为私有的.这样做能保护对象的属性不会被随意改变,调试的时候也会方便很多:在类的公有方法中大一个调用栈就能看到哪里改了属性值.声 ...
基于visual Studio2013解决C语言竞赛题之1068指针数组
题目解决代码及点评 /* 68. 在主函数中输入10个不等长的字符串,用另一函数对它们排序. 然后在主函数中输出这10个已排好序的字符串,用指针数组完成. */ #inclu ...

运用mapreduce计算tf-idf

运用mapreduce计算tf-idf的更多相关文章

随机推荐

热门专题