1.项目需求 一本英文书籍包含成千上万个单词,现在我们需要在大量的单词中,找出相同字母组成的所有单词 2.数据集 下面是一本英文书籍截取的一部分单词内容(书籍内容是随意写的,主要目的是实现这种需求) 3.分析 1.先看如下图 在上图中,cat.act是相同字母组成的单词,tar.rat也是相同字母组成的单词,bar只有一个,它不显示,因为没有和它是相同字母组成单词 2.基于以上分析,我们通过以下几步完成 1.在Map阶段,对每个word(单词)按字母进行排序生成sortedWord,然后输出ke…
实战项目:查找相同字母组成的字谜 项目需求:一本英文书籍中包含有成千上万个单词或者短语,现在我们要从中找出相同字母组成的所有单词. 数据集和期望结果举例: 思路分析: 1)在Map阶段,对每个word按字母进行升序(或降序)排序生成sortWord,然后输出key/value键值对(sortWord, word). 2)在Reduce阶段,统计出每组根据相同字母组成的所有anahrams(字谜).  项目代码: /** * */ package com.hadoop.train; import…
前面我们学习了MapReduce编程思想和编程示例,那么本节课程同学们一起操练操练,动手完成下面的项目. 项目需求 一本英文书籍包含成千上万个单词或者短语,现在我们需要在大量的单词中,找出相同字母组成的所有anagrams(字谜). 数据集 下面是一本英文书籍截取的一部分单词内容.猛戳此链接下载数据集 initiate initiated initiates initiating initiation initiations initiative initiatives initiator in…
什么是倒排索引? 倒排索引(英语:Inverted index),也常被称为反向索引.置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射.它是文档检索系统中最常用的数据结构.通过倒排索引,可以根据单词快速获取包含这个单词的文档列表.倒排索引主要由两个部分组成:“单词词典”和“倒排文件”. 假设我们现在有文件: test1.txt中存有:我们爱自然语言处理 test2.txt中存有:我们爱计算机视觉 正向索引:{“test1.txt”:["我…
个字母暗藏的单词秘密 人们普通认为:英语是拼音文字,因而与象形无关.但是,实际上,即使作为拼音文字,其字母的来源也与象形有关.根据笔者十多年的研究结果,英语中的二十六个字母每个字母都有其象形意义,而且更重要的是:这些字母的象形意义对于记忆大量的英语单词具有重要意义.本文专门探讨英语中二十六个字母最重要的象形意义及其在英语单词记忆中的作用. 字母A a——象形人头,指男人,人头, 喻向前英语中的第一个字母a 从外形上看象一个"人头"(head).常用来指(man),所以在man(男人)一…
#coding=gbk ''' 1.将单词表中由相同字母组成的单词归成一类,每类单词按照单词的首字母排序,并按 #每类中第一个单词字典序由大到小排列输出各个类别. #输入格式:按字典序由小到大输入若干个单词,每个单词占一行,以end结束输入. #cinema #iceman #maps #spam #aboard #abroad #end #输出格式:一类单词一行,类别间单词以空格隔开. #aboard abroad #cinema iceman #maps spam ''' result=[]…
一.github使用手册 1. 我也用github(2)——关联本地工程到github 2. Git错误non-fast-forward后的冲突解决 3. Git中从远程的分支获取最新的版本到本地 4. Git教程 二.案例:倒排索引 1. 完成功能: 统计一系列文本文件中的每个单词构成的倒排索引. 1)分析:(1)倒排索引主要是用来存储某个单词在一个文档中或者一组文档中出现的位置映射关系,即提供一个根据内容查找文档的方式. (2)加权倒排索引,在确定指定单词到文档位置的映射关系的时候,加入权重…
1.薪资数据集 我们要写一个薪资统计程序,统计数据来自于互联网招聘hadoop岗位的招聘网站,这些数据是按照记录方式存储的,因此非常适合使用 MapReduce 程序来统计. 2.数据格式 我们使用的数据来自互联网招聘网站,其中每一行是一条记录. 下面我们展示一行数据,其中重要的字段被突出显示.该行数据被分割成很多行以突出每个字段,但在实际文件中,这些字段被整合成一行 美团 3-5年经验 # 工作年限 15-30k # 薪资 北京 [够牛就来]hadoop高级工程 3.分析 在这里,map阶段的…
气象数据集 我们要写一个气象数据挖掘的程序.气象数据是通过分布在美国各地区的很多气象传感器每隔一小时进行收集,这些数据是半结构化数据且是按照记录方式存储的,因此非常适合使用 MapReduce 程序来统计分析. 数据格式 我们使用的数据来自美国国家气候数据中心.美国国家海洋和大气管理局(简称 NCDC NOAA),这些数据按行并以 ASCII 格式存储,其中每一行是一条记录. 下面我们展示一行采样数据,其中重要的字段被突出显示.该行数据被分割成很多行以突出每个字段,但在实际文件中,这些字段被整合…
本文地址:http://www.cnblogs.com/archimedes/p/mapreduce-inverted-index.html,转载请注明源地址. 1.倒排索引简介 倒排索引(Inverted index),也常被称为反向索引.置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射.它是文档检索系统中最常用的数据结构. 有两种不同的反向索引形式: 一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表. 一个单词的…