pig—WordCount analysis

 grunt> cat /opt/dataset/input.txt

	keyword1 keyword2

	keyword2 keyword4

	keyword3 keyword1

	keyword4 keyword4

 A = LOAD '/opt/dataset/input.txt' using PigStorage('\n')  as (line:chararray);

 B = foreach A generate TOKENIZE((chararray)$0);

 C = foreach B generate flatten($0) as word;

 D = group C by word;

 E = foreach D generate COUNT(C), group;

 dump B;

({(keyword1),(keyword2)})

({(keyword2),(keyword4)})

({(keyword3),(keyword1)})

({(keyword4),(keyword4)})

 dump C;

(keyword1)

(keyword2)

(keyword2)

(keyword4)

(keyword3)

(keyword1)

(keyword4)

(keyword4)

 dump D;

(keyword1,{(keyword1),(keyword1)})

(keyword2,{(keyword2),(keyword2)})

(keyword3,{(keyword3)})

(keyword4,{(keyword4),(keyword4),(keyword4)})

 dump E;

(2,keyword1)

(2,keyword2)

(1,keyword3)

(3,keyword4)

 store E into './wordcount';

TOKENIZE

Splits a string and outputs a bag of words.

Syntax

TOKENIZE(expression)       

Terms

expression

An expression with data type chararray.

Usage

Use the TOKENIZE function to split a string of words (all words in a single tuple) into a bag of words (each word in a single tuple). The following characters are considered to be word separators: space, double quote("), coma(,) parenthesis(()), star(*).

Example

In this example the strings in each row are split.

A  = LOAD 'data' AS (f1:chararray);

DUMP A;

(Here is the first string.)

(Here is the second string.)

(Here is the third string.)

X = FOREACH A GENERATE TOKENIZE(f1);

DUMP X;

({(Here),(is),(the),(first),(string.)})

({(Here),(is),(the),(second),(string.)})

({(Here),(is),(the),(third),(string.)})

pig—WordCount analysis的更多相关文章

WordCount Analysis
1.Create a new java project, then copy examples folder from /home/hadoop/hadoop-1.0.4/src; Create a ...
Hive Word count
--https://github.com/slimandslam/pig-hive-wordcount/blob/master/wordcount.hql DROP TABLE myinput; DR ...
Latent semantic analysis note(LSA)
1 LSA Introduction LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwes ...
Hadoop:pig 安装及入门示例
pig是hadoop的一个子项目,用于简化MapReduce的开发工作,可以用更人性化的脚本方式分析数据. 一.安装 a) 下载从官网http://pig.apache.org下载最新版本(目前是0 ...
hadoop家族之pig入门
昨天成功运行第一个在hadoop集群上面的python版本的wordcount,今天白天继续看网上提供的文档.下午上头给定的回复是把hadoop家族都熟悉一下,那就恭敬不如从命,开始学习pig吧- 这 ...
pig对null的处理（实际，对空文本处理为两种取值null或‘’）
pig对文本null的处理非常特殊.会处理成两种null,还会处理成''这样的空值. 比方,读name,age,sex日志信息.name取值处理,假设记录为".,,"这样,会将na ...
软件质量与测试--第二周作业 WordCount
github地址: https://github.com/wzfhuster/software_test_tasks psp表格: PSP2.1 PSP 阶段预估耗时 (分钟) 实际耗时 (分钟) ...
软件质量与测试——WordCount编码实现及测试
1.GitHub地址 https://github.com/noblegongzi/WordCount 2.PSP表格 PSP2.1 PSP 阶段预估耗时 (分钟) 实际耗时 (分钟) ...
第二周个人作业WordCount
1.Github地址 https://github.com/JingzheWu/WordCount 2.PSP表格 PSP2.1 PSP阶段预估耗时 (分钟) 实际耗时 (分钟) Planning ...

随机推荐

洛谷P2312解方程
传送门思路分析怎么求解呢? 其实我们可以把左边的式子当成一个算式来计算,从1到 $ m $ 枚举,只要结果是0,那么当前枚举到的值就是这个等式的解了.可以通过编写一个 $ bool $ 函数来判断 ...
java 多线程总结篇2之——Thread类及常用函数
此片文章主要总结的是Thread类及相关的基础概念和API,首先需要厘清线程调度中的几个基本概念: 一.线程调度的基本方法 1.调整线程优先级:Java线程有优先级,优先级高的线程会获得较多的运行机会 ...
python 图片上传写入磁盘功能
本文是采取django框架,前端上传图片后端接收后写入磁盘,数据库记录图片在磁盘上的路径(相对),以下是前端上传到后端入库的基本流程一. html代码 <!DOCTYPE html> & ...
使用文本用户界面（NMTUI）进行网络配置
NetworkManager 文本用户界面(TUI)工具 nmtui 可提供一个文本界面配置由 NetworkManager 控制的网络.该工具包含在 NetworkManager-tui 子软件包中 ...
MIT6.006Lec01：Python实现
MIT6.006是Algo Intro这门课,据说语言使用python Lec01是讲peak finding,也就是峰值点具体为: 一维情况下一个数组中a[i]>a[i-1]且a[i]> ...
将DataTable转换为List，将List转换为DataTable的实现类
将DataTable转换为List,将List转换为DataTable的实现类 public static class DataTableHelper { public static DataTabl ...
中断、轮询、事件驱动、消息驱动、数据流驱动(Flow-Driven)？
轮询.事件驱动.消息驱动.流式驱动 ---数据流驱动 Unidirectional Architecture? 中断.事件.消息这样一种机制来实现更好的在多任务系统里运行... 阻塞,非阻塞同步,异步 ...
Educational Codeforces Round 45 (Rated for Div. 2) E - Post Lamps
E - Post Lamps 思路:一开始看错题,以为一个地方不能重复覆盖,我一想值这不是sb题吗,直接每个power check一下就好....复杂度nlogn 然后发现不是,这样的话,对于每个po ...
【原创】MySQL复制slave服务器死锁案例
MySQL复制刚刚触发了一个bug,该bug的触发条件是slave上Xtrabackup备份的时候执行flushs tables with read lock和show slave status有可能 ...
【原创】MySQL CPU %sys高的案例分析(二)
后面又做了补充测试,增加了每秒context switch的监控,以及SQL执行时各步骤消耗时间的监控. [测试现象一] 启用1000个并发线程的压测程序,保持压测程序持续运行,保持innodb_sp ...

pig—WordCount analysis

pig—WordCount analysis的更多相关文章

随机推荐

热门专题