最近特别喜欢用Pig,拥有能满足大部分需求的内置函数(built-in functions),支持自定义函数(user defined functions, UDF),能load 纯文本.avro等格式数据:illustrate看pig执行步骤的结果,describe看alias的schema:以轻量级脚本形式跑MapReduce任务,各种爽爆. 1. Word Count 较于中文,英文比较工整,可以根据空格.标点符号进行分词. A = load '/user/.*/req-temp/text…