本文是Pig系统分析系列中的最后一篇了,主要讨论怎样扩展Pig功能.不仅介绍Pig本身提供的UDFs扩展机制,还从架构上探讨Pig扩展可能性. 补充说明:前些天同事发现twitter推动的Pig On Spark项目:Spork,准备研究下. UDFs 通过UDFs(用户自己定义函数),能够自己定义数据处理方法,扩展Pig功能.实际上,UDFS除了使用之前须要register/define外.和内置函数没什么不同. 主要的EvalFunc 以内置的ABS函数为例: public class AB…