Introduction(介绍) 本章介绍了之前章节没有涵盖的高级Spark编程特性.我们介绍两种类型的共享变量:用来聚合信息的累加器和能有效分配较大值的广播变量.基于对RDD现有的transformation(转换),我们针对构建成本高的任务引入批量操作,如查询数据库.为了扩展我们可使用工具的范围,我们介绍Spark与外部程序交互的方法,例如用R编写的脚本. 在本章中,我们将以无线电台的通话记录作为输入构造一个示例.这些日志至少包括联系电台的呼号.呼号由国家分配,并且每个国家有自己的呼号范围,…