在Spark 1.5.x版本,增加了一系列内置函数到DataFrame API中,并且实现了code-generation的优化.与普通的函数不同,DataFrame的函数并不会执行后立即返回一个结果值,而是返回一个Column对象,用于在并行作业中进行求值.Column可以用在DataFrame的操作之中,比如select,filter,groupBy等.函数的输入值,也可以是Column. 聚合函数: approxCountDistinct, avg, count, countDistinc…