最近一个项目,需要操作近70亿数据进行统计分析.如果存入MySQL,很难读取如此大的数据,即使使用搜索引擎,也是非常慢.经过调研决定借助我们公司大数据平台结合Spark技术完成这么大数据量的统计分析. 为了后期方便开发人员开发,决定写了几个工具类,屏蔽对MySQL及Hive的操作代码,只需要关心业务代码的编写. 工具类如下: 一. Spark操作MySQL 1. 根据sql语句获取Spark DataFrame: /** * 从MySql数据库中获取DateFrame * * @param sp…