Spark SQL支持数据源使用JDBC从其他数据库读取数据. 与使用JdbcRDD相比,应优先使用此功能. 这是因为结果以DataFrame的形式返回,并且可以轻松地在Spark SQL中进行处理或与其他数据源合并. JDBC数据源也更易于从Java或Python使用,因为它不需要用户提供ClassTag. (请注意,这与Spark SQL JDBC服务器不同,后者允许其他应用程序使用Spark SQL运行查询). 首先,您需要在spark类路径上包含特定数据库的JDBC驱动程序. 例如,要从…