在做spark开发过程中,时不时的就有可能遇到租户的hive库目录下的文件个数超出了最大限制问题. 一般情况下通过hive的参数设置: val conf = new SparkConf().setAppName("MySparkJob") //.setMaster("local[1]").setMaster("spark://172.21.7.10:7077").setJars(List("xxx.jar")).set(&qu
def generate_csv_source(data_file): #判断文件是否存在 if not os.path.exists(data_file): # 拉取hive表数据 cmd_sql = 'hive -e "set hive.cli.print.header=true; \ select * from dw.full_d_usr_channel_sum_v3 where ds<>\'\' \ and type in (\'super\',\'9k9\',\'taoba