一.问题需求: 近期需要做一个商品集合的相关性计算,需要将所有商品进行两两组合笛卡尔积,但spark自带的笛卡尔积会造成过多重复,而且增加join量 假如商品集合里面有: aa aa bb bb cc cc 两两进行组合会出现九种情况 aa,aa aa,bb aa,cc cc,aa bb,aa bb,cc cc,aa cc,bb cc,cc 其实 aa,aa 还有aa,bb与bb,aa是一样的 我们其实只要其中3种: 排列组合: aa,bb bb, cc aa, cc 二.实现:
在做spark开发过程中,时不时的就有可能遇到租户的hive库目录下的文件个数超出了最大限制问题. 一般情况下通过hive的参数设置: val conf = new SparkConf().setAppName("MySparkJob") //.setMaster("local[1]").setMaster("spark://172.21.7.10:7077").setJars(List("xxx.jar")).set(&qu
https://blog.csdn.net/nihaoxiaocui/article/details/95060906 https://xuexiyuan.cn/article/detail/173.html from etlsdk.lib.datasources.datasource_factory import DatasourceFactory from data_pipeline.df_transform.transform import DataframeTransform from