1.filter滤波器函数定义一个数组,需求:过滤出带ii的字符串 arr=['dsdsdii','qqwe','pppdiimmm','sdsa','sshucsii','iisdsa'] def filter_ii(n): return 'ii' in n def filter_test(func,array): ret=[] for i in array: if not func(i):#注意内置函数没有not ret.append(i) return ret print(list(fil…
我们做hive查询时候经常会出现出数过慢的问题,于是采用了LZO压缩,再在压缩块上做索引的方式去解决这个问题,但是也引入了新的问题点 lzo本身的压缩功能只能在linux上压缩再上传到HDFS平台,供给hive使用,于是当你一个hive表下面的数据块很大的时候你想压缩就必须下载到linux,压缩完再上传我HDFS.这个过程实在太麻烦而且消耗时间.后来找到个方案: SET mapreduce.output.fileoutputformat.compress.codec=com.hadoop.com…