Python字典的构造函数有三个,dict().dict(**args).dict(mapping),当中第一个.第二个构造函数比較好理解也比較easy使用, 而dict(mapping)这个构造函数的使用比較难理解. 1 dict()构造函数能够返回一个空的字典 In [7]: d = dict() In [8]: print d {} In [9]: 2 dict(**arg)构造函数,传入參数用赋值表达式,可多个赋值表达式,用逗号间隔就可以. In [9]: d = dict(a = 12
最近在准备抽取数据的工作.有一个id集合200多M,要从另一个500GB的数据集合中抽取出所有id集合中包含的数据集.id数据集合中每一个行就是一个id的字符串(Reduce side join要在每行的行尾加“,”号,而Map side join不必,如果加了也可以处理掉),类似,500GB的数据集合中每一行是某一id对应的全记录,用“,”号分隔. 为什么不在hive或者pig下面搞这个操作呢?主要是因为Hive配置了Kerberos认证之后,还有一个问题没有解决,包含metastore的主机