HIVE表中默认将NULL存为\N,可查看表的源文件(hadoop fs -cat或者hadoop fs -text),文件中存储大量\N, 这样造成浪费大量空间.而且用java.python直接进入路径操作源数据时,解析也要注意. 另外,hive表的源文件中,默认列分隔符为\001(SOH),行分隔符为\n(目前只支持\n,别的不能用,所以定义时不需要显示声明).元素间分隔符\002,map中key和value的分隔符为\003. 举例,如源文件中一条记录为: 10000042SOH77SOH…