在hive中,一般情况下通过 use my_hive_db; set hive.merge.mapfiles=true; set hive.merge.mapredfiles=true; ; ; insert overwrite directory '/user/myuser/temp/scenemapbuild/' row format delimited fields terminated by ',' select * from scenemapbuild; 导出文件时,会遇本来表中本来字…
有时候需要将hive库中的部分数据导入至本地,这样子做可视化和小规模的数据挖掘实验都是比较方便的.数据导入至本地的HQL语法如下: INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1;但是hive对字段分隔时默认使用的分隔符是^A,使用文本编辑器打开文件显示出来就是乱码,同时,后续提取字段值时需要指定这个特殊的分隔符,在python中使用line.split('\x01')来进行切分在java中split("\\u000…
1.使用insert导出 这种方式的优点在于既可以导出到hdfs上还可以导出到本地目录 下面以导出emp表中数据为例 insert overwrite local directory "/opt/module/data/export/emp" 如果去除local,则是导出到hdfs上 row format delimited fields terminated by "\t"   (格式,可选) select * from emp; 导出结果 2.使用export导…
一.Hive的參数设置 1.  三种设定方式:配置文件 ·   用户自己定义配置文件:$HIVE_CONF_DIR/hive-site.xml ·   默认配置文件:$HIVE_CONF_DIR/hive-default.xml 用户自己定义配置会覆盖默认配置. 另外,Hive也会读入Hadoop的配置,由于Hive是作为Hadoop的client启动的,Hadoop的配置文件包含 ·   $HADOOP_CONF_DIR/hive-site.xml ·   $HADOOP_CONF_DIR/h…
在使用过程中可能遇到的问题: sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中. sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop-0.20.2-CDH3B4.tar.gz,解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2-CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中. 1  首先安装sqoop,如果你使用的是cl…
用到ISNULL()函数 例如:SELECT 其他列名,ISNULL(列名,替换值)as 重命名  from 表名 (简单参考:http://www.cnblogs.com/netsa/archive/2011/10/18/2216209.html) 查询某一列值为null:SELECT * FROM test_table WHERE column_1 IS NULL;——————ACCESS下用:select * from test_table where isnull(column_1)…
报错信息: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Unable to move source hdfs://localhost:9000/tmp/hive/daisy/185ccfc8-52f0-48e4-acd2-866340445241/hive_2020-01-21_11-00-58_110_6359830348207520702-1/-mr-10000 to destina…
1.protected void GridView1_RowDataBound( object sender, GridViewRowEventArgs e )  {    if (e.Row.RowType == DataControlRowType.DataRow)    {      e.Row.Cells[1].Attributes.Add("style", "vnd.ms-excel.numberformat:@;");    }  } 2.在字符串的数据…
客户端向服务器发送请求后,服务器返回了一个json格式的字符串但是格式中key的值有些事数字{"1000":"55555"}; 类似这种格式的话就不能直接转化成对象类型了,应为C#中没有public string 1000{get;set;}这种类似的语法使用_1000也是无法直接用 public static T JsonDeserialize<T>(string jsonstr);这个方法直接转化的 于是用到了这个工具 Newtonsoft.Json…
工作中经常遇到使用Hive导出数据到文本文件供数据分析时使用.Hive导出复杂数据到csv等文本文件时,有时会遇到以下几个问题: 导出的数据只有数据没有列名. 导出的数据比较复杂时,如字符串内包含一些制表符.换行符等.直接导出后,其它程序无法对数据进行正常的分割.若直接使用管道符号和sed指令的话,会导致分列出错. 数据分析师使用数据时使用R语言,加载数据时如果一个字段只有单引号或双引号时,会导致后续数据读为一行. 导出数据时空值在文本显示为\N,不是NULL. hive导出的数据生成若干个00…