spark_load csv to hive via hivecontext】的更多相关文章

//prepare csv year,make,model,comment,blank "2012","Tesla","S","No comment", "1997","Ford,E350","Go get one now they are going fast", "2015","Chevy","Volt"…
1 create csv file.student.csv 4,Rose,M,78,77,76 5,Mike,F,99,98,98 2 put it to hdfs. # hdfs dfs -put student.csv /input 3 create table in hive. create table student_csv (sid int, sname string, gender string, language int, math int, english int) row fo…
命令 hive -e " set hive.cli.print.header=true; #将表头输出 select * from data_table where some_query_conditions " | sed 's/[\t]/,/g' > hhd.csv set hive.cli.print.header=true将表头输出:sed 's/[\t]/,/g' 将\t替换成,> 将shell里打印的内容输出到文件…
类型转换 可以使用CAST操作显示进行数据类型转换 例如CAST(' 转换成整数1:如果强制类型转换失败,如执行CAST('X' AS INT),表达式返回空值 NULL. : jdbc:hive2:, ; +------+------+--+ | _c0 | _c1 | +------+------+--+ | 对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数. 集合数据类型 Hiv…
1. 创建数据库,切换数据库 create database testdb; use testdb; 2. 创建管理表 create table emp( empno int, empname string, job string, mgr int, hiredate string, salary double, comm double, deptno int) row format delimited fields terminated by '\t'; 加载数据 load data loca…
一.项目背景 前两年,支付宝推出的“余额宝”赚尽无数人的眼球,同时也吸引的大量的小额资金进入.“余额宝”把用户的散钱利息提高到了年化收益率4.0%左右,比起银行活期存储存款0.3%左右高出太多了,也正在撼动着银行躺着赚钱的地位. 在金融市场,如果想获得年化收益率4%-5%左右也并非难事,通过“逆回购”一样可以.一旦遇到货币紧张时(银行缺钱),更可达到50%一天隔夜回够利率.我们就可以美美地在家里数钱了!! 所谓逆回购:通俗来讲,就是你(A)把钱借给别人(B),到期时,B按照约定利息,还给你(A)…
转自:Hive_hdfs csv导入hive demo   1 create csv file.student.csv 4,Rose,M,78,77,76 5,Mike,F,99,98,98 2 put it to hdfs. # hdfs dfs -put student.csv /input 3 create table in hive. create table student_csv (sid int, sname string, gender string, language int,…
1. Hive文件与记录格式 Create table 有多种用法,例如STORED AS SEQUENCEFILE, ROW FORMAT DELIMITED, SERDE, INPUTFORMAT, OUTPUTFORMAT 这些语法. 某些语法是其他语法的快捷用法,例如: 语法 STORED AS SEQUENCEFILE 的替代方式是:指定INPUTFORMAT 为 org.apache.hadoop.mapred.SequenceFileInputFormat,并指定 OUTPUTFO…
目录 概述 原理 组成 执行流程 性能 API 应用程序模板 通用读写方法 RDD转为DataFrame Parquet文件数据源 JSON文件数据源 Hive数据源 数据库JDBC数据源 DataFrame Operation 性能调优 缓存数据 参数调优 案例 数据准备 查询部门职工数 查询各部门职工工资总数,并排序 查询各部门职工考勤信息 概述 Spark SQL是Spark的结构化数据处理模块. Spark SQL特点 数据兼容:可从Hive表.外部数据库(JDBC).RDD.Parqu…
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .运行环境说明 1.1 硬软件环境 线程,主频2.2G,10G内存 l  虚拟软件:VMware® Workstation 9.0.0 build-812388 l  虚拟机操作系统:CentOS 64位,单核 l  虚拟机运行环境: Ø  JDK:1.7.0_55 64位 位) Ø  Scala:2.10.4 Ø  Spark:1.1.0(需要编译) Ø  Hive:0.13.1 1.2 机器网络…