Tajo--一个分布式数据仓库系统(分布式环境安装试用)
前面两篇介绍了一下tajo,下面就说一下安装和使用吧。
一、分布式安装
前提:hadoop2中的hdfs和yarn已经安装并运行正常。
1、下载source并build源码
$git clone https://git-wip-us.apache.org/repos/asf/incubator-tajo.git tajo $ cd tajo $ mvn clean package -DskipTests -Pdist -Dtar $ ls tajo-dist/target/tajo-x.y.z-SNAPSHOT.tar.gz
2、将tag.gz解压到需要安装的地方
$ tar xzvf tajo-0.2.-SNAPSHOT.tar.gz
3、配置tajo-site.xml
<property> <name>tajo.rootdir</name> <value>hdfs://hostname:9000/tajo</value> </property> <property> <name>tajo.worker.tmpdir.locations</name> <value>/home/ds/clouderaCDH/tajoTmp</value> </property> <property> <name>tajo.master.umbilical-rpc.address</name> <value>hostname:</value> </property> <property> <name>tajo.catalog.client-rpc.address</name> <value>hostname:</value> </property> <property> <name>tajo.master.client-rpc.address</name> <value>hostname:</value> </property> <property> <name>tajo.worker.parallel-execution.max-num</name> <value></value> </property>
4、 配置tag-env.sh
# Hadoop home. Required export HADOOP_HOME=/home/ds/clouderaCDH/hadoop-2.0.-cdh4.2.1 # The java implementation to use. Required. export JAVA_HOME=/usr/lib/jvm/java--sun # The maximum amount of heap to use, in MB. Default is . export TAJO_MASTER_HEAPSIZE= # The maximum amount of heap to use, in MB. Default is . export TAJO_WORKER_HEAPSIZE=
5、 配置workers文件
worker01
worker02
6、 将配置好的tajo同步到其他节点并启动
scp -r tajo02 worker01:/home/ds/clouderaCDH/ bin/start-tajo.sh
7、 查看进程是否启动
jps
TajoMaster
TajoWorker
二、SQL交互
创建表
1、 从hdfs上得csv文件创建外部表
test文件夹下放一个data.csv文件,内容:
|abc|1.1|a
|def|2.3|b
|ghi|3.4|c
|jkl|4.5|d
|mno|5.6|e
创建表并load数据
create external table table1 (id int, name text, score float, type text) using csv with ('csvfile.delimiter'='|') location 'hdfs://hostname:9000/tajo/warehouse/test’
查询交互
支持绝大部分的SQL92。
1、使用limit查询
$ select * from table1 limit ; id, name, score, type
-------------------------------
, abc, 1.1, a
, def, 2.3, b
三、参考资料
[1] http://wiki.apache.org/tajo
[2] http://tajo.incubator.apache.org/
[3] https://issues.apache.org/jira/browse/TAJO
Tajo--一个分布式数据仓库系统(分布式环境安装试用)的更多相关文章
- Ubuntu15.10下Hadoop2.6.0伪分布式环境安装配置及Hadoop Streaming的体验
Ubuntu用的是Ubuntu15.10Beta2版本,正式的版本好像要到这个月的22号才发布.参考的资料主要是http://www.powerxing.com/install-hadoop-clus ...
- Hadoop Yarn(一)—— 单机伪分布式环境安装
HamaWhite(QQ:530422429)原创作品,转载请注明出处:http://write.blog.csdn.net/postedit/40556267. 本文是依据Hadoop官网安装教程写 ...
- Hadoop 3.1.3伪分布式环境安装Hive 3.1.2的异常总结
背景:hadoop版本为3.1.3, 且以伪分布式形式安装,hive版本为3.1.2,hive为hadoop的一个客户端. 1. 安装简要步骤 (1) 官网下载apache-hive-3.1.2-bi ...
- Hadoop伪分布式环境安装
一.环境准备 阿里云ECS(Centos7).已预装JDK8 Hadoop安装包 hadoop-2.7.7.tar.gz 二. 安装步骤 1.确认JDK环境的安装位置 命令 echo $JAVA_HO ...
- Hbase 分布式环境安装部署
Hbase分布式集群搭建--安装步骤 这一步如果没有deploy.sh脚本的可以使用scp命令分别分发到其他节点去 到集群里看看安装好的hbase 使用脚本启动所有节点的zookeeper 启动HDF ...
- hadoop分布式环境安装
1. 下载hadoop和jdk安装包到指定目录,并安装java环境. 2.解压hadoop到指定目录,配置环境变量.vim /etc/profile export JAVA_HOME=/home/xi ...
- hadoop 分布式环境安装
centos 多台机器免密登录 hadoop学习笔记(五)--全分布模式下SSH免密码登陆的实现 参考安装教程 Hadoop-2.7.4 集群快速搭建 启动hadoop cd /opt/soft/ha ...
- Hadoop完全分布式环境搭建(四)——基于Ubuntu16.04安装和配置Hadoop大数据环境
[系统环境] [安装配置概要] 1.上传hadoop安装文件到主节点机器 2.给文件夹设置权限 3.解压 4.拷贝到目标文件夹 放在/opt文件夹下,目录结构:/opt/hadoop/hadoop-2 ...
- Tajo--一个分布式数据仓库系统(概述)
前言:一直对OS X比较仰慕,刚工作送给自己的第一件大礼就是mac pro,嘿嘿.最近在看一个叫tajo得分布式数据仓库,需要依赖protoc 2.4.1,2.5.0都不work,不知道为啥,我在装2 ...
随机推荐
- Android 自动化测试及性能数据采集的 Python 脚本
文主要介绍一个基于 uiautomator2 封装的一个 Python 库 android-catcher ,该库的功能主要有对 Android 设备进行 UI 自动化测试 和 采集手机性能数据 ,适 ...
- xampp服务器搭建和使用
1.安装完XAMPP后会出现Apache端口被占用的问题,一下方法解决 错误信息如下: Error: Apache shutdown unexpectedly. 9:37:01 [Apache] T ...
- ZOJ 3962
就是统计1~n中出现的各个数字的次数,当然是在16进制下. 不过有个区间问题的小技巧,统计从 [x,y] 可以转换成 从 [1,y] 减去 [1,x-1]. 不过要分类讨论一下,因为有可能会出现溢出, ...
- 20130501-Twitter向全美用户开放广告平台Twitter Ads
腾讯科技讯(晁晖)北京时间5月1日消息,据国外媒体报道,Twitter今天向所有美国用户开放了广告平台Twitter Ads.自2012年3月发布以来,Twitter Ads只向受邀请用户开放.Twi ...
- 英文Datasheet没那么难读
话说学好数理化,走遍天下都不怕.可是在这个所谓的全球化时代,真要走遍天下的话,数理化还真未必比得上一门外语.作为技术人员,可以看到的是目前多数前沿的产品和技术多来自发达的欧美等国家,而英语目前才是真正 ...
- Scrum立会报告+燃尽图(十一月二十二日总第三十次):加强回归测试
此作业要求参见:https://edu.cnblogs.com/campus/nenu/2018fall/homework/2410 项目地址:https://git.coding.net/zhang ...
- "Hello World!"团队第四次会议
Scrum立会 博客内容是: 1.会议时间 2.会议成员 3.会议地点 4.会议内容 5.todo list 6.会议照片 7.燃尽图 一.会议时间: 2017年10月16日 11:44-12:18 ...
- linux awk,sort,uniq,wc,cut命令详解
1.awk awk是行处理器: 相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢出或是处理缓慢的问题,通常用来格式化文本信息 $ 表示当前行 $ 表示第一列 NF 表示一共有多少列 $NF 表示最 ...
- P4环境搭建
P4环境搭建 执行仓库中所有脚本,即可即可安装所有依赖项. GitHub链接 脚本执行顺序:deps,p4c-bm,bmv2,p4c
- 团队Alpha冲刺(一)
目录 组员情况 组员1(组长):胡绪佩 组员2:胡青元 组员3:庄卉 组员4:家灿 组员5:凯琳 组员6:丹丹 组员7:家伟 组员8:政演 组员9:黄鸿杰 组员10:刘一好 组员11:何宇恒 展示组内 ...