这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可; $ vim hive-site.xml <configuration>   <property>     <name>javax.jdo.option.ConnectionURL</name>     <value>jdbc:derby:;databaseName=metastore_db;create=true</value>   </proper…
一.前提条件 安装了Zookeeper.Hadoop HDFS HA  安装方法: http://www.cnblogs.com/raphael5200/p/5154325.html 二.安装Mysql 因为使用量多的是单用户数据库模式,并且数据库使用最多的是mysql 所以在这里选择mysql数据库: $ yum install mysql-server $ service mysqld start#连接mysql $ mysql -uroot -p  #首次密码是空的(直接敲空格) use…
一.常见的数据分析引擎 Hive:Hive是一个翻译器,一个基于Hadoop之上的数据仓库,把SQL语句翻译成一个  MapReduce程序.可以看成是Hive到MapReduce的映射器. Hive       HDFS 表         目录 数据       文件 分区       目2 2.Pig 3.Impala 4.Spark SQL 二.Hive 的体系结构 用户接口主要有三个: 1.CLI Shell命令行 2.JDBC/ODBC:Hive的Java,与传统JDBC相似 3.W…
##前期工作 安装JDK 安装Hadoop 安装MySQL ##安装Hive ###下载Hive安装包 可以从 Apache 其中一个镜像站点中下载最新稳定版的 Hive, apache-hive-2.1.1-bin.tar.gz. 解压安装Hive 使用以下命令安装 Hive: sudo mv apache-hive-2.1.1-bin.tar.gz /opt cd /opt sudo tar -xzvf apache-hive-2.1.1-bin.tar.gz ##解压 sudo ln -s…
概述 数据仓库:是一个面向主题的.集成的.不可更新的.随时间不变化的数据集合,它用于支持企业或组织的决策分析处理. 数据仓库的结构和建立过程: 数据源 数据存储及管理 ETL Extract 提取 Transform 转换 Load 装载 数据仓库引擎 前端展示 数据查询 数据报表 数据分析 1)产生背景 MapReduce编程的不便性 HDFS上的文件缺少schema 2)是什么 The Apache Hive ™ data warehouse software facilitates rea…
一.上传hive 0.11解压后的文件到linux 1.用的版本是shark站点提供的,可能是针对shark修改了代码. 2.追加mysql.oracle两个jdbc驱动包到lib目录下. 二.配置相关文件 1..bash_profile文件 export HIVE_HOME=/home/kituser/bigdata/hive-0.11.0-binexport HIVE_CONF_DIR=$HIVE_HOME/confexport CLASSPATH=$CLASSPATH:$HIVE_HOME…
1  cd / 2 mkdir -p /app/ios 3  cd /opt     mkdir ios 4   把下载好的centos-6.7-x86_64-bin-dvd1.iso  上传到 /opt/ios目录下 5 把光盘挂载到 /app/ios目录下 mount -o loop /opt/ios/CentOS-6.7-x86_64-bin-DVD1.iso /app/ios 二 配置本地yum源 cd /etc/yum.repos.d/   #进入yum配置目录 vi  CentOS-…
oracle版本:Oracle 11g 本地电脑配置:安装内存8G 64为操作系统win8.1 下载Oracle 11g压缩包: 1 网址http://www.oracle.com/technetwork/database/enterprise-edition/downloads/index.html 如果上面链接失效www.oracle.com官网在menu菜单下打开Developers->develper resources 接着在导航栏technologies->databases打开滑…
一.Spark支持的安装模式: 1.伪分布式(一台机器即可) 2.全分布式(至少需要3台机器) 二.Spark的安装配置 1.准备工作 安装Linux和JDK1.8 配置Linux:关闭防火墙.主机名.免密码登陆 2.安装部署Spark 解压:tar z-xvf spark-2.1.0-bin-hadoop2.7.tgz -C /root/trainning/ 核心配置文件 :con/spark-env.sh (cp spark-env.sh.template spark-env.sh) (伪分…
1.zookeeper简单介绍 zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,我所了解到的主要的使用场景有两个 (1).微服务注册中心(Dubbo较常用Zookeeper做注册中心). (2).分布式锁.2.下载zookeeper 下载地址:http://mirrors.hust.edu.cn/apache/zookeeper/ 3.单机模式安装配置 ZooKeeper的安装包括单机模式安装,以及集群模式安装.单机模式较简单,是指只部署一个zk进程,客户端直接与该zk进程进…