Mac OSX系统中Hadoop / Hive 与 spark 的安装与配置 环境搭建 记录     Hadoop 2.6 的安装与配置(伪分布式) 下载并解压缩 配置 .bash_profile : export HADOOP_HOME=/Users/fan/Applications/hadoop-2.6.0 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 配置 HDFS : etc/hadoop/core-site.xml: <con…
为配合生产hadoop使用,在本地搭建测试环境,使用docker环境实现(主要是省事~),拉取阿里云已有hadoop镜像基础上,安装hive组件,参考下面两个专栏文章: 克里斯:基于 Docker 构建 Hadoop 平台 docker上从零开始搭建hadoop和hive环境 由于hadoop与hive等存在版本兼容问题,安装前可以先通过官网确认版本兼容情况: http://hive.apache.org/downloads.html 本次使用的各版本配置如下: Docker 19.03.8 J…
本文由  网易云发布. 作者:唐雕龙 本篇文章仅限内部分享,如需转载,请联系网易获取授权. 面向新手的hadoop+hive学习环境搭建,加对我走过的坑总结,避免大家踩坑. 对于hive相关docker,并没有官方的docker,第三方维护经过测试各种不靠谱,所以才想到自己搭建一套,然后后期在整理成docker上传~~~ 基础环境: 1. 公司云主机debain8.8 (不像docker,所以对系统内核无要求) 1. 前置安装: 1.1 jdk8(hive要求jdk7以上,千万不要jdk9!!!…
本文旨在快速搭建一套Hadoop及HBase的分布式环境,自己测试玩玩的话ok,如果真的要搭一套集群建议还是参考下ambari吧,目前正在摸索该项目中.下面先来看看怎么快速搭建一套分布式环境. 准备 三台虚拟机:1台作为NameNode和HMaster 两台作为DataNode和HRegionServer.同时三台都安装zookeeper. Hadoop-2.7.3,HBase-1.2.4 ,Zookeeper-3.4.9 , JDK1.8.0_121 安装包 基础环境准备 对三台机器创建新用户…
引言 一直用的Ubuntu 32位系统(准备下次用Fedora,Ubuntu越来越不适合学习了),今天准备学习一下Hadoop,结果下载Apache官网上发布的最新的封装好的2.5.1版,配置完了根本启动不起来,查看错误日志发现是native库的版本和系统不一致,使用file命令可以发现封装版的native库文件全是64位的: 原来官网发布的版本开始用64位环境编译了(貌似之前是32位环境编译).没办法,只好自己下载源码编译了. 毫无意外的,编译时各种错误简直停不下来,强忍着一个个耐心解决了,配…
1.准备Linux环境 1.0先将虚拟机的网络模式选为NAT 1.1修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=myvm ### 1.2修改IP 两种方式: 第一种:通过Linux图形界面进行修改 进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit connections -> 选中当前网络System eth0 -> 点击edit按钮 -> 选择IPv4 -> method选…
一.前言 Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.接下来我们使用的是Hive Hive简介 Hive 是一个基于 Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据.    它把海量数据存储于 hadoop 文件系统,而不是数据库…
本文简单记录了一下使用VMware workstation 10.CentOS和HDP 2.0.6(Hadoop 2.2)发行版构建Hadoop开发测试环境的全部流程.这个过程中我遇到了不少问题,也耽误了不少的时间,所以将此文奉上,希望对大家有所帮助. 本文使用两台虚拟机搭建真实集群环境,操作系统为Cent OS 6.5.可以使用VMware Workstation的简易安装模式来进行. 0. 安装CentOS 6.5虚拟机 根据向导设置系统用户.CPU.内存.磁盘和网络.这里为了让yum能连接…
安装好虚拟机,重命名为master 配置网卡 命令:vi /etc/sysconfig/network-scripts/ifcfg-en(按tab键) 这里要配置ip,网关,域名解析 例如我的 IPADDR=192.168.31.50 GATEWAY=192.168.31.2 DNS1=8.8.8.8 接着我们需要重启网卡才能生效 [root@localhost ~]# :service network restart 检验外网是否能连接 [root@localhost ~]#(以百度为例):p…
记录一下使用docker快速搭建部署hive环境 目录 写在前面 步骤 安装docker 安装docker 安装docker-compose 配置docker国内镜像源(可选) 安装git & 配置github 部署Hive docker-hive 开始部署 使用Hive命令行 收尾工作 安装vi.lrzsz 关闭相关命令 END 参考链接 写在前面 想练练Hive SQL,但是没有hive shell环境.现在只有一台空的CentOS 7机子,一想要弄jdk.hadoop.mysql.hive…
引言 在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用介绍.本文主要讲解如何搭建Hadoop+Hive的环境. 一.环境准备 1,服务器选择 本地虚拟机 操作系统:linux CentOS 7 Cpu:2核 内存:2G 硬盘:40G 说明:因为使用阿里云服务器每次都要重新配置,而且还要考虑网络传输问题,于是自己在本地便搭建了一个虚拟机,方便文件的传输以…
文章目录 Docker搭建Hadoop环境 Docker的安装与使用 拉取镜像 克隆配置脚本 创建网桥 执行脚本 Docker命令补充 更换镜像源 安装vim 启动Hadoop 测试Word Count 查看Web管理页面 Docker搭建Hadoop环境 Hadoop集群环境配置起来相当繁琐,并且在学习Hadoop过程中没有一般不会去使用多台设备进行分布式集群配置.因此在一台机器上配置Hadoop分布式集群时通常采用虚拟机来模拟多台设备,但虚拟机较为占用系统资源,开多个虚拟机(模拟Hadoop…
源地址:http://www.ibm.com/developerworks/cn/java/j-lo-jenkins/ 持续集成是一种软件开发实践,对于提高软件开发效率并保障软件开发质量提供了理论基础.Jenkins 是一个开源软件项目,旨在提供一个开放易用的软件平台,使持续集成变成可能.本文正是从持续集成的基本概念入手,通过具体实例,介绍了如何基于 Jenkins 快速搭建持续集成环境. 持续集成概述 什么是持续集成 随着软件开发复杂度的不断提高,团队开发成员间如何更好地协同工作以确保软件开发…
持续集成概述 什么是持续集成 随着软件开发复杂度的不断提高,团队开发成员间如何更好地协同工作以确保软件开发的质量已经慢慢成为开发过程中不可回避的问题.尤其是近些年来,敏捷(Agile) 在软件工程领域越来越红火,如何能再不断变化的需求中快速适应和保证软件的质量也显得尤其的重要. 持续集成正是针对这一类问题的一种软件开发实践.它倡导团队开发成员必须经常集成他们的工作,甚至每天都可能发生多次集成.而每次的集成都是通过自动化的构建来验证,包括自动编译.发布和测试,从而尽快地发现集成错误,让团队能够更快…
本系列文章演示如何快速搭建一个简单的云原生架构的实践环境. 基于这个基础架构,可以持续部署微服务架构的应用栈,演练敏捷开发过程,提升DevOps实践能力. 1 整体规划 1.1 拓扑架构 1.2 基础设置 硬件配置 最低:2核 CPU,4G 内存,30G 硬盘. 建议:8核 CPU,16G 内存,100G 硬盘. 编号 IP OS 主机名 角色 环境 说明 A 192.168.1.101 CentOS7.4 ddc_node01 Manager Global 运行UCP和Jenkins的节点 B…
导读:越来越多的程序员在Linux下进行C/C++的开发.本文以CentOS 7为例,教你快速搭建一个vi + gcc/g++ + Make + valgrind的开发环境. 本文字数:1500,阅读时长大约:10分钟 一.YUM源配置 本文假设你已经安装好了一个 Linux 操作系统,关于如何安装 Linux,可以参考<虚拟机安装 Linux 最完整攻略> 下载阿里的YUM源: https://mirrors.aliyun.com/repo/ 将/etc/yum.repos.d 目录下所有.…
 云计算之hadoop.hive.hue.oozie.sqoop.hbase.zookeeper环境搭建及配置文件已经托管到githubhttps://github.com/sxyx2008/cloud   附录: 1.Hadoop源码下载http://svn.apache.org/repos/asf/hadoop/common/tags/ 2.Hadoop jar下载 https://archive.apache.org/dist/hadoop/…
目录: 准备工作 Centos安装 mysql Centos安装Hadoop Centos安装hive JDBC远程连接Hive Hbase和hive整合 Centos安装Hbase 准备工作: 配置/etc/hosts 127.0.0.1 localhost localhost.localdomain 192.168.0.120 centos 集中修改/etc/profile export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_25/ export JRE_HOME=…
搭建此环境主要用来hadoop的学习,因此我们的操作直接在root用户下,不涉及HA. Software: Hadoop 2.6.0-cdh5.4.0 Apache-hive-2.1.0-bin Sqoop-1.4.6-cdh5.5.2 JDK1.7.0_79 集群信息: 一个主节点,2个从节点. 192.168.75.128 master 192.168.75.129 slave01 192.168.75.130 slave02 搭建步骤: 搭建步骤不详细化,主要把相关的hadoop的配置和关…
 说在前面的话 以下三种情况,最好是在3台集群里做,比如,master.slave1.slave2的master和slave1都安装了hive,将master作为服务端,将slave1作为服务端. 以下,是针对CentOS版本的,若是Ubuntu版本,见我的博客 Ubuntu系统下安装并配置hive-2.1.0 hive三种方式区别和搭建 Hive中metastore(元数据存储)的三种方式: a)  内嵌Derby方式 b)  Local方式 c)  Remote方式 1.本地derby 这种…
最近有个需求,需要整合所有店铺的数据做一个离线式分析系统,曾经都是按照店铺分库分表来给各自商家通过highchart多维度展示自家的店铺经营 数据,我们知道这是一个以店铺为维度的切分数据,非常适合目前的在线业务,这回老板提需求了,曾经也是一位数据分析师,sql自然就溜溜的,所以就 来了一个以买家维度展示用户画像,从而更好的做数据推送和用户行为分析,因为是离线式分析,目前还没研究spark,impala,drill了. 一:搭建hadoop集群     hadoop的搭建是一个比较繁琐的过程,采用…
前提:配置JDK1.8环境,并配置相应的环境变量,JAVA_HOME 一.Hadoop的安装 1.1 下载Hadoop (2.6.0) http://hadoop.apache.org/releases.html 1.1.1 下载对应版本的winutils(https://github.com/steveloughran/winutils)并将其bin目录下的文件,全部复制到hadoop的安装目录的bin文件下,进行替换. 1.2 解压hadoop-2.6.0.tar.gz到指定目录,并配置相应…
原文链接: https://www.toutiao.com/i6771763211927552523/ CDH简单了解 CDH: C:cloudera(公司) D:distribute H:Hadoop 解决了大数据Hadoop 2.x生态系统中各个框架的版本兼容问题,不用自己编译, CDH适合商用,版本更新比较慢,也可以选择其他版本. CDH版本的安装 在线:不推荐,受网速影响 离线:rpm包,tar包 之前已经安装使用过Apache版本的Hadoop,这次为了区分,我们再单独见一个cdh目录…
原创博客,转载请联系博主! 摘要:本文介绍了如何使用docker快速搭建一个可以从外部访问的mysql服务容器,和由docker搭建的分布式Hadoop文件系统,并且使用ApacheSqoop完成将mysql中的关系型数据库转移到导入到hadoop文件系统之中,以及过程中遇到的一些问题及解决办法,一些为了避免错误要注意的细节!一转眼又是半个学期了,顺便感慨下时间过的好快呀.. 再阅读之前你需要先 安装docker,我使用的是centos7,安装docker可以直接通过 yum -y instal…
Background 一. 什么是Presto Presto通过使用分布式查询,可以快速高效的完成海量数据的查询.如果你需要处理TB或者PB级别的数据,那么你可能更希望借助于Hadoop和HDFS来完成这些数据的处理.作为Hive和Pig(Hive和Pig都是通过MapReduce的管道流来完成HDFS数据的查询)的替代者,Presto不仅可以访问HDFS,也可以操作不同的数据源,包括:RDBMS和其他的数据源(例如:Cassandra). Presto被设计为数据仓库和数据分析产品:数据分析.…
http://niuzhenxin.iteye.com/blog/1706203   Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递. Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目. Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数…
Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中.这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤.作者在发现目前的Hadoop on Docker项目所存在的问题之后,开发了接近最小化的Hadoop镜像,并且支持快速搭建任意节点数的Hadoop集群. 一. 项目简介 GitHub: kiwanlau/hadoop-cluster-docker 直接用机器搭建Hadoop集群是一个相当痛苦的过程,尤其对初学者来说.他们还没开…
超快速使用docker在本地搭建hadoop分布式集群 超快速使用docker在本地搭建hadoop分布式集群 学习hadoop集群环境搭建是hadoop入门的必经之路.搭建分布式集群通常有两个办法: 找多台机器来部署(通常找不到机器) 在本地开多个虚拟机(对宿主机器性能要求很高) 如果以上两种办法都对您不适用,那么现在有种更好更方便的办法,使用docker在本地做虚拟化,搭建hadoop伪分布式集群环境.虽然有点大材小用,但是用来练习还是挺好的. 操作思路: 使用docker构建一个Hadoo…
出于安全稳定考虑很多业务都需要服务器服务器Hadoop+Hive搭建,但经常有人问我,怎么去选择自己的配置最好,今天天气不错,我们一起来聊一下这个话题. Hadoop+Hive环境搭建 1虚拟机和系统安装+JDK环境 JDK安装采用二进制包压缩方式(解压之后就是直接可用了,但需要修改环境变量,使其任何路径下都可行) 修改/etc/profile,~/.bashrc 配置文件,修改环境变量. 2 Hadoop安装 Hadoop安装采用二进制文件压缩方式 三种方式 1 单机:修改 环境变量使得Had…
1.准备三台虚拟机 2.hadoop+hive+spark+java软件包 传送门:Hadoop官网 Hive官网 Spark官网      一.修改主机名,hosts文件 主机名修改 hostnamectl set-hostname *** hosts文件修改 vi /etc/hosts 写入以下内容 master 192.168.0.110 slaver1 192.168.0.111 slaver2 192.168.0.112 SSH免登陆 运行命令 ssh-keygen -t rsa生成秘…