HDP Spark2 HIVE3.1 的问题

HDP 上安装了 Hive3.1 和 Spark2, 提交 Spark 作业时,报找不到 Hive 中表的问题但是查一了下 hive 表,明明是存在这个表的.查看日志,注意到如下的一段日志. 没修改值之前,我在 Spark-shell 里创建了一张 hive 表,发现其创建的位置是 spark.sql.warehouse.dir 指向的目录,不在 hive.metastore.warehouse.dir 目录里 (其实这个值在 hive 中的配置,但是 spark 的 conf 下的目录里没有…

Ambari HDP 下 SPARK2 与 Phoenix 整合

1.环境说明操作系统 CentOS Linux release 7.4.1708 (Core) Ambari 2.6.x HDP 2.6.3.0 Spark 2.x Phoenix 4.10.0-HBase-1.2 2.条件 HBase 安装完成 Phoenix 已经启用,Ambari界面如下所示: Spark 2安装完成 3.Spark2 与 Phoenix整合 Phoenix 官网整合教程: http://phoenix.apache.org/phoenix_spark.html 步骤:…

spark2.4.0+hadoop2.8.3全分布式集群搭建

集群环境 hadoop-2.8.3搭建详细请查看hadoop系列文章 scala-2.11.12环境请查看scala系列文章 jdk1.8.0_161 spark-2.4.0-bin-hadoop2.7 192.168.217.201 hadoop1.org.cn hadoop1 192.168.217.202 hadoop2.org.cn hadoop2 192.168.217.203 hadoop3.org.cn hadoop3 spark2.4.0完全分布式环境搭建下载安装包 http:…

Ubuntu 16.04.4 LTS + Ambari 2.6.1.5 + HDP 2.6.4.0 安装部署

服务器主机名 master slave1 slave2 slave3 IP 192.168.1.40 192.168.1.41 192.168.1.42 192.168.1.43 离线包服务器: 192.168.1.50 ------------------------------------------------------------------------------------------------------------------------------------------…

ambari 2.6.2 安装 hdp 2.6.5.0 遇到的问题

1.hive-client 无法安装一直报错(symlink target already exists and it is not a symlink.),hive-client 已经存在且不是符号连接,查看确实如此试了很多种办法,比如重新安装,比如手动删除,手动连接,都没有奏效 DO: 最后通过查看错误日志,拿到执行报错的脚本(ambari-python-wrap /usr/bin/hdp-select set hive-client 2.6.5.0-292),删除存在的目录后,再执行…

Spark-2.3.2【SparkStreaming+SparkSQL-实时仪表盘应用】

应用场景:实时仪表盘(即大屏),每个集团下有多个mall,每个mall下包含多家shop,需实时计算集团下各mall及其shop的实时销售分析(区域.业态.店铺TOP.总销售额等指标)并提供可视化展现,之前时候一直在Strom实现,现在改为Spark2.3.2实现. 1.数据源:首先数据源来自于MQ.Socket.Flume和DFS等,一般Kafka.RocketMQ等居多,此处示例代码用的是RocketMQ: 2.实时计算框架:Storm(实时计算,Spout发射Tuple到各个Bolt,来一…

HDP 企业级大数据平台

一前言阅读本文前需要掌握的知识: Linux基本原理和命令 Hadoop生态系统(包括HDFS,Spark的原理和安装命令) 由于Hadoop生态系统组件众多,导致大数据平台多节点的部署,监控极其不方便,因此一些Hadoop厂商提供了企业发行版,例如CDH,HDP等.这些Hadoop企业发行版将Hadoop生态系统的开源组件整合到了一个平台之上,并做了一些定制,提供了安装,部署,监控等工具,大大方便了平台运维人员. CDH是Cloudera公司向企业客户提供的基于Apache Hadoop生…

geotrellis使用（二十五）将Geotrellis移植到spark2.0

目录前言升级spark到2.0 将geotrellis最新版部署到spark2.0(CDH) 总结一.前言事情总是变化这么快,前面刚写了一篇博客介绍如何将geotrellis移植导CDH中(见geotrellis使用(二十四)将Geotrellis移植到CDH中必须要填的若干个坑),刚各种折腾几天,就又跑不起来了,查找一番,发现是由于将geotrellis升级到最新版造成的,所以不得不赶紧再救火.原来是最新版以及以后的版本geotrellis都不再支持spark2.0以下版…

Ubuntu14.04或16.04下安装JDK1.8+Scala+Hadoop2.7.3+Spark2.0.2

为了将Hadoop和Spark的安装简单化,今日写下此帖. 首先,要看手头有多少机器,要安装伪分布式的Hadoop+Spark还是完全分布式的,这里分别记录. 1. 伪分布式安装伪分布式的Hadoop是将NameNode,SecondaryNameNode,DataNode等都放在一台机器上执行,Spark同理,一般用于开发环境. 1.1 准备工作系统准备:一台Ubuntu16.04机器,最好能够联网准备好四个安装包:jdk-8u111-linux-x64.tar.gz,scala-2.1…

maven+spark2.0.0最大连通分量

运用到了spark2.0.0的grarhx包,要手动的在pom.xml里面添加依赖包,要什么就在里面添加依赖,然后在run->maven install…

Eclipse+maven+scala2.11.8+spark2.0.0的环境部署

主要在maven-for-scalaIDE纠结了,因为在eclipse版本是luna4.x 里面有自己带有的maven. 根据网上面无脑的下一步下一步,出现了错误,在此讲解各个插件的用途,以此新人看见了,少走一些弯路. 其实主要的问题是自己独立去下载scala插件,把scala依赖包拷贝到eclipse的plugins和features里面,然后maven也是自己下载手动修改了 Installations里面我在add加入我自己下载的maven的路径,然后修改了maven里面confg配置文件里…

spark2.0.1 安装配置

1. 官网下载 wget http://d3kbcqa49mib13.cloudfront.net/spark-2.0.1-bin-hadoop2.7.tgz 2. 解压 tar -zxvf spark-2.0.1-bin-hadoop2.7.tgz ln -s spark-2.0.1-bin-hadoop2.7 spark2 3. 环境变量 vi /etc/profile #Spark 2.0.1export SPARK_HOME=/usr/local/spark2export PATH=$P…

Spark2.0自定义累加器

Spark2.0 自定义累加器在2.0中使用自定义累加器需要继承AccumulatorV2这个抽象类,同时必须对以下6个方法进行实现: 1.reset 方法: 将累加器进行重置; abstract defreset(): Unit Resets this accumulator, which is zero value. 2.add 方法: 向累加器中添加另一个值; abstract defadd(v: IN): Unit 3.merge方法: 合并另一个类型相同的累加器; abstract …

HDP 2.3 Notes

Hortonworks Data Platform 2.3.4.0-3485 [bug] /usr/hdp/2.3.4.0-3485/zookeeper/bin/zkEnv.sh 26 if [ -z "${ZOOKEEPER_HOME}" ]; then 27 ZOOBINDIR=${ZOOBINDIR:-/usr/bin} 28 ZOOKEEPER_PREFIX=${ZOOBINDIR}/.. 29 else 30 ZOOBINDIR="${ZOOKEEPER_HOME}…

Eclipse远程调试HDP源代码

使用的是自己编译的HDP2.3.0的源代码编译的集群,此文介绍如何使用Eclipse远程调试Hadoop内核源代码,以调试namenode为例进行介绍. 在/usr/hdp/2.3.0.0-2557/hadoop-hdfs/bin/hdfs.distro 目录下,添加如下内容,这个内容是让namenode在启动的时候,打开调试模式: 图片中的代码是(不要写错了): HADOOP_OPTS="$HADOOP_OPTS -Xdebug -Xrunjdwp:transport=dt_socket,ad…

使用Myeclipse 2015 进行 Hdp 4 windows 开发

在本地环境下进行开发,使用cygwin安装 Hdp那就是一个呵呵岂能概括. 所以啊,还是用Hdp windows进行开发测试吧.这样感觉省心点.具体 Hdp windows的安装参看前面的文章或自行Google. 那为什么要用Java来开发Hdp呢? C# 本可以运行在 Hdp 4 windows的,通过最近一段时间对于它的了解,发现C#在Hadoop一族的上表现除了MR,OOZie,Hive之类还凑合着能用吧.其它如Strom除了运行在Azure上的功能外,并且VS.net也支持了,但暂时…

Spark Streaming揭秘 Day29 深入理解Spark2.x中的Structured Streaming

Spark Streaming揭秘 Day29 深入理解Spark2.x中的Structured Streaming 在Spark2.x中,Spark Streaming获得了比较全面的升级,称为Structured Streaming,和之前的很不同,功能更强大,效率更高,跟其他的组件整合性也更好. 连续应用程序continuous application 首先,也是最重要的,在2.x中,提出了一个叫做continuous applications连续应用程序的概念. 如下图所示,数据从Kaf…

Spark2.0编译

Spark2.0编译 1 前言 Spark2.0正式版于今天正式发布,本文基于CDH5.0.2的Spark编译. 2 编译步骤 #2.1 下载源码 wget https://github.com/apache/spark/archive/v2.0.0.tar.gz #2.2 解压配置基于CDH5.0.2配置pom文件,添加 <profile> <id>cdh5.0.2</id> <properties> <hadoop.version>2.3.…

Hortonworks HDP Sandbox定制(配置)开机启动服务(组件)

定制Hortonworks HDP开机启动服务能够这样做:本文原文出处: http://blog.csdn.net/bluishglc/article/details/42109253 严禁不论什么形式的转载,否则将托付CSDN官方维护权益! 找到文件:/usr/lib/hue/tools/start_scripts/start_deps.mf,Hortonworks HDP启动全部服务和组件的命令都在这个文件里,之所以把这些服务的启动命令写在了一个makefile中而不是一个shell文件,事…

Apache Spark2.0正式发布

Apache Spark2.0正式发布 7月26日起Databricks开始提供Apache Spark 2.0的下载,这个版本是基于社区在过去两年的经验总结而成,不但加入了用户喜爱的功能,也修复了之前的痛点. 本文总结了Spark 2.0的三大主题:更简单.更快速.更智能,另有Spark 2.0内容的文章汇总介绍了更多细节. 两个月前,Databricks发布了Apache Spark 2.0的技术预览版,如下表所见,目前我们有10%的集群都在使用这个版本,根据客户使用新版的经验及反馈意见,新…

《Dynamic Topic Detection and Tracking: A Comparison of HDP, C-Word, and Cocitation Methods》笔记

原文地址:http://onlinelibrary.wiley.com/doi/10.1002/asi.23134/abstract 黄色背景是我认为比较重要的,红色字体是我自己的话. 动态主题监测与跟踪:HDP.共词与共引分析方法的比较 Introduction 主题监测与跟踪在文献计量学.数据挖掘以及其他多个领域中都发挥重要作用.主题监测旨在从文档集合中识别重要主题,而主题跟踪旨在对一个已经识别到的主题演化过程进行跟踪.识别主题及其内在模式对于理解主题来说至关重要. 共引分析和共词分析是文献…

Spark2.1集群安装（standalone模式）

机器部署准备三台Linux服务器,安装好JDK1.7 下载Spark安装包上传spark-2.1.0-bin-hadoop2.6.tgz安装包到Linux(intsmaze-131)上解压安装包到指定位置tar -zxvf spark-2.1.0-bin-hadoop2.6.tgz -C /home/hadoop/app/spark2.0/ 原文和作者一起讨论:http://www.cnblogs.com/intsmaze/p/6569036.html 微信:intsmaze 配置Spar…

Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程

1.选取三台服务器(CentOS系统64位) 114.55.246.88 主节点 114.55.246.77 从节点 114.55.246.93 从节点之后的操作如果是用普通用户操作的话也必须知道root用户的密码,因为有些操作是得用root用户操作.如果是用root用户操作的话就不存在以上问题. 我是用root用户操作的. 2.修改hosts文件修改三台服务器的hosts文件. vi /etc/hosts 在原文件的基础最后面加上: 114.55.246.88 Master 114.55.…

Spark2.1.0分布式集群安装

一.依赖文件安装 1.1 JDK 参见博文:http://www.cnblogs.com/liugh/p/6623530.html 1.2 Hadoop 参见博文:http://www.cnblogs.com/liugh/p/6624872.html 1.3 Scala 参见博文:http://www.cnblogs.com/liugh/p/6624491.html 二.文件准备 2.1 文件名称 spark-2.1.0-bin-hadoop2.7.tgz 2.2 下载地址 http://spa…

【Spark2.0源码学习】-1.概述

Spark作为当前主流的分布式计算框架,其高效性.通用性.易用性使其得到广泛的关注,本系列博客不会介绍其原理.安装与使用相关知识,将会从源码角度进行深度分析,理解其背后的设计精髓,以便后续在Spark使用以及设计类似产品提供相关经验,下面开始进入正题. 本系列博客将从集群各端点的设计原理.通信方式.启动流程,以及用户任务提交后,任务的集群加载.分解.调度的方式两个方面进行解读. 首先,从脚本开始详见<[Spark2.0源码学习]-2.一切从…

【Spark2.0源码学习】-2.一切从脚本说起

从脚本说起在看源码之前,我们一般会看相关脚本了解其初始化信息以及Bootstrap类,Spark也不例外,而Spark我们启动三端使用的脚本如下: %SPARK_HOME%/sbin/start-master.sh %SPARK_HOME%/sbin/start-slaves.sh %SPARK_HOME%/sbin/start-all.sh %SPARK_HOME%/bin/spark-submit 三端启动脚本中对于公共处理部分进行抽取为独立的脚本,如下: …

hadoop2.8和spark2.1完全分布式搭建

一.前期准备工作: 1.安装包的准备: VMware(10.0版本以上) : 官方网站:https://www.vmware.com/cn.html 官方下载地址:http://www.vmware.com/products/player/playerpro-evaluation.html 10.0版本注册码: v1Z0G9--FZG78-ZL3Q2-234JG 4C4EK-89KDL-5ZFP9-1LA5P-2A0J0 HY086-4T01N-CZ3U0-CV0QM-13DNU 11.0版本注…