【原创】大数据基础之Ambari（4）通过Ambari部署Impala

【原创】大数据基础之Kerberos（2）hive impala hdfs访问

1 hive # kadmin.local -q 'ktadd -k /tmp/hive3.keytab -norandkey hive/server03@TEST.COM'# kinit -kt /tmp/hive3.keytab hive/server03@TEST.COM# klist # beeline -u 'jdbc:hive2://192.168.0.3:10000/;principal=hive/server03@TEST.COM'# hive 注意这里的server03是指hi…

大数据基础环境--jdk1.8环境安装部署

1.环境说明 1.1.机器配置说明本次集群环境为三台linux系统机器,具体信息如下: 主机名称 IP地址操作系统 hadoop1 10.0.0.20 CentOS Linux release 7.2.1511 hadoop2 10.0.0.21 CentOS Linux release 7.2.1511 hadoop3 10.0.0.22 CentOS Linux release 7.2.1511 1.2.操作系统详情本文档全程使用root用户进行操作: [root@hadoop1 ~]…

【原创】大数据基础之Zookeeper（2）源代码解析

核心枚举 public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING; } zookeeper服务器状态:刚启动LOOKING,follower是FOLLOWING,leader是LEADING,observer是OBSERVING: public enum LearnerType { PARTICIPANT, OBSERVER; } 简单来说,zookeeper启动的核心类是QuorumPeerMain,启动之后会加载配置,…

【原创】大数据基础之Impala（1）简介、安装、使用

impala2.12 官方:http://impala.apache.org/ 一简介 Apache Impala is the open source, native analytic database for Apache Hadoop. Impala is shipped by Cloudera, MapR, Oracle, and Amazon. impala是hadoop上的开源分析性数据库:C++和java语言开发: Do BI-style Queries on Hadoop Im…

【原创】大数据基础之Ambari（1）简介、编译安装、使用

官方:http://ambari.apache.org/ The Apache Ambari project is aimed at making Hadoop management simpler by developing software for provisioning, managing, and monitoring Apache Hadoop clusters. Ambari provides an intuitive, easy-to-use Hadoop management…

【原创】大数据基础之词频统计Word Count

对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多简单: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10 2 Spark分布式处理(Scala) val sparkConf = new SparkConf() val sc = new SparkContext(sparkConf) sc.textFile("test_wo…

【原创】大数据基础之Benchmark（2）TPC-DS

tpc 官方:http://www.tpc.org/ 一简介 The TPC is a non-profit corporation founded to define transaction processing and database benchmarks and to disseminate objective, verifiable TPC performance data to the industry. TPC(The Transaction Processing Perform…

大数据基础知识问答----hadoop篇

handoop相关知识点 1.Hadoop是什么? Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. Hadoop is a distributed computing platform written in Java. It incorporates features similar to those of the Google File System and of MapReduc…

大数据基础知识：分布式计算、服务器集群[zz]

大数据中的数据量非常巨大,达到了PB级别.而且这庞大的数据之中,不仅仅包括结构化数据(如数字.符号等数据),还包括非结构化数据(如文本.图像.声音.视频等数据).这使得大数据的存储,管理和处理很难利用传统的关系型数据库去完成.在大数据之中,有价值的信息往往深藏其中.这就需要对大数据的处理速度要非常快,才能短时间之内就能从大量的复杂数据之中获取到有价值的信息.在大数据的大量复杂的数据之中,通常不仅仅包含真实的数据,一些虚假的数据也混杂其中.这就需要在大数据的处理中将虚假的数据剔除,利用真实的数据来…

大数据基础知识问答----spark篇，大数据生态圈

Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点:但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法. 2.Spark与Hadoop的对比(Spar…

学习大数据基础框架hadoop需要什么基础

什么是大数据?进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节).GB(1024MB).TB(1024GB),一直向上攀升,目前,PB(等于1024TB)级的数据系统已经很常见,随着移动个人数据.社交网站.科学计算.证券交易.网站日志.传感器网络数据量的不断加大,国内拥有的总数据量早已超出 ZB(1ZB=1024EB,1EB=1024PB…

hadoop大数据基础框架技术详解

一.什么是大数据进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节).GB(1024MB).TB(1024GB),一直向上攀升,目前,PB(等于1024TB)级的数据系统已经很常见,随着移动个人数据.社交网站.科学计算.证券交易.网站日志.传感器网络数据量的不断加大,国内拥有的总数据量早已超出 ZB(1ZB=1024EB,1EB=1024…

大数据基础总结---HDFS分布式文件系统

HDFS分布式文件系统文件系统的基本概述文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易. 文件名:在文件系统中,文件名是用于定位存储位置. 元数据(Metadata):保存文件属性的数据,如文件名,文件长度,文件所属用户组,文件存储位置等. 数据块(Block):存储文件的最小单元.对存储介质划分了固定的区域,使用时按这些区域分配使用. HDFS的概述 HDFS(Hadoop Distributed File System)基于Google发布的GFS论…

【原创】大数据基础之Ambari（2）通过Ambari部署ElasticSearch（ELK）

ambari2.7.3(hdp3.1) 安装 elasticsearch6.3.2 ambari的hdp中原生不支持elasticsearch安装,下面介绍如何通过mpack方式使ambari支持elasticsearch安装: 一安装Service 1 下载 Mpack include version 6.3.2 of ElasticSearch, Logstash, Kibana, FileBeat, and MetricBeat # wget https://community.hort…

【原创】大数据基础之Ambari（3）通过Ambari部署Airflow

ambari2.7.3(hdp3.1) 安装 airflow1.10 ambari的hdp中原生不支持airflow安装,下面介绍如何通过mpack方式使ambari支持airflow安装: 1 下载 # wget https://github.com/miho120/ambari-airflow-mpack/raw/master/airflow-service-mpack.tar.gz 2 安装 # ambari-server install-mpack --mpack airflow-ser…

【原创】大数据基础之Ambari（4）通过Ambari部署Impala

ambari2.7.3(hdp3.1) 安装 impala2.12(自动安装最新) ambari的hdp中原生不支持impala安装,下面介绍如何通过mpack方式使ambari支持impala安装: 一安装Service 1 下载 # wget https://github.com/cas-bigdatalab/ambari-impala-service/raw/master/ambari-impala-mpack-2.6.0-0816.tar.gz 2 安装 # ambari-server…

【原创】大数据基础之Ambari（5）通过Ambari部署Hue

ambari2.7.3(hdp3.1) 安装 hue4.2 ambari的hdp中原生不支持hue安装,下面介绍如何通过添加service的方式使ambari支持hue安装: 官方:http://gethue.com/ Hue is an open source Workbench for developing and accessing Data Apps. 一安装SERVICE 第三方service:https://github.com/EsharEditor/ambari-hue-ser…

【原创】大数据基础之Logstash（4）高可用

logstash高可用体现为不丢数据(前提为服务器短时间内不可用后可恢复比如重启服务器或重启进程),具体有两个方面: 进程重启(服务器重启) 事件消息处理失败在logstash中对应的解决方案为: Persistent Queues Dead Letter Queues 默认都没有开启: 另外可以通过docker或marathon或systemd来实现进程的自动重启: As data flows through the event processing pipeline, Logstash m…

【原创】大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）

spark 2.1.1 spark初始化rdd的时候,需要读取文件,通常是hdfs文件,在读文件的时候可以指定最小partition数量,这里只是建议的数量,实际可能比这个要大(比如文件特别多或者特别大时),也可能比这个要小(比如文件只有一个而且很小时),如果没有指定最小partition数量,初始化完成的rdd默认有多少个partition是怎样决定的呢? 以SparkContext.textfile为例来看下代码: org.apache.spark.SparkContext /** * Re…

【原创】大数据基础之Spark（6）Spark Rdd Sort实现原理

spark 2.1.1 spark中可以通过RDD.sortBy来对分布式数据进行排序,具体是如何实现的?来看代码: org.apache.spark.rdd.RDD /** * Return this RDD sorted by the given key function. */ def sortBy[K]( f: (T) => K, ascending: Boolean = true, numPartitions: Int = this.partitions.length) (implic…

【原创】大数据基础之Flink（1）简介、安装、使用

Flink 1.7 官方:https://flink.apache.org/ 一简介 Apache Flink is an open source platform for distributed stream and batch data processing. Flink’s core is a streaming dataflow engine that provides data distribution, communication, and fault tolerance for…

【原创】大数据基础之ORC（1）简介

https://orc.apache.org Optimized Row Columnar (ORC) file 行列混合存储层次结构: file -> stripes -> row groups(10000 rows) Background Back in January 2013, we created ORC files as part of the initiative to massively speed up Apache Hive and improve the storage…

【原创】大数据基础之ElasticSearch（1）简介、安装、使用

ElasticSearch 6.6.0 官方:https://www.elastic.co/ 一简介 ElasticSearch简单来说是对lucene的分布式封装,增加了shard(每个shard是一个子索引,也是一个lucene的index)和replica的概念:所以在ElasticSearch也可以见到lucene中的概念,比如index.document等. Elasticsearch is a highly scalable open-source full-text search…

【原创】大数据基础之ElasticSearch（2）常用API整理

Fortunately, Elasticsearch provides a very comprehensive and powerful REST API that you can use to interact with your cluster. Among the few things that can be done with the API are as follows: Check your cluster, node, and index health, status, and…

【原创】大数据基础之Impala（2）实现细节

一架构 Impala is a massively-parallel query execution engine, which runs on hundreds of machines in existing Hadoop clusters. It is decoupled from the underlying storage engine, unlike traditional relational database management systems where the query…

【原创】大数据基础之ElasticSearch（4）es数据导入过程

1 准备analyzer 内置analyzer 参考:https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-analyzers.html 中文分词 smartcn 参考:https://www.elastic.co/guide/en/elasticsearch/plugins/current/analysis-smartcn.html ik $ bin/elasticsearch-plugin insta…

【【原创】大数据基础之Ambari（4）通过Ambari部署Impala】的更多相关文章

【原创】大数据基础之Kerberos（2）hive impala hdfs访问

大数据基础环境--jdk1.8环境安装部署

【原创】大数据基础之Zookeeper（2）源代码解析

【原创】大数据基础之Impala（1）简介、安装、使用

【原创】大数据基础之Ambari（1）简介、编译安装、使用

【原创】大数据基础之词频统计Word Count

【原创】大数据基础之Benchmark（2）TPC-DS

大数据基础知识问答----hadoop篇

大数据基础知识：分布式计算、服务器集群[zz]

大数据基础知识问答----spark篇，大数据生态圈

学习大数据基础框架hadoop需要什么基础

hadoop大数据基础框架技术详解

大数据基础总结---HDFS分布式文件系统

【原创】大数据基础之Ambari（2）通过Ambari部署ElasticSearch（ELK）

【原创】大数据基础之Ambari（3）通过Ambari部署Airflow

【原创】大数据基础之Ambari（4）通过Ambari部署Impala

【原创】大数据基础之Ambari（5）通过Ambari部署Hue

【原创】大数据基础之Logstash（4）高可用

【原创】大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）

【原创】大数据基础之Spark（6）Spark Rdd Sort实现原理

【原创】大数据基础之Flink（1）简介、安装、使用

【原创】大数据基础之ORC（1）简介

【原创】大数据基础之ElasticSearch（1）简介、安装、使用

【原创】大数据基础之ElasticSearch（2）常用API整理

【原创】大数据基础之Impala（2）实现细节

【原创】大数据基础之ElasticSearch（4）es数据导入过程

【原创】大数据基础之Logstash（1）简介、安装、使用

【原创】大数据基础之Hive（5）性能调优Performance Tuning

【原创】大数据基础之Spark（5）Shuffle实现原理及代码解析

【原创】大数据基础之Spark（4）RDD原理及代码解析