Hadoop生态优秀文章集锦

如何用形象的比喻描述大数据的技术生态?Hadoop.Hive.Spark 之间是什么关系? https://www.zhihu.com/question/27974418 HBase 和 Hive 的差别是什么,各自适用场景? https://www.zhihu.com/question/21677041…

java 优秀文章集锦

一个简易的静态网页服务器 https://www.cnblogs.com/longfurcat/p/10355514.html 浅析Servlet执行原理 https://www.cnblogs.com/wangjiming/p/10360327.html…

基于Hadoop生态SparkStreaming的大数据实时流处理平台的搭建

随着公司业务发展,对大数据的获取和实时处理的要求就会越来越高,日志处理.用户行为分析.场景业务分析等等,传统的写日志方式根本满足不了业务的实时处理需求,所以本人准备开始着手改造原系统中的数据处理方式,重新搭建一个实时流处理平台,主要是基于hadoop生态,利用Kafka作为中转,SparkStreaming框架实时获取数据并清洗,将结果多维度的存储进HBase数据库. 整个平台大致的框架如下: 操作系统:Centos7 用到的框架: 1. Flume1.8.0 2. Hadoop2.9.0 3.…

SQL Server复制出错文章集锦

SQL Server复制出错文章集锦为了方便大家对数据库复制过程中出错的时候更好地解决问题本人收集了SQL Server相关复制出错解决的文章 The process could not execute 'sp_repldone/sp_replcounters' on 'ServerName' 潇湘隐者事物复制遇到的几个错误万剑齐发一个事务复制的bug--更新丢失续 stswordman 复制中发布服务器和订阅服务器内容不一致的解决办法 CareySon 一个事务复制的bug--…

(转)Hadoop之常见错误集锦

Hadoop之常见错误集锦下文中没有特殊说明,环境都是CentOS下Hadoop 2.2.0.1.伪分布模式下执行start-dfs.sh脚本启动HDFS时出现如下错误: vi打开libexec/hadoop-config.sh中,查找JAVA_HOME is not set and could not be found,找到后在这一行if [[ -z $JAVA_HOME ]]; then的前面添加如下语句即可: expor…

Hadoop家族系列文章

转自:http://blog.fens.me/series-hadoop-family/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进…

安装高可用Hadoop生态（一）准备环境

为了学习Hadoop生态的部署和调优技术,在笔记本上的3台虚拟机部署Hadoop集群环境,要求保证HA,即主要服务没有单点故障,能够执行最基本功能,完成小内存模式的参数调整. 1. 准备环境 1.1. 规划克隆3台服务器,主机名和IP如下主机名 IP 软件 hadoop 192.168.154.128 原始虚拟机用于克隆 hadoop1 192.168.154.3 Zookeeper,journalnode Namenode, zkfc, Resourcemanager hadoop2…

Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别 Pig

Hadoop生态上几个技术的关系与区别:hive.pig.hbase 关系与区别 Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了.当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护.不过现在还是有些公司在用,不过我认为与其使用pig不如使用hive.:) 关系与区别 Pig"> Pig是一种数据流语言,用来快速轻松的处理巨大的数据. Pig包含两个部分:Pig Interface,Pig Latin. Pig可以非常方便…

Hadoop演进与Hadoop生态

1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现. (1)0.20.0~0.20.2: Hadoop的0.20分支非常稳定,虽然看起来有些落后,但是经过生产环境考验,是 Hadoop历史上生命周期最长的一个分支,CDH3.CDH4虽然包含了0.21和0.22分支的新功能和补丁,但都是基于此分支. (2)0.20- append:020- append支持HDFS追加,由于该功能被认为是一个不稳定的潜在因素,所以它被单独新开了一个分支,并且没有任何新的 Hadoop的正式版基于此分支发…

Hadoop生态常用数据模型

Hadoop生态常用数据模型一.TextFile 二.SequenceFile 1.特性 2.存储结构 3.压缩结构与读取过程 4.读写操作三.Avro 1.特性 2.数据类型 3.avro-tools应用 4.在Hive中使用Avro 5.在Spark中使用Avro 四.Parquet 1.特性 2.数据结构 3.Java API 4.Parquet On Spark 5.Parquet On Hive 五.RC&ORC 1.特性 2.存储结构RC (Record Columnar)ORC…

【Hadoop生态优秀文章集锦】的更多相关文章