Hadoop是一个由Apache基金会所开发的分布式系统基础架构. Hadoop是一个专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式. Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元. 用函数式变成Mapreduce代替…
本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 从零自学Hadoop(01):认识Hadoop 从零自学Hadoop(02):环境准备 从零自学Hadoop(03):Linux准备上 从零自学Hadoop(04):Linux准备下 从零自学Hadoop(05):Ambari 从零自学Hadoop(06):集群搭建 从零自学Hadoop(07):Eclipse插件 从零自学Hadoop(08):…
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/35 本文地址:http://www.showmeai.tech/article-detail/227 声明:版权所有,转载请联系平台与作者并注明出处 收藏ShowMeAI查看更多精彩内容 本系列为吴恩达老师<深度学习专业课程>学习与总结整理所得,对应的课程视频可以在这里查看. 引言 在ShowMeAI前一篇文章 自然语言处理与词嵌入 中我们对以下内容进行了介绍: 词嵌入与迁移学习/…
下述教程本人在最新版的-jre openjdk-7-jdk OpenJDK 默认的安装位置为: /usr/lib/jvm/java-7-openjdk-amd64 (32位系统则是 /usr/lib/jvm/java-7-openjdk-i86 ,可通过命令dpkg -L openjdk-7-jdk查看到).安装完后就可以使用了,可以用 java -version 检查一下. 接着需要配置一下 JAVA_HOME 环境变量,为方便,我们在 ~/.bashrc 中进行设置(扩展阅读: 设置Linu…
    主要是在自学一些根据以下两份文档来自己摸索.第二份文档是最后的时候,碰到一个问题的搜到的,因为觉得不错.所以放在这里.如果只是想要能跑起来的话,直接跟着这篇文章做.就可以.hadoop版本为2.0.5 http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html http://www.cnblogs.com/JulyZhang/p/3156876.html 下面来列举我…
阅读目录 序 介绍 Observer操作 示例下载 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们讲述了HBase的数据模型相关操作的下部分.   下面我们开始介绍HBase的协处理器部分. 介绍 一:介绍 从0.92版本开始,HBase加入了协处理器(coprocessors),利用协处理器,用户可以编写运行在 HBase Server 端的代码.可以实现“二级索…
阅读目录 序 介绍 命名空间 表 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们讲述了HBase的介绍及安装,从列图和引用的方式,列举的HBase能做什么及一些特点,也截图了HBase的安装过程.   下面我们开始介绍HBase的数据模型相关操作,该部分内容较多,分成两个部分. 介绍 一:Data Model Data Model包括Table(表),Row(行),…
阅读目录 序 变量 数据模型操作 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们讲述了HBase的数据模型相关操作的上部分.   下面我们开始介绍HBase的数据模型相关操作的下部分. 变量 一:定义变量 这样我们就可以使用t这个变量来代替table1了. t=get_table 'table1' 二:使用 t.put 'row1','cf1:a','v1' t.g…
阅读目录 序 介绍 安装 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们讲述了Hive的CLI和JDBC,从编程和使用的角度进入了Hadoop生态.这里就介绍下Hadoop DataBase,简称HBase.   下面我们开始介绍HBase的介绍及安装. 介绍 一:定义 HBase是一个分布式的.面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Goog…
阅读目录 序 Hive CLI(old CLI) Beeline CLI(new CLI) JDBC Demo下载 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们对hive的数据导出,以及集群Hive数据的迁移进行描述.了解到了基本的hive导出操作.这里,我们将对hive的CLI及JDBC这些实用性很强的两个方便进行简要的介绍.   下面我们开始介绍hive的CL…