以前都是玩 java,没搞过 hadoop,所以以此系列文章来记录下学习过程 安装的文件版本.操作系统说明 centos-6.5-x86_64 [bamboo@hadoop-senior opt]$ uname -a Linux hadoop-senior.bamboo.com 2.6.32-696.16.1.el6.x86_64 jdk.hadoop [bamboo@hadoop-senior softwares]$ ll total 443172 -rw-r--r--. 1 bamboo b…
接着上一篇文章,继续我们 hadoop 的入门案例. 1. 修改 core-site.xml 文件 [bamboo@hadoop-senior hadoop-2.5.0]$ vim etc/hadoop/core-site.xml 添加如下的配置: <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop-senior.bamboo.com:8020<…
Hadoop的本地模式为Hadoop的默认模式,不需要启用单独进程,直接可以运行,测试和开发时使用. 在<啃掉Hadoop系列笔记(02)-Hadoop运行环境搭建>中若环境搭建成功,则直接可以使用本地模式. 在这里我们运行官方的两个案例 1.官方grep案例 1)在hadoop-2.7.2文件夹下面创建一个input文件夹…
 转载请在页首明显处注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/6384393.html 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6.4 二:准备工作 2.1:准备 安装虚拟机 在虚拟机中安装centos操作系统,我安装了四个,主机名分别为server1到server4,具体可以随意安装,不限制数量,当然,如果是集群那就要两台以上…
一.Hadoop是什么 1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构 2)主要解决,海量数据的存储和海量数据的分析计算问题. 3)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈 二.Hadoop发展历史 1)Lucene--Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎 2)2001年年底成为apache基金会的一个子项目 3)对于大数量的场…
1. 介绍 Redis is an open source (BSD licensed), in-memory data structure store, used as database, cache and message broker. 这是官方的定义.说它是一个数据库,且是把数据存到内存中,能用作cache(缓存)和消息队列.说到数据库,可能大家用得最多的是关系型数据库,比如MySQL,PostgreSQL等.这种数据库是把数据存到磁盘中的,这种能存大量的数据,然而我们的应用是经常需要访…
[一].环境参数 eclipse-java-kepler-SR2-linux-gtk-x86_64.tar.gz //现在改为eclipse-jee-kepler-SR2-linux-gtk-x86_64.tar.gz Hadoop1.0.3 Java 1.8.0 Ubuntu 12.04  64bit [二].安装配置 1.复制生成的 hadoop-eclipse-plugin-1.0.3.jar 到 eclipse/plugins 路径下,重启eclipse即可. 2.在eclipse菜单依…
这篇文章里我们将用配置 YARN,在 YARN 上运行 MapReduce. 1.修改 yarn-env.sh 环境变量里的 JAVA_HOME 路径 [bamboo@hadoop-senior hadoop-2.5.0]$ vim etc/hadoop/yarn-env.sh export JAVA_HOME=/opt/modules/jdk1.7.0_67   2.修改 etc/hadoop/yarn-site.xml,添加如下的两个属性   <configuration> <pro…
Hadoop适合应用于大数据存储和大数据分析的应用,适合于服务器几千台到几万台的集群运行,支持PB级的存储容量.Hadoop典型应用有:搜索.日志处理.推荐系统.数据分析.视频图像分析.数据保存等.但是Hadoop的使用范围远小于SQL或Python之类的脚本语言,所以不要盲目使用Hadoop.不过作为一名钻研Java的物联网工程师,我觉得值得去学习了解,而且想和大数据打交道还没有那个没听过Hadoop的. Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理…
伪分布式模式等同于完全分布式,只是她只有一个节点. 一) HDFS上运行MapReduce 程序 (1)配置集群 (a)配置:hadoop-env.sh Linux系统中获取jdk的安装路径:…