hadoop的调试

折腾hadoop的调试很久了,一直都没折腾对,查过很多资料,但是都没试出来,最终在不断地尝试当中调试出来了,所以想把这个过程记录下来,和大家分享一下. 调试分为两部分,MapReduce的调试和源码的调试. MapReduce的调试很简单,首先要部署好hadoop,这个我就不说了,自己去百度.部署好之后,下载Hadoop对应的eclipse插件,有了这个插件之后,变得异常简单. 这是我在网上下的hadoop1.1.2的eclipse插件的地址:http://download.csdn.net/d…

通过win下的eclipse连接虚拟机中伪分布的hadoop进行调试

VMware虚拟机配置Ubuntu桥接方式(Bridged)使虚拟机和宿主机能互相ping通, 通过win下的eclipse连接虚拟机中伪分布的hadoop进行调试 1.设置Bridged上网方式 Vmware菜单栏VM->settings->Network Adapter或者Ctrl+D 2.查看Bridged状态 Vmware菜单栏Edit->Virtual Network Editor 要设置成以上bridged模式,先关闭虚拟机,不关闭设置会提示只有虚拟机在power off状态…

hadoop本地调试方法

Mapreduce 是Hadoop上一个进行分布式数据运算和统计的框架,但是每次运行程序的时候都需要将程序打包并上传的集群环境中运行,这就会让程序的调试变得十分不方便.所以在这里写下这篇博客和大家交流学习如何在本地调试Mapreduce程序. 本地是windows系统,文件路径也是本地首先需要将编译后的windos放入解压后的hadoop解压包的bin目录下,还有hadoop,dll文件不同版本的windows对应的winutils.exe是不同的.具体编译方法,网上可以找到相关教程这里就不…

Hadoop本地调试

windows上先调试该程序,然后再转到linux下. 程序运行的过程中, 报 Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null \bin\winutils.exe in the Hadoop binaries. 1.将windows编译的hadoop源码里面的bin目录拷贝到安装hadoop解压包bin目录下(网…

【转】使用vnc连接linux服务器方便hadoop开发调试

VNC(Virtual Network Computing)它能将完整的窗口界面通过网络,传输到另一台计算机的屏幕上. 类似的软件在Windows服务器中包含的"Terminal Server".Symantec公司开发的收费软件PCAnywhere.近期流行的Teamviewer.国内的协通XT800(快递通KDT)都是属于这种原理的设计它是免费的, 以及可用于数量庞大的不同操作系统, 它的简单,可靠,和向后兼容性, 使之进化成为最为广泛使用的远程控制软件,多平台的支持对网络管理员…

windows下Eclipse远程连接linux hadoop远程调试经验(一)

环境 Windows 7 64bit JDK 1.6.0_45 (i586) JDK 1.7.0_51 (i586) Eclipse Kepler Eclipse -plugin-1.2.1.jar Hadoop 1.2.1 (32位的库) 服务器 hadoop与本机的hadoop版本完全一致. Note:我设置的Hadoop Master的用户名是 root 正确配置本机不需要改windows用户名 JDK编译器 1.6 和 1.7 应该都行.1.7目前没试过,推荐有兴趣的人试…

Hadoop学习之配置Eclipse远程调试Hadoop

构建完毕Hadoop项目后,接下来就应该跟踪Hadoop的运行情况,比方在命令行运行hadoop namenode–format时运行了Hadoop的那些代码.当然也能够直接通过阅读源码的方式来做到这一点,但跟踪代码的运行情况更加直观,更easy理解. 动手配置Eclipse调试Hadoop之前,先大概学习一下JPDA(Java Platform Debugger Architecture,Java平台调试结构).JPDA是一个多层的调试架构,使工具开发人员能够easy地创建跨平台的,跨VM实现…

Eclipse远程调试hadoop源码

1. 修改对应调试端口之前的一篇blog里讲述了hadoop单机版调试的方法,那种调试只限于单机运行hadoop命令而已,对于运行整个hadoop环境而言是不可取的,因为hadoop会开启多个java进程,如果统一为一个端口启动,则启动会报错说端口被占用,同时对于jdwp agent而言也只能加载一次,故调试时单机只能有一个java进程开启debug模式,其实这个也足够了. 通过分析hadoop的启动脚本不难发现,每个java进程的启动参数可以在hadoop-env.sh这个文件里传递进去,故…

从wordcount 开始 mapreduce (C++\hadoop streaming模式)

序:终于开始接触hadoop了,从wordcount开始 1. 采用hadoop streamming模式优点:支持C++ pathon shell 等多种语言,学习成本较低,不需要了解hadoop内部结构调试方便:cat input | ./map | sort | ./reduce > output hadoop 就是提供了一个分布式平台实现了上述脚本的功能,这是一次mapreduce的过程一个例子: #!/bin/bash source build.env $hadoop_bin f…

Hadoop 入门

我看过的比较全的文章.赞一下原文链接:http://www.aboutyun.com/thread-8329-1-1.html 问题导读: 1.hadoop编程需要哪些基础?2.hadoop编程需要注意哪些问题?3.如何创建mapreduce程序及其包含几部分?4.如何远程连接eclipse,可能会遇到什么问题?5.如何编译hadoop源码? 阅读此篇文章,需要些基础下面两篇文章零基础学习hadoop到上手工作线路指导(初级篇) http://www.aboutyun.com/thread-6…

部署hadoop的开发环境

第一步:安装jdk 由于hadoop是java开发的,所以需要JDK来运行代码.这里安装的是jdk1.6. jdk的安装见http://www.cnblogs.com/tommyli/archive/2012/01/06/2314706.html 第二步:创建独立的用户 useradd hadoop passwd hadoop 有些机器不能设置空密码的时候 passwd -d hadoop 这里的用户名为hadoop,如果你要调试的时候要注意名字. 比如我用windows调试linux的集群,这…

零基础学习hadoop到上手工作线路指导（编程篇）

问题导读: 1.hadoop编程需要哪些基础? 2.hadoop编程需要注意哪些问题? 3.如何创建mapreduce程序及其包含几部分? 4.如何远程连接eclipse,可能会遇到什么问题? 5.如何编译hadoop源码? 阅读此篇文章,需要些基础下面两篇文章零基础学习hadoop到上手工作线路指导(初级篇) 零基础学习hadoop到上手工作线路指导(中级篇) 如果看过的话,看这篇不成问题,此篇讲hadoop编程篇. hadoop编程,hadoop是一个Java框架,同时也是编程的一次革命,…

hadoop之计数器和管道的mrunit测试

引言 hadoop的调试真心让人灰常恼火,而且从企业实际出发,集群的资源是有限的,不可能在集群上跑一遍又一遍根据log去调试代码,那么使用MRUnit编写测试单元,显得尤为重要.MRUnit中的MapReduce Driver可以测试一组Map/Reduce或者Combiner. PipelineMapReduceDriver可以测试Map/Reduce作业工作流.目前,MRUnit还没有Partitioner对应的驱动. MRUnit使开发人员在面对Hadoop特殊的架构的时候也能进行TDD和…

使用配置hadoop中常用的Linux(ubuntu)命令

生成key: $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys -t 密钥类型可以用 -t 选项指定.如果没有指定则默认生成用于SSH-2的RSA密钥. -f filename 指定密钥文件名. 来源:http://www.aboutyun.com/thread-6487-1-1.html 远程登录执行sh…

hadoop之mapreduce编程实例(系统日志初步清洗过滤处理)

刚刚开始接触hadoop的时候,总觉得必须要先安装hadoop集群才能开始学习MR编程,其实并不用这样,当然如果你有条件有机器那最好是自己安装配置一个hadoop集群,这样你会更容易理解其工作原理.我们今天就是要给大家演示如何不用安装hadoop直接调试编程MapReduce函数. 开始之前我们先来理解一下mapreduce的工作原理: hadoop集群是有DataNode和NameNode两种节点构成,DataNode负责存储数据本身而NameNode负责存储数据的元数据信息,在启动mapre…

Hadoop YARN学习之监控集群监控Nagios（4）

doop YARN学习之监控集群监控Nagios(4) 1. Nagios是一个流行的开源监控工具,可以用来监控Hadoop集群. 2. 监控基本的Hadoop服务调试好脚本后命名为chek_resource_manager.sh,并把它放在Nagios的插件目录中. 加载Nagios插件向hadoop-cluster.cfg添加如下信息 define command{ command_name check_resource_manager command_line /usr/lib64/na…

spark streaming 实时计算

spark streaming 开发实例本文将分以下几部分 spark 开发环境配置如何创建spark项目编写streaming代码示例如何调试环境配置: spark 原生语言是scala, 我用的是spark-1.4.1-bin-hadoop2.6,可以查阅官方说明,用的是scala-2.10.1. 网上下载 scala-2.10.1 安装包.解压即可. 配置环境变量:SCALA_HOME…

指导手册06：HBase安装部署

指导手册06:HBase安装部署配置环境 1.参考文件: https://www.cnblogs.com/lzxlfly/p/7221890.html https://www.cnblogs.com/sixiweb/archive/2013/02/20/2919305.html 2.操作系统:centos 3.四台虚拟机:master :10.0.2.4, slave1:10.0.2.5,slave2:10.0.2.6,slave3:10.0.2.7 4.Hadoop系统己安装完成. 5.Ja…

Spark历险记之编译和远程任务提交

Spark简介 Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架.Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL.Spark Streaming.MLLib和GraphX等组件,也就是BDAS(伯克利数据分析栈),这些组件逐渐形成大数据处理一站式…

eclipse远程调试Hadoop

环境需求: 系统:window 10 eclipse版本:Mars Hadoop版本:2.6.0 资源需求:解压后的Hadoop-2.6.0,原压缩包自行下载:下载地址丑话前头说: 以下的操作中,eclipse的启动均需要右键“管理员运行”! 在创建MapReduce的Project那块需要配置log4j(级别是debug),否则打印不出一些调试的信息,从而不好找出错的原因.配置这个log4j很简单,大家可以在网上搜索一下,应该可以找得到相关的配置. 1)首先需要利用ant编译自己的Hadoo…

eclipse/intellij idea 远程调试hadoop 2.6.0

很多hadoop初学者估计都我一样,由于没有足够的机器资源,只能在虚拟机里弄一个linux安装hadoop的伪分布,然后在host机上win7里使用eclipse或Intellj idea来写代码测试,那么问题来了,win7下的eclipse或intellij idea如何远程提交map/reduce任务到远程hadoop,并断点调试? 一.准备工作 1.1 在win7中,找一个目录,解压hadoop-2.6.0,本文中是D:\yangjm\Code\study\hadoop\hadoop-2.…

琐碎-关于Windows调试hadoop

http://www.aboutyun.com/thread-7784-1-1.html 今天早上看了这个文章后我有点疑问,所以特地实践了一把. 之前也遇到了调试的时候 org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 这样的问题按网上的替换bin 照样报错,解决办法也是改了源码,return true后就可以了.之前的环境是Windows64.jdk32.eclipse32.Linux32…

远程调试hadoop各组件

远程调试对应用程序开发十分有用.例如,为不能托管开发平台的低端机器开发程序,或在专用的机器上(比如服务不能中断的 Web 服务器)调试程序.其他情况包括:运行在内存小或 CUP 性能低的设备上的 Java 应用程序(比如移动设备),或者开发人员想要将应用程序和开发环境分开,等等. 为了进行远程调试,必须使用 Java Virtual Machine (JVM) V5.0 或更新版本. JPDA 简介 Sun Microsystem 的 Java Platform Debugger Archite…

hadoop之mapreduse 在Eclipse下的调试环境篇

搭建完毕环境后,開始调试mapreduse程序. 可是遇到不停的报错.本人非常讨厌在自己的操作系统环境变量里设置来设置去,包含linux也是. 通常喜欢把设置环境变量在启动程序的脚本中.让脚本自己执行的环境中有合适的环境变量值就可以. 在Eclipse里,我估计须要设置hadoop_home变量的值,设置后,无论怎么调试. 都报错: Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.…

hadoop源码调试

原文地址:http://www.cnblogs.com/end/archive/2011/04/26/2029497.html 在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运行机制比较复杂,因而出现了问题的时候比较难于发现问题. 本文欲通过某种方式跟踪Hadoop的运行痕迹,方便出现问题的时候可以通过这些痕迹来解决问题. 一.环境的搭建为了能够跟踪这些运行的痕迹,我们需要搭建一个特殊的环境,从而可以一步步的查看上一节提到的一些关键步骤所引起的变化. 我们首先搭建一个…

Windows下调试hadoop

1. 本地模式本地模式下调试hadoop:下载winutils.exe和hadoop.dll hadoop.lib等windows的hadoop依赖文件放在D:\proc\hadoop\bin目录下并设置环境变量:HADOOP_HOME=D:\proc\hadoop 添加PATH=%HADOOP_HOME%\bin D:\proc\hadoop 是一个空目录就可以. 机器是32位的请下载,机器是64位的请下载; 关闭eclipse再重新启动来获取新的环境变量. 然后创建WorldCoun…

用python + hadoop streaming 编写分布式程序（一） -- 原理介绍，样例程序与本地调试

相关随笔: Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(二) -- 在集群上运行与监控用python + hadoop streaming 编写分布式程序(三) -- 自定义功能 MapReduce与HDFS简介什么是Hadoop? Google为自己的业务需要提出了编程模型MapReduce和分布式文件系统Google File System,并发布了相关论文(可在Google Research的网站上获得: GFS . Ma…

windows本地调试安装hadoop（idea） : ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path

1,本地安装hadoop https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 下载hadoop对应版本 (我本意是想下载hadoop 2.7.2没有了) 2, 解压D:\devtool ,3,下载winutils 等一系列东西保证windows下能使用hadoop 不然本地调试会报错:ERROR util.Shell: Failed to locate the winutils binary in the hadoop bin…

远程调试Hadoop

远程调试对应用程序开发十分有用,那如何调试Hadoop源码?这里介绍如何用IDE远程调试Hadoop源码.本文以IntelliJ IDEA作为IDE,以调试Jobhistory WEB UI代码为例进行说明. 第一步:在启动Hadoop历史服务器进程之前在终端加入以下环境配置: [wyp@date52 /home/wyp/hadoop]$ export HADOOP_OPTS="-Xdebug \ -Xrunjdwp:transport=dt_socket,server=y,suspend=y,…

hadoop下远程调试方法

JPDA 简介Sun Microsystem 的 Java Platform Debugger Architecture (JPDA) 技术是一个多层架构,使您能够在各种环境中轻松调试 Java 应用程序.JPDA 由两个接口(分别是 JVM Tool Interface 和 JDI).一个协议(Java Debug Wire Protocol)和两个用于合并它们的软件组件(后端和前端)组成.它的设计目的是让调试人员在任何环境中都可以进行调试.更详细的介绍,您可以参考使用 Eclipse 远程调…

【hadoop的调试】的更多相关文章