异常:
Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-dell\mapred\staging\dell1008071661\.staging to 0700
    at org.apache.hadoop.fs.FileUtil.checkReturnValue(FileUtil.java:691)
    at org.apache.hadoop.fs.FileUtil.setPermission(FileUtil.java:664)
原因:
hadoop在windows下文件权限问题,在linux不存在这个问题。
解决方法:
1 代码的修改:
笔者使用的是nutch-1.7,对应的hadoop版本为1.2.0 下载地址:(hadoop-core-1.2.0
在下载的release-1.2.0\src 下搜索 ‘FileUtil’ ,然后修改:
private static void checkReturnValue(boolean rv, File p, FsPermission permission)  {
/**
if (!rv) {
throw new IOException("Failed to set permissions of path: " + p +
" to " +
String.format("%04o", permission.toShort()));
}
**/
}

  

2 hadoop的编译:(不需要导入eclipse)
环境:Cygwin,Ant
Ant后会生成:\release-1.2.0\build\hadoop-core-1.2.1-SNAPSHOT.jar
改名为 hadoop-core-1.2.0 覆盖 \apache-nutch-1.7\lib\hadoop-core-1.2.0.jar即可。


异常
java.io.IOException: Job failed!
解决方案:

Src中的:
<property>
<name>plugin.folders</name>
<value>./src/plugin</value>
<description>./src/pluginDirectories where nutch plugins are located. Each
element may be a relative or absolute path. If absolute, it is used
as is. If relative, it is searched for on the classpath.</description>
</property> 记住是单数哦 bin中的:
plugin文件夹是单数,所以这里要做一下修改。
<property>
<name>plugin.folders</name>
<value>./src/plugins</value>
<description>./src/pluginDirectories where nutch plugins are located. Each
element may be a relative or absolute path. If absolute, it is used
as is. If relative, it is searched for on the classpath.</description>
</property>
异常:nutch下载的html不完整的因素
1 http://news.163.com/ skipped. Content of size 481597 was truncated to 65376
解决方案:
将conf/nutch-default.xml 将 parser.skip.truncated 为false 2 http请求的字节限制
<property>
  <name>http.content.limit</name>
  <value>-1</value>
  <description>The length limit for downloaded content using the http://
  protocol, in bytes. If this value is nonnegative (>=0), content longer
  than it will be truncated; otherwise, no truncation at all. Do not
  confuse this setting with the file.content.limit setting.
  </description>
</property>
异常:
种子添加了,http://www.gov.cn/
regex-urlfilter.txt 中添加了 +^http://www.gov.cn/
配置完全没错,但是爬虫却没采集到任何东西
原因:
对方设置了机器人协议。
解决方案:
如果要修改:Fetcher 类
/**
if (!rules.isAllowed(fit.u.toString())) {
// unblock
fetchQueues.finishFetchItem(fit, true);
if (LOG.isDebugEnabled()) {
LOG.debug("Denied by robots.txt: " + fit.url);
}
output(fit.url, fit.datum, null, ProtocolStatus.STATUS_ROBOTS_DENIED, CrawlDatum.STATUS_FETCH_GONE);
reporter.incrCounter("FetcherStatus", "robots_denied", 1);
continue;
}**/
异常 : unzipBestEffort returned null

转载自:http://blog.chinaunix.net/uid-8345138-id-3358621.html

Nutch爬虫爬取某网页是出现下列异常:

ERROR http.Http (?:invoke0(?)) - java.io.IOException: unzipBestEffort returned null
ERROR http.Http (?:invoke0(?)) - at org.apache.nutch.protocol.http.api.HttpBase.processGzipEncoded(HttpBase.java:472)
ERROR http.Http (?:invoke0(?)) - at org.apache.nutch.protocol.http.HttpResponse.<init>(HttpResponse.java:151)
ERROR http.Http (?:invoke0(?)) - at org.apache.nutch.protocol.http.Http.getResponse(Http.java:63)
ERROR http.Http (?:invoke0(?)) - at org.apache.nutch.protocol.http.api.HttpBase.getProtocolOutput(HttpBase.java:208)
ERROR http.Http (?:invoke0(?)) - at org.apache.nutch.fetcher.Fetcher$FetcherThread.run(Fetcher.java:173)

经过调试发现异常来源于:

java.io.IOException: Not in GZIP format
at java.util.zip.GZIPInputStream.readHeader(GZIPInputStream.java:137)
at java.util.zip.GZIPInputStream.<init>(GZIPInputStream.java:58)
at java.util.zip.GZIPInputStream.<init>(GZIPInputStream.java:68)

该异常原因:

此页面采用这个是一个分段传输,而nutch爬虫则默认采用了非分段式处理,导致构造GZIP时出错,从而影响了后面的GZIP解压失败。

是否是分段传输可以在Http headers里面看到,如果是分段传输则有:transfer-encoding:chunked这样一个响应。

处理方法:

1. 修改接口org.apache.nutch.metadata.HttpHeaders, 添加:

  1. public final static String TRANSFER_ENCODING = "Transfer-Encoding";

2. 在nutch中的org.apache.nutch.protocol.http.HttpResponse类中已经提供了分段传输类型的处理方法:

  1. private void readChunkedContent(PushbackInputStream in,
  2. StringBuffer line)

我们只需要在HttpResponse的构造方法总调用该方法即可,添加如下代码:

  1. String transferEncoding = getHeader(Response.TRANSFER_ENCODING);
  2. if(transferEncoding != null && transferEncoding.equalsIgnoreCase("chunked")){
  3. StringBuffer line = new StringBuffer();
  4. this.readChunkedContent(in, line);
  5. }else{
  6. readPlainContent(in);
  7. }

修改完成,运行测试。

刚才不能爬取的站点终于可以爬取了

=========================================================

注:

1.有两个HttpResponse类,一个在protocol.http里面,一个在protocol.httpclient里面,我们需要修改的是前者。

2.Nutch2.0已将readChunkedContent方法删掉,故贴上Nutch1.5的方法,将这个方法放入HttpResponse:

点击(此处)折叠或打开

  1. private void readChunkedContent(PushbackInputStream in, StringBuffer line)
  2. throws HttpException, IOException {
  3. boolean doneChunks = false;
  4. int contentBytesRead = 0;
  5. byte[] bytes = new byte[Http.BUFFER_SIZE];
  6. ByteArrayOutputStream out = new ByteArrayOutputStream(Http.BUFFER_SIZE);
  7. while (!doneChunks) {
  8. if (Http.LOG.isTraceEnabled()) {
  9. Http.LOG.trace("Http: starting chunk");
  10. }
  11. readLine(in, line, false);
  12. String chunkLenStr;
  13. // if (LOG.isTraceEnabled()) { LOG.trace("chunk-header: '" + line +
  14. // "'"); }
  15. int pos = line.indexOf(";");
  16. if (pos < 0) {
  17. chunkLenStr = line.toString();
  18. } else {
  19. chunkLenStr = line.substring(0, pos);
  20. // if (LOG.isTraceEnabled()) { LOG.trace("got chunk-ext: " +
  21. // line.substring(pos+1)); }
  22. }
  23. chunkLenStr = chunkLenStr.trim();
  24. int chunkLen;
  25. try {
  26. chunkLen = Integer.parseInt(chunkLenStr, 16);
  27. } catch (NumberFormatException e) {
  28. throw new HttpException("bad chunk length: " + line.toString());
  29. }
  30. if (chunkLen == 0) {
  31. doneChunks = true;
  32. break;
  33. }
  34. if ((contentBytesRead + chunkLen) > http.getMaxContent())
  35. chunkLen = http.getMaxContent() - contentBytesRead;
  36. // read one chunk
  37. int chunkBytesRead = 0;
  38. while (chunkBytesRead < chunkLen) {
  39. int toRead = (chunkLen - chunkBytesRead) < Http.BUFFER_SIZE ? (chunkLen - chunkBytesRead)
  40. : Http.BUFFER_SIZE;
  41. int len = in.read(bytes, 0, toRead);
  42. if (len == -1)
  43. throw new HttpException("chunk eof after "
  44. + contentBytesRead + " bytes in successful chunks"
  45. + " and " + chunkBytesRead + " in current chunk");
  46. // DANGER!!! Will printed GZIPed stuff right to your
  47. // terminal!
  48. // if (LOG.isTraceEnabled()) { LOG.trace("read: " + new
  49. // String(bytes, 0, len)); }
  50. out.write(bytes, 0, len);
  51. chunkBytesRead += len;
  52. }
  53. readLine(in, line, false);
  54. }
  55. if (!doneChunks) {
  56. if (contentBytesRead != http.getMaxContent())
  57. throw new HttpException(
  58. "chunk eof: !doneChunk && didn't max out");
  59. return;
  60. }
  61. content = out.toByteArray();
  62. parseHeaders(in, line);
  63. }

3.修改构造方法的地方在call readPlainContent的地方。

could only be replicated to  nodes, instead of 

周末机房断电,然后hadoop爆出如题的错误,解决方案就是关闭所有节点的防火墙,相关命令如下:

查看防火墙状态:
/etc/init.d/iptables status
暂时关闭防火墙:
/etc/init.d/iptables stop
禁止防火墙在系统启动时启动
/sbin/chkconfig --level iptables off
重启iptables:
/etc/init.d/iptables restart

nutch 异常集锦的更多相关文章

  1. 【Apache Nutch系列】Nutch2.0配置安装异常集锦

    1.java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration Exception in thread &qu ...

  2. SP Flash Tool使用异常集锦

    1.The load scatter file is invalid无法载入scatter文件 (ubuntu下)我如果我们在使用MTK的Smart Phone Flash Tool过程中无法载入Sc ...

  3. java常见异常集锦

    1. java.lang.nullpointerexception 这个异常大家肯定都经常遇到,异常的解释是"程序遇上了空指针",简单地说就是调用了未经初始化的对象或者是不存在的对 ...

  4. JAVA常见异常集锦(持续更新)

    No1:Nested in org.springframework.beans.factory.parsing.BeanDefinitionParsingException 2013-07-02 10 ...

  5. MyBatis 异常 集锦

    异常1.使用映射器 (还没有使用Spring) 异常信息摘要: org.apache.ibatis.binding.BindingException: Type interface com.jege. ...

  6. Hibernate 异常 集锦

    异常1.Error parsing JNDI name [foo] 异常信息摘要: org.hibernate.engine.jndi.JndiException: Error parsing JND ...

  7. JPA 系列教程 异常 集锦

    异常1.hibernate升级到3.5版本 异常信息摘要: Associations marked as mappedBy must not define database mappings like ...

  8. Tensorflow异常集锦

    一.tensorflow checkpoint报错 在调用tf.train.Saver#save时,如果使用的路径是绝对路径,那么保存的checkpoint里面用的就是绝对路径:如果使用的是相对路径, ...

  9. Hibernate 菜鸟教程 异常 集锦

    异常1.Error parsing JNDI name [foo] 异常信息摘要: org.hibernate.engine.jndi.JndiException: Error parsing JND ...

随机推荐

  1. SCADESuite嵌入式软件基于模型的开发

    SCADE Suite®产品是针对高安全性嵌入式软件的基于模型的开发环境 SCADE Suite是高安全性嵌入式软件的开发标准,其应用领域涵盖航空.国防.轨道交通.能源和重工业.专为最高等级的质量和安 ...

  2. js中跨域请求原理及2种常见解决方案

    一.同源策略: 说到跨域请求,首先得说说同源策略: 1995年,同源政策是由 Netscape 公司引入浏览器的.目前,所有浏览器都实行了这个政策. 同源策略是浏览器的一种安全策略,所谓同源是指,域名 ...

  3. 所有Mac用户都需要知道的9个实用终端命令行<转>

    转自 http://www.macx.cn/thread-2075903-1-1.html 通常情况下,只有高端用户才会经常用到终端应用.这并不意味着命令行非常难学,有的时候命令行可以轻松.快速的解决 ...

  4. [转载]Access to the path '' is denied.解决方案

    原文地址:Access to the path '' is denied.解决方案作者:趴着墙等红杏 ccess to the path '路径' is denied.我在网上找了很多资料,最后终于解 ...

  5. Sublime Text使用心得(一)

    以前写web前端样式都是用eclipse.myeclispe这些IDE开发工具,现在想纯粹的写点HTML的东西,一心想找一个轻量的编辑器,这样能够随手打开编写,方便平时业余学习.网上搜罗了一堆编辑器, ...

  6. exists查询中子表可以是

    exists查询中子表可以是’或则具体某一列 ,查询结果一致,因为exists只会返回 true或者false,一个boolean型的值

  7. Intellj新增maven项目骨架

    我们经常用maven骨架构建项目,本来普通的几个archetype就够用的,但是近来要来时开发liferay项目 相关的项目骨架Intellj IDEA就没有内置,所以就想添加进去,  有两个办法可以 ...

  8. python基础知识七

    我们会使用raw_input和print语句来完成这些功能. 对于输出,也可以使用多种多样的str(字符串)类. 例如使用rjust方法来得到一个按一定宽度右对齐的字符串. 可以通过创建一个file类 ...

  9. C# Ref 与out 的区别

    在C#中,有四种传递参数方式: 1. 传值 (value) : 无额外修饰符 2. 传址(reference) : 需修饰符Ref,传入函数的参数必须先赋值 3. 输出参数(output): 需修饰符 ...

  10. ERROR ITMS-90167: "No .app bundles found in the package"

    http://stackoverflow.com/questions/37838487/error-itms-90167-no-app-bundles-found-in-the-package 简单说 ...