今天在对LDA进行不同參数训练模型。记录其avglogLikelihood和logPerplexity,以便推断模型训练是否收敛时,产生了一个令人极度崩溃的事儿:程序在辛辛苦苦跑了7.3h后...挂了!

证据例如以下:

早上一来看这张图,好像跑完了,然后点进去看...然后就没有然后了

每次迭代都须要9min左右,迭代了近50次跟我说挂了,确实挺让人奔溃的。

先说说我的配置以及LDA參数吧

5 * 40cores cpu

5* 500g memory

參数:

没办法,既然都崩溃了,跟进去找问题呗

磁盘没空间了!

这是什么鬼...于是常规的,先从网上找找,看看有没有人有类似的问题。结果还真让我发现两个

Spark:java.io.IOException: No space left on device

spark參数配置调优

发现第一个的回答中比較实用的是这个:

同一时候,结合第二个中的解释

基本上定位到应该是spark.local.dir文件夹用来存放shuffle产生的暂时文件的空间不够用了。

好吧,那看看自己的配置咯

这下子好玩儿了。配置的local文件夹空间剩余杠杠的,机器上还剩大概600G(关键是总共5台啊。!

!总共至少3T空间)。跟我说No space left on device确定不是在逗我的?好吧,看来应该不是shuffle文件存储的空间不足了。

怎么办?问题总不能摆着儿吧,没办法,那就跟进去spark的UI慢慢研究咯

等等!

还真发现点儿规律,为什么报错的都是同一台机器。然后想到之前的一个任务也有fails,赶紧打开看看,验证一下

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

看来果然是这样了。如今规律是发现了,那为什么会这样啊?刚才看到的bigdata04上的磁盘空间是全然够用的啊,真是奇了怪了!

等等!突然想起来,我好像是在这台机启动的任务

也就是说,bigdata04是我的driver。

原来如此。既然是driver。那么跟存储有关的就仅仅有提交任务时配置的參数--driver-memory 50g这个了。

并且。好像刚才查看运行过程的时候。shuffle write也是非常大的

那就试着把--driver-memory这个參数调大点吧。

先记录到这里,等结果出来后再看看。假设没问题了再改动本文总结一下!

【问题跟踪】KryoException: java.io.IOException: No space left on device的更多相关文章

  1. java.io.IOException: No space left on device 错误

    今天碰到比较奇怪的问题: 7/05/14 19:20:24 INFO util.Utils: Fetching http://192.168.31.160:33039/jars/spark_study ...

  2. [Jenkins]Jenkins构建时提示java.io.IOException: No space left on device

    突然发现Jenkins的Job全部都停了,打开Jenkins发现所有的slave机器,均提示: 点开Dead(!),提示Thread has died,如下图: 看图好像说是Jenkins所在的服务器 ...

  3. java.io.IOException No space left on device

    磁盘空间不足 1.df -k,发现程序所在的工作目录/data,居然到了100%. 1604050 free allocated Kb 535144219 used allocated Kb 100 ...

  4. 解决:java.io.IOException: No FileSystem for scheme: hdfs

    解决:java.io.IOException: No FileSystem for scheme: hdfs 开发项目初期,写完代码开始放到服务器上开始测试的时候,报出这样的一个错,不知道怎么处理了, ...

  5. AIO 开始不定时的抛异常: java.io.IOException: 指定的网络名不再可用

    一天里会抛出几个这样的错误,但发现服务还在正常的运行. java.io.IOException: 指定的网络名不再可用. at sun.nio.ch.Iocp.translateErrorToIOEx ...

  6. Hive报错 Failed with exception java.io.IOException:java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: ${system:user.name%7D

    报错信息如下 Failed with exception java.io.IOException:java.lang.IllegalArgumentException: java.net.URISyn ...

  7. java.io.IOException: mark/reset not supported

    java.io.IOException: mark/reset not supported at java.io.InputStream.reset(InputStream.java:348) at ...

  8. java.io.IOException: invalid header field

    通过本文, 我们明白了什么是 jar的清单文件 MANIFEST.MF, 简单示例: E:\ws\Test\WEB-INF\classes>jar cvfm testCL.jar ListTes ...

  9. java.io.IOException: Cannot run program "jad"

    今天调试google tag manager, 需要看看google analytics source code,无奈没有源码,装个一个插件ejad 还是不行: java.io.IOException ...

随机推荐

  1. Java多线程之CountDownLatch和CyclicBarrier同步屏障的使用

      转载请注明原文地址:http://www.cnblogs.com/ygj0930/p/6558349.html  一:CountDownLatch CountDownLatch是一个执行 完成任务 ...

  2. Linux 防火墙Iptables

    1.规则链INPUT——进来的数据包应用此规则链中的策略OUTPUT——外出的数据包应用此规则链中的策略FORWARD——转发数据包时应用此规则链中的策略PREROUTING——对数据包作路由选择前应 ...

  3. SVM 推到期间 遇到的 表背景知识 (间隔最大化)

    背景,在看原理的时候,发现很多地方一知半解的,补充如下. 其他补充: 注:以下的默认为2分类 1.SVM原理: (1)输入空间到特征空间得映射 所谓输入空间即是输入样本集合,有部分情况输入空间与特征空 ...

  4. PL/SQL报无效的窗口句柄的解决办法

    在远程服务器上使用pl sql developer查询oralce数据库的时候,遇到很长的文本变量想点开小窗口看下具体内容, 但系统弹窗提示“无效的窗口句柄”,听同事介绍原来需要开启一个windows ...

  5. android webview goback 跳过页面302自动跳转方法

    转自http://blog.csdn.net/dyllove98/article/details/8827529 http://hi.baidu.com/519177819/item/3a340f16 ...

  6. Linux-中断的本质

    更好的参考:CPU的内部的中断 学习中断是为了理解信号,因为信号即软中断. 中断不是轮询!比如最常见的在UART通信过程中(收发数据),有两种方式,一种是中断,一种是轮询.如果中断是轮询,这两者就没区 ...

  7. PHP Fatal error: Call to undefined function mysql_connect() 错误解释

    我使用的是5.6.11版本的php 刚开始以为编译参数加了--with-mysqli=mysqlnd --with-pdo-mysql=mysqlnd,就可以不能安装mysql了. 但是使用了mysq ...

  8. 基于js利用经纬度进行两地的距离计算(转)

    转自:http://www.storyday.com/html/y2009/2212_according-to-latitude-and-longitude-distance-calculation- ...

  9. ASP.NET MVC3 Model验证总结 @Html.ValidationSummary(true)

    http://www.wyjexplorer.cn/Post/2012/8/3/model-validation-in-aspnet-mvc3 ASP.NET MVC3中的Model是自验证的,这是通 ...

  10. The request was denied by service delegate (SBMainWorkspace) for reason: Security ("Entitlement "com.apple.frontboard.debugapplications" required to launch applications for debugging").

    最近工程遇到了这个, The request was denied by service delegate (SBMainWorkspace) for reason: Security (" ...