http://blog.csdn.net/pipisorry/article/details/52916307

路径错误

spark FileNotFoundError: [Errno 2] No such file or directory: '~/ENV/spark/./bin/spark-submit'

居然是因为这个引发的错误:SPARK_HOME = ~/ENV/spark应该改成SPARK_HOME = /home/pipi/ENV/spark

之前就不会有这个错误,不知道为啥?

spark.textFile读取用户主目录下的文件出错

org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/pipi/files/...SparkLDA/~/files

文件名改成绝对路径就不会出错了,而不能使用主目录标志~。

importerror no module named 'pyspark'

可能出错原因:

1 设置的路径应该在import语句之前

2 pyspark_python路径出错,且如果在pycharm中修改后要重启pycharm才能生效,否则还是原来的路径(可能是因为之前的路径也保存在pycharm解释器中了?)

  1. PYSPARK_PYTHON = /home/pipi/opt/anaconda3/bin/python

Note: 并不用设置py4j的路径。

皮皮blog

系统环境错误

1 在~/.bashrc中设置的系统环境只能在terminal shell下运行spark程序才有效,因为.bashrc is only read for interactive shells.

如果要在当前用户整个系统中都有效(包括pycharm等等IDE),就应该将系统环境变量设置在~/.profile文件中。如果是设置所有用户整个系统,修改/etc/profile或者/etc/environment吧。

2 当然也可以在代码中设置,这样不管环境有没有问题了

  1. # spark environment settings
  2. import sys, os
  3. os.environ['SPARK_HOME'] = conf.get(SECTION, 'SPARK_HOME')
  4. sys.path.append(os.path.join(conf.get(SECTION, 'SPARK_HOME'), 'python'))
  5. os.environ["PYSPARK_PYTHON"] = conf.get(SECTION, 'PYSPARK_PYTHON')
  6. os.environ['SPARK_LOCAL_IP'] = conf.get(SECTION, 'SPARK_LOCAL_IP')
  7. os.environ['JAVA_HOME'] = conf.get(SECTION, 'JAVA_HOME')
  8. os.environ[], x[]]).cache()

  9. lambda函数中的x下标在pyspark不能这样写?

  10. 解决:改成corpus ], x[]]).cache()就不报这个错误了,也是醉了。

  11. py4j.protocol.Py4JError

  12. LDA引入自from pyspark.mllib.clustering import LDA

  13. py4j.protocol.Py4JError: An error occurred while calling o39.trainLDAModel. Trace:
    py4j.Py4JException: Method trainLDAModel([class org.apache.spark.api.java.JavaRDD, class java.lang.Integer, class java.lang.Integer, class java.util.ArrayList, class java.lang.Double, class java.lang.Integer, class java.lang.Integer, class java.lang.String]) does not exist

  14. 原因:lda_model = LDA.train(corpus, maxIterations=max_iter, seed=seed, checkpointInterval=checkin_point_interval, k=K, optimizer=optimizer, docConcentration=[alpha], topicConcentration=beta)

  15. 解决:lda_model = LDA.train(corpus, maxIterations=max_iter, seed=seed, checkpointInterval=checkin_point_interval, k=K, optimizer=optimizer, docConcentration=alpha, topicConcentration=beta)

  16. TypeError: Invalid param value given for param "docConcentration".

  17. 这个错误与上一个错误相关啊,呵呵了。。。

  18. LDA引入自from pyspark.ml.clustering import LDA

  19. TypeError: Invalid param value given for param "docConcentration".Could not convert 5.0 to list of floats.

  20. 原因:lda_model = LDA.train(corpus, maxIterations=max_iter, seed=seed, checkpointInterval=checkin_point_interval, k=K, optimizer=optimizer, docConcentration=alpha, topicConcentration=beta)

  21. 解决:lz设置docConcentrationTopicConcentration时,只能使用docConcentration=[value]和TopicConcentration=value两种不同的初始化方式,不知道为啥。。。否则出错。

  22. lda_model = LDA.train(corpus, maxIterations=max_iter, seed=seed, checkpointInterval=checkin_point_interval, k=K, optimizer=optimizer, docConcentration=[alpha], topicConcentration=beta)

  23. spark输出太多warning messages

  24. WARN Executor: 2 block locks were not released by TID =

  25. Lock release errors occur frequently in executor logs

  26. 原因:If there are any releasedLocks (after calling BlockManager.releaseAllLocksForTask earlier) and spark.storage.exceptionOnPinLeak is enabled (it is not by default) with no exception having been thrown while the task was running, a SparkException is thrown:
    [releasedLocks] block locks were not released by TID = [taskId]:
    [releasedLocks separated by comma]
    Otherwise, if spark.storage.exceptionOnPinLeak is disabled or an exception was thrown by the task, the following WARN message is displayed in the logs instead:
    WARN Executor: [releasedLocks] block locks were not released by TID = [taskId]:
    [releasedLocks separated by comma]
    Note    If there are any releaseLocks, they lead to a SparkException or WARN message in the logs.
    [jaceklaskowski/mastering-apache-spark-book/spark-executor-taskrunner.adoc]

  27. mapWithState causes block lock warning?

  28. The warning was added by: SPARK-12757 Add block-level read/write locks to BlockManager?

  29. [connectedComponents() raises lots of warnings that say "block locks were not released by TID = ..."]

  30. [Lock release errors occur frequently in executor logs]

  31. 解决:终于在调试log时候发现问题解决了

  32. 在简略Spark输出设置时[Spark安装和配置]修改过$SPARK_HOME/conf/log4j.properties.template文件只输出WARN信息,就算改成了ERROR,信息也还是会自动修改成WARN输出出来,不过多了一条提示:

  33. Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel).

  34. 就在这时发现了一个解决方案:

  35. 根据提示在代码中加入sc.setLogLevel('ERROR')就可以解决了!

  36. from: http://blog.csdn.net/pipisorry/article/details/52916307

  37. ref:

  38. Spark:相关错误总结的更多相关文章

      1. Spark相关错误汇总
      1. 前面介绍了Spark开发环境的搭建,下面将在实际开发过程中遇到的一些问题汇总一下: 1.Exception in thread "main" com.typesafe.config ...

      1. hadoopspark相关参数的配置
      1. 背景 MapReduceSpark对外提供了上百个配置参数,用户可以为作业定制这些参数以更快,更稳定的运行应用程序.本文梳理了最常用的一些MapReduceSpark配置参数. MapReduce ...

      1. OpenStack虚机相关错误
      1. OpenStack配置起来还是挺麻烦的,特别是网络那块.虽然官方文档越来越清晰,但有时还是会出各种错.排错主要是看日志.看官方文档和google 以下就一些虚机相关常见的错误做一下总结(基于Iceho ...

      1. 文件 "c:\Program Files\Microsoft SQL Server\MSSQL10.SQLEXPRESS\MSSQL\DATA\ttt.mdf" 已压缩,但未驻留在只读数据库或文件组中。必须将此文件解压缩。 CREATE DATABASE 失败。无法创建列出的某些文件名。请查看相关错误。 (.Net SqlClient Data Provider)
      1. 问题: 文件 "c:\Program Files\Microsoft SQL Server\MSSQL10.SQLEXPRESS\MSSQL\DATA\ttt.mdf" 已压缩,但 ...

      1. Linux Redis集群安装部署及使用详解(在线和离线两种安装+相关错误解决方案)
      1. 一.应用场景介绍 本文主要是介绍Redis集群在Linux环境下的安装讲解,其中主要包括在联网的Linux环境和脱机的Linux环境下是如何安装的.因为大多数时候,公司的生产环境是在内网环境下,无外网 ...

      1. thinkphp5.0的验证码安装和相关错误
      1. thinkphp5.0的验证码安装和相关错误 问题 只要是之前使用thinkphp5框架搭建网站的时候发现不管如何调用验证码都无法使用,按照官网要求,使用composer安装验证码出现报错Fatal ...

      1. spark分片个数的确定及Spark内存错误(GC error)的迂回解决方式
      1. 我们知道,spark中每个分片都代表着一部分数据,那么分片数量如何被确认的呢? 首先我们使用最常见的HDFS+Spark,sparkDeploy的方式来讨论,spark读取HDFS数据使用的是spar ...

      1. vc编译器 msvcr.dllmsvcp.dll的含义和相关错误的处理
      1. 转自:http://blog.csdn.net/sptoor/article/details/6203376 很久没有写程式设计入门知识的相关文章了,这篇文章要来谈谈程式库 (Library) 连结, ...

      1. Spark常见错误汇总
      1. 1. Spark Driver cannot bind on port0, SparkContext initialized failed 如果是通过spark-submit等命令行提交的任务,在sp ...

    1.  
    2. 随机推荐

        1. Java图形界面学习---------简易登录界面
        1. /** * @author Administrator * Java图形界面学习---------简易登录界面 * date:2015/10/31 */ import java.awt.BorderL ...

        1. 获取 Let's Encrypt 免费通配符证书实现Https
        1. 说明 3月14日,Let's Encrypt的执行董事Josh Aas对外宣布,他们的通配符证书正式上线,用户可以基于此特性轻松部署/开启所有子域名的HTTPS功能. Let's Encrypt 是国 ...

        1. .NET Core2.0+MVC 用Redis/Memory+cookie实现的sso单点登录
        1. 之前发布过使用session+cookie实现的单点登录,博主个人用的很不舒服,为什么呢,博主自己测试的时候,通过修改host的方法,在本机发布了三个站点,但是,经过测试,发现,三个站点使用的sess ...

        1. [LeetCode] Partition Labels 分割标签
        1. A string S of lowercase letters is given. We want to partition this string into as many parts as pos ...

        1. 分布式版本管理工具 git常用命令
        1. Git global setup git config --global user.name "joey" git config --global user.email " ...

        1. testng执行多个suite
        1. 由于testng.xml中只能设置一个<suite>标签,就无法创建多个测试集,通过<suite-files >标签可以实现允许多个测试集. 1.testng.xml中引入多个 ...

        1. [NOI 2010]能量采集
        1. Description 题库链接 给你一个 \(n\times m\) 的坐标轴.对于坐标轴的每一个正整数整点 \((x,y)\) 其对答案产生的贡献为 \(2k+1\) ,其中 \(k\) 表示这个 ...

        1. [HNOI 2016]网络
        1. Description 一个简单的网络系统可以被描述成一棵无根树.每个节点为一个服务器.连接服务器与服务器的数据线则看做 一条树边.两个服务器进行数据的交互时,数据会经过连接这两个服务器的路径上的所有 ...

        1. bzoj 5287: [Hnoi2018]毒瘤
        1. Description Solution \(dfs\) 出一棵生成树之后,多出来的边就都是反祖边了 把反祖边两个端点都拿出来,就会得到最多 \(k=2*(m-n+1)\) 个关键点 除了关键点以外的 ...

        1. Blocks
        1. Description solution 这题和之前做过的一题的一个套路非常类似:把不是更优的决策给去掉,使得序列变得具有单调性,分析这题: 发现如果两个右端点 \(i\),\(j\) 满足 \(su ...