【原创】大叔问题定位分享（17）spark查orc格式数据偶尔报错NullPointerException

spark查orc格式的数据有时会报这个错

Caused by: java.lang.NullPointerException
at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat$BISplitStrategy.getSplits(OrcInputFormat.java:560)
at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.generateSplitsInfo(OrcInputFormat.java:1010)
... 47 more

跟进代码

org.apache.hadoop.hive.ql.io.orc.OrcInputFormat

  static enum SplitStrategyKind {

    HYBRID,

    BI,

    ETL

  }

...

    Context(Configuration conf) {

      this.conf = conf;

      minSize = conf.getLong(MIN_SPLIT_SIZE, DEFAULT_MIN_SPLIT_SIZE);

      maxSize = conf.getLong(MAX_SPLIT_SIZE, DEFAULT_MAX_SPLIT_SIZE);

      String ss = conf.get(ConfVars.HIVE_ORC_SPLIT_STRATEGY.varname);

      if (ss == null || ss.equals(SplitStrategyKind.HYBRID.name())) {

        splitStrategyKind = SplitStrategyKind.HYBRID;

      } else {

        LOG.info("Enforcing " + ss + " ORC split strategy");

        splitStrategyKind = SplitStrategyKind.valueOf(ss);

      }

...

        switch(context.splitStrategyKind) {

          case BI:

            // BI strategy requested through config

            splitStrategy = new BISplitStrategy(context, fs, dir, children, isOriginal,

                deltas, covered);

            break;

          case ETL:

            // ETL strategy requested through config

            splitStrategy = new ETLSplitStrategy(context, fs, dir, children, isOriginal,

                deltas, covered);

            break;

          default:

            // HYBRID strategy

            if (avgFileSize > context.maxSize) {

              splitStrategy = new ETLSplitStrategy(context, fs, dir, children, isOriginal, deltas,

                  covered);

            } else {

              splitStrategy = new BISplitStrategy(context, fs, dir, children, isOriginal, deltas,

                  covered);

            }

            break;

        }

org.apache.hadoop.hive.conf.HiveConf.ConfVars

    HIVE_ORC_SPLIT_STRATEGY("hive.exec.orc.split.strategy", "HYBRID", new StringSet("HYBRID", "BI", "ETL"),

        "This is not a user level config. BI strategy is used when the requirement is to spend less time in split generation" +

        " as opposed to query execution (split generation does not read or cache file footers)." +

        " ETL strategy is used when spending little more time in split generation is acceptable" +

        " (split generation reads and caches file footers). HYBRID chooses between the above strategies" +

        " based on heuristics."),

The HYBRID mode reads the footers for all files if there are fewer files than expected mapper count, switching over to generating 1 split per file if the average file sizes are smaller than the default HDFS blocksize. ETL strategy always reads the ORC footers before generating splits, while the BI strategy generates per-file splits fast without reading any data from HDFS.

可见hive.exec.orc.split.strategy默认是HYBRID，HYBRID时如果不满足

if (avgFileSize > context.maxSize) {

则

splitStrategy = new BISplitStrategy(context, fs, dir, children, isOriginal, deltas,
covered);

报错的就是BISplitStrategy，具体这个类为什么报错还没有细看，不过可以修改设置避免这个问题

set hive.exec.orc.split.strategy=ETL

问题暂时解决，未完待续；

【原创】大叔问题定位分享（17）spark查orc格式数据偶尔报错NullPointerException的更多相关文章

【原创】大叔问题定位分享（24）hbase standalone方式启动报错
hbase 2.0.2 hbase standalone方式启动报错: 2019-01-17 15:49:08,730 ERROR [Thread-24] master.HMaster: Failed ...
【原创】大叔问题定位分享（2）spark任务一定几率报错java.lang.NoSuchFieldError: HIVE_MOVE_FILES_THREAD_COUNT
最近用yarn cluster方式提交spark任务时,有时会报错,报错几率是40%,报错如下: 18/03/15 21:50:36 116 ERROR ApplicationMaster91: Us ...
【原创】大叔问题定位分享（16）spark写数据到hive外部表报错ClassCastException: org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormat cannot be cast to org.apache.hadoop.hive.ql.io.HiveOutputFormat
spark 2.1.1 spark在写数据到hive外部表(底层数据在hbase中)时会报错 Caused by: java.lang.ClassCastException: org.apache.h ...
【原创】大叔问题定位分享（15）spark写parquet数据报错ParquetEncodingException: empty fields are illegal, the field should be ommited completely instead
spark 2.1.1 spark里执行sql报错 insert overwrite table test_parquet_table select * from dummy 报错如下: org.ap ...
【原创】大叔问题定位分享（10）提交spark任务偶尔报错 org.apache.spark.SparkException: A master URL must be set in your configuration
spark 2.1.1 一问题重现问题代码示例 object MethodPositionTest { val sparkConf = new SparkConf().setAppName(&qu ...
【原创】大叔问题定位分享（9）oozie提交spark任务报 java.lang.NoClassDefFoundError: org/apache/kafka/clients/producer/KafkaProducer
oozie中支持很多的action类型,比如spark.hive,对应的标签为: <spark xmlns="uri:oozie:spark-action:0.1"> ...
【原创】大叔问题定位分享（8）提交spark任务报错 Caused by: java.lang.ClassNotFoundException: org.I0Itec.zkclient.exception.ZkNoNodeException
spark 2.1.1 一问题重现 spark-submit --master local[*] --class app.package.AppClass --jars /jarpath/zkcli ...
【原创】大叔问题定位分享（29）datanode启动报错：50020端口被占用
集群中有一台datanode一直启动报错如下: java.net.BindException: Problem binding to [$server1:50020] java.net.BindExc ...
【原创】大叔问题定位分享（13）HBase Region频繁下线
问题现象:hive执行sql报错 select count(*) from test_hive_table; 报错 Error: java.io.IOException: org.apache.had ...

随机推荐

私有云方案——利用阿里云云解析实现DDNS
各位都是程序员,工作中是不是遇到个类似情况.在家里研究的一些开源代码或写的一些demo或试验代码,在工作中正好需要参考一下,但是在家里的电脑上. 虽然这些都可以用云 ...
web 日历任务插件
[2] 日历任务插件(jquery版)新增日历任务和点击监听 - qq_26462567的博客 - CSDN博客https://blog.csdn.net/qq_26462567/article/de ...
Python——编译标准
注意事项 1.关于包相关的导入语句也分为import和from ... import ...两种,但是无论哪种,无论在什么位置,在导入时都必须遵循一个原则:凡是在导入时带点的,点的左边都必须是一个包, ...
Python——Socket编程
一.TCP 1.客户端 import socket sk = socket.socket() # 买个手机 sk.connect(('127.0.0.1',8080)) # 拨号 ret = sk.r ...
python常用的基本操作
打开cmd,pip list 可以查看python安装的所以第三方包
mshcMigrate制作的mshc文件中有链接打不开
网上下载的c3ddotnetapiref.chm文件, 使用mshcMigrate工具(2.0.0.75)转换成mshc文件, 添加到help viewer 2.2中, 有时会遇到这样的错误: 选择是 ...
Day 3 下午
依旧是组合数问题先来看一道题如图,一个n*m的方格中,从原点开始,每次只能向上走或者向右走,求走到点(n,m)共有多少种走法一般做法: 一个一个写,每一个节点的种数=它左边的数量+右边的数量显 ...
WC2019滚粗记
什么?你问WC2019滚粗记在哪里? 抱歉,这篇文章鸽了. 原因? 引用神仙$yyb$的话. 恩,想了想还是更一点吧. Day 0 签到海星,我写了个大大的$Cgod$有没有人看见啊,然后被广 ...
BSGS算法
BSGS算法我是看着$ppl$的博客学的,您可以先访问$ppl$的博客 Part1 BSGS算法求解关于$x$的方程 \[y^x=z(mod\ p)\] 其中$(y,p)=1$ 做 ...
Python3 与 C# 并发编程之～协程篇
3.协程篇¶ 去年微信公众号就陆陆续续发布了,我一直以为博客也汇总同步了,这几天有朋友说一直没找到,遂发现,的确是漏了,所以补上一篇在线预览:https://github.lesschina.c ...

【原创】大叔问题定位分享（17）spark查orc格式数据偶尔报错NullPointerException

【原创】大叔问题定位分享（17）spark查orc格式数据偶尔报错NullPointerException的更多相关文章

随机推荐

热门专题