记一次newApiHadoopRdd查询数据不一致问题

现象：

+----------+-------+--------+-----+-----+-----+----+----+------+---------+-------+--------+--------+------------+
|totalCount|January|February|March|April| May|June|July|August|September|October|November|December|totalMileage|
+----------+-------+--------+-----+-----+-----+----+----+------+---------+-------+--------+--------+------------+
| 33808| 0| 0| 0| 0|33798| 0| 0| 0| 0| 0| 0| 0| 79995.0|
+----------+-------+--------+-----+-----+-----+----+----+------+---------+-------+--------+--------+------------+

当前表预分区10个

按照当月数据看，当前测试表中总数量是：33798

hbase的总数量也是：33798

神奇的地方：使用sparkSQL对接hbase查询的数量是：33808

当时的sql语句是：select count(1) from orderData

很神奇，因为通过sql查询后，总数据多了10条

============================================================

原因：

这里设置了hbase SCAN_BATCHSIZE这个值，会设置scan的batchsize。这个设置的文档是这样说的：

Set the maximum number of values to return for each call to next()

之前一直以为这里是设置一次读取多少行，其实values貌似是读取多少列，并且开启了这个值会导致hbase scan时返回一行的部分结果；

于是将这个设置注释掉，程序即可正常运行

进一步的，我们从hbase端代码看看这个设置。hbase的scan会两个成员变量：

private boolean allowPartialResults = false;
private int batch = -1;

allowPartialResult这个很明显就是会返回部分结果的设置，那么这个batch呢？setBatch()时并不会设置allowPartialResult。但是在Scan的getResultsToAddToCache()函数中，如果batch值大于0，会设置isBatch=true。之后会有这段代码：

// If the caller has indicated in their scan that they are okay with seeing partial results,

// then simply add all results to the list. Note that since scan batching also returns results

// for a row in pieces we treat batch being set as equivalent to allowing partials. The

// implication of treating batching as equivalent to partial results is that it is possible

// the caller will receive a result back where the number of cells in the result is less than

// the batch size even though it may not be the last group of cells for that row.

    if (allowPartials || isBatchSet) {

      addResultsToList(resultsToAddToCache, resultsFromServer, ,

          (null == resultsFromServer ?  : resultsFromServer.length));

      return resultsToAddToCache;

    }

之前错误代码：

TableInputFormat.SCAN_BATCHSIZE

lazy val buildScan = {

    val hbaseConf = HBaseConfiguration.create()

    hbaseConf.set("hbase.zookeeper.quorum", GlobalConfigUtils.hbaseQuorem)

    hbaseConf.set(TableInputFormat.INPUT_TABLE, hbaseTableName)

    hbaseConf.set(TableInputFormat.SCAN_COLUMNS, queryColumns)

    hbaseConf.set(TableInputFormat.SCAN_ROW_START, startRowKey)

    hbaseConf.set(TableInputFormat.SCAN_ROW_STOP, endRowKey)

    hbaseConf.set(TableInputFormat.SCAN_BATCHSIZE , "")//TODO 此处导致查询数据不一致

    hbaseConf.set(TableInputFormat.SCAN_CACHEDROWS , "")

    hbaseConf.set(TableInputFormat.SHUFFLE_MAPS , "")

    val hbaseRdd = sqlContext.sparkContext.newAPIHadoopRDD(

      hbaseConf,

      classOf[org.apache.hadoop.hbase.mapreduce.TableInputFormat],

      classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],

      classOf[org.apache.hadoop.hbase.client.Result]

    )

    val rs: RDD[Row] = hbaseRdd.map(tuple => tuple._2).map(result => {

      var values = new ArrayBuffer[Any]()

      hbaseTableFields.foreach { field =>

        values += Resolver.resolve(field, result)

      }

      Row.fromSeq(values.toSeq)

    })

    rs

  }

解决：

去掉TableInputFormat.SCAN_BATCHSIZE的设置即可

去掉后的查询结果：

+----------+-------+--------+-----+-----+-----+----+----+------+---------+-------+--------+--------+------------+
|totalCount|January|February|March|April| May|June|July|August|September|October|November|December|totalMileage|
+----------+-------+--------+-----+-----+-----+----+----+------+---------+-------+--------+--------+------------+
| 33798| 0| 0| 0| 0|33798| 0| 0| 0| 0| 0| 0| 0| 79995.0|
+----------+-------+--------+-----+-----+-----+----+----+------+---------+-------+--------+--------+------------+

问题解决~

记一次newApiHadoopRdd查询数据不一致问题的更多相关文章

记一次ES查询数据突然变为空的问题
基本环境 elasticsearch版本:6.3.1 客户端环境:kibana 6.3.4.Java8应用程序模块. 其中kibana主要用于数据查询诊断和查阅日志,Java8为主要的客户端,数据插入 ...
MySQL主从复制数据不一致问题【自增主键】
前言: 今天遇到主从表不一致的情况,很奇怪为什么会出现不一致的情况,因为复制状态一直都是正常的.最后检查出现不一致的数据都是主键,原来是当时初始化数据的时候导致的.现在分析记录下这个问题,避免以后再遇 ...
使用 JdbcTemplate 查询数据时报错：列名无效（已解决）
又犯了一个错误. 争取没有下次了. 就算再犯,也要知道去哪找答案. 所以,记录一下,以示警戒. 报错使用 JdbcTemplate 查询数据时,出现异常: PreparedStatementCall ...
pt-table-checksum检验主从数据不一致
测试环境:主从架构,操作系统liunx 运行pt-table-checksum需要先安装以下依赖包: yum install perl-IO-Socket-SSL perl-DBD-MySQL per ...
揭秘MySQL主从数据不一致
前言: 目前MySQL数据库最常用的是主从架构,大多数高可用架构也是通过主从架构演变而来.但是主从架构运行时间长久后容易出现数据不一致的情况,比如因从库可写造成的误操作或者复制bug等,本篇文章将会详 ...
Redis面试题记录--缓存双写情况下导致数据不一致问题
转载自:https://blog.csdn.net/lzhcoder/article/details/79469123 https://blog.csdn.net/u013374645/article ...
由数据迁移至MongoDB导致的数据不一致问题及解决方案
故事背景企业现状 2019年年初,我接到了一个神秘电话,电话那头竟然准确的说出了我的昵称:上海小胖. 我想这事情不简单,就回了句:您好,我是小胖,请问您是? "我就是刚刚加了你微信的 xx ...
三年之久的 etcd3 数据不一致 bug 分析
问题背景诡异的 K8S 滚动更新异常笔者某天收到同事反馈,测试环境中 K8S 集群进行滚动更新发布时未生效.通过 kube-apiserver 查看发现,对应的 Deployment 版本已经是最 ...
解决Redis中数据不一致问题
redis系列之数据库与缓存数据一致性解决方案数据库与缓存读写模式策略写完数据库后是否需要马上更新缓存还是直接删除缓存? (1).如果写数据库的值与更新到缓存值是一样的,不需要经过任何的计算,可以马 ...

随机推荐

缓存策略：redis缓存之springCache
最近通过同学,突然知道服务器的缓存有很多猫腻,这里通过网上查询其他人的资料,进行记录: 缓存策略比较简单的缓存策略: 1.失效:应用程序先从cache取数据,没有得到,则从数据库中取数据,成功后,放 ...
Ubuntu系统开机后不能正常使用——问题解决记录
1.开机后桌面内容没了,搜狗输入法不能使用了,终端不能打开了问题原因:上次关机前为了解决解压文件中文乱码问题,在/etc/profile末尾加了如下两行:(但事实上如下两行根本不能解决中文乱码问题) ...
mvc验证码图片生成
/// <summary> ///生成验证码 /// </summary> public class VerifyCode { /// <summary> /// ...
dev grid的一些使用
保留选中数据,其他数据删除,不操作数据库 private void butnoremove_Click(object sender, EventArgs e) { int iSelectRowCoun ...
CF505E Mr. Kitayuta vs. Bamboos
cf luogu 要使得最高的柱子高度最小,考虑二分这个高度,那么剩下的就是要指定一个操作方案,使得最终每个柱子高度\(\le mid\) 因为有个柱子高度不会\(<0\)的限制,所以正着模拟不 ...
Java 里如何使用Base64，网上都是废物的说法
百度搜索Java里如何使用Base64,结果很多文章都是让引用第三方Jar包,我靠我想了一下他妈的Java里连这个都不提供,就直接忽略里那些废物的文章.继续搜索,算是找到答案: Java8以后官方 ...
配置lombok到eclipse上去
使用maven导入lombok.jar包,可以帮助我们省略掉getter/setting方法. 1.pom.xml 添加依赖: <dependency> <groupId>or ...
Redis教程（REmote DIctionary Server)——一个高性能的key-value数据库
redis(REmote DIctionary Server)是什么? Redis是一个开源的使用ANSI C语言编写.支持网络.可基于内存亦可持久化的日志型.Key-Value数据库,并提供多种语言 ...
C#字符串和16进制字符串之间的转换
将字符串编码成 16进制字符串表示: using System;using System.Collections.Generic;using System.Linq;using System.Tex ...
Linux中的sudoer详解
目录 Linux中的sudo详解一.引言二.格式三./etc/sudoers文件四.sudoers文件讲解五.其他 Linux中的sudo详解一.引言 Liunx用户只有两类: 管理员用户 ...

记一次newApiHadoopRdd查询数据不一致问题

记一次newApiHadoopRdd查询数据不一致问题的更多相关文章

随机推荐

热门专题