MongoSpark 28799错误

Exception in thread "main" com.mongodb.MongoCommandException: Command failed with error : 'Received error in response from 192.168.12.161:27018: { $err: "$sample stage could not find a non-duplicate document after 100 while using a random cursor. This is likely a sporadic failure, please try again.", code: 28799 }' on server 192.168.12.161:. The full response is { "ok" : 0.0, "errmsg" : "Received error in response from 192.168.12.161:27018: { $err: \"$sample stage could not find a non-duplicate document after 100 while using a random cursor. This is likely a sporadic failure, please try again.\", code: 28799 }", "code" : , "codeName" : "Location28799" }

    at com.mongodb.connection.ProtocolHelper.getCommandFailureException(ProtocolHelper.java:)

    at com.mongodb.connection.CommandProtocol.execute(CommandProtocol.java:)

    at com.mongodb.connection.DefaultServer$DefaultServerProtocolExecutor.execute(DefaultServer.java:)

    at com.mongodb.connection.DefaultServerConnection.executeProtocol(DefaultServerConnection.java:)

    at com.mongodb.connection.DefaultServerConnection.command(DefaultServerConnection.java:)

    at com.mongodb.operation.CommandOperationHelper.executeWrappedCommandProtocol(CommandOperationHelper.java:)

    at com.mongodb.operation.CommandOperationHelper.executeWrappedCommandProtocol(CommandOperationHelper.java:)

    at com.mongodb.operation.CommandOperationHelper.executeWrappedCommandProtocol(CommandOperationHelper.java:)

    at com.mongodb.operation.AggregateOperation$.call(AggregateOperation.java:)

    at com.mongodb.operation.AggregateOperation$.call(AggregateOperation.java:)

    at com.mongodb.operation.OperationHelper.withConnectionSource(OperationHelper.java:)

    at com.mongodb.operation.OperationHelper.withConnection(OperationHelper.java:)

    at com.mongodb.operation.AggregateOperation.execute(AggregateOperation.java:)

    at com.mongodb.operation.AggregateOperation.execute(AggregateOperation.java:)

    at com.mongodb.Mongo.execute(Mongo.java:)

    at com.mongodb.Mongo$.execute(Mongo.java:)

    at com.mongodb.OperationIterable.iterator(OperationIterable.java:)

    at com.mongodb.OperationIterable.forEach(OperationIterable.java:)

    at com.mongodb.OperationIterable.into(OperationIterable.java:)

    at com.mongodb.AggregateIterableImpl.into(AggregateIterableImpl.java:)

    at com.mongodb.spark.rdd.partitioner.MongoSamplePartitioner$$anonfun$.apply(MongoSamplePartitioner.scala:)

    at com.mongodb.spark.rdd.partitioner.MongoSamplePartitioner$$anonfun$.apply(MongoSamplePartitioner.scala:)

    at com.mongodb.spark.MongoConnector$$anonfun$withCollectionDo$.apply(MongoConnector.scala:)

    at com.mongodb.spark.MongoConnector$$anonfun$withCollectionDo$.apply(MongoConnector.scala:)

    at com.mongodb.spark.MongoConnector$$anonfun$withDatabaseDo$.apply(MongoConnector.scala:)

    at com.mongodb.spark.MongoConnector$$anonfun$withDatabaseDo$.apply(MongoConnector.scala:)

    at com.mongodb.spark.MongoConnector.withMongoClientDo(MongoConnector.scala:)

    at com.mongodb.spark.MongoConnector.withDatabaseDo(MongoConnector.scala:)

    at com.mongodb.spark.MongoConnector.withCollectionDo(MongoConnector.scala:)

    at com.mongodb.spark.rdd.partitioner.MongoSamplePartitioner.partitions(MongoSamplePartitioner.scala:)

    at com.mongodb.spark.rdd.partitioner.DefaultMongoPartitioner.partitions(DefaultMongoPartitioner.scala:)

    at com.mongodb.spark.rdd.MongoRDD.getPartitions(MongoRDD.scala:)

    at org.apache.spark.rdd.RDD$$anonfun$partitions$.apply(RDD.scala:)

    at org.apache.spark.rdd.RDD$$anonfun$partitions$.apply(RDD.scala:)

    at scala.Option.getOrElse(Option.scala:)

    at org.apache.spark.rdd.RDD.partitions(RDD.scala:)

    at org.apache.spark.SparkContext.runJob(SparkContext.scala:)

    at org.apache.spark.rdd.RDD.count(RDD.scala:)

    at org.jh.TestSpark$.doTest(DocHandler.scala:)

    at org.jh.TestSpark$.main(DocHandler.scala:)

    at org.jh.TestSpark.main(DocHandler.scala)

错误如上，解决方式如下，根据connector源码（并没有完全看懂），分析出现这个问题的原因是因为：

if (numDocumentsPerPartition >= count) {

          MongoSinglePartitioner.partitions(connector, readConfig, pipeline)

        } else {

          val samples = connector.withCollectionDo(readConfig, {

            coll: MongoCollection[BsonDocument] =>

              coll.aggregate(List(

                Aggregates.`match`(matchQuery),

                Aggregates.sample(numberOfSamples),

                Aggregates.project(Projections.include(partitionKey)),

                Aggregates.sort(Sorts.ascending(partitionKey))

              ).asJava).allowDiskUse(true).into(new util.ArrayList[BsonDocument]()).asScala

          })

          def collectSplit(i: Int): Boolean = (i % samplesPerPartition == 0) || !matchQuery.isEmpty && i == count - 1

          val rightHandBoundaries = samples.zipWithIndex.collect {

            case (field, i) if collectSplit(i) => field.get(partitionKey)

          }

          PartitionerHelper.createPartitions(partitionKey, rightHandBoundaries, PartitionerHelper.locations(connector))

        }

　　numDocumentsPerPartition < count，导致执行了else代码出现的，else先进行sample，然后：

val numDocumentsPerPartition: Int = math.floor(partitionSizeInBytes.toFloat / avgObjSizeInBytes).toInt
val numberOfSamples = math.floor(samplesPerPartition * count / numDocumentsPerPartition.toFloat).toInt

　　为了避免出错，所以要降低numberOfSamples，那么就需要降低samplesPerPartition，增加numDocumentsPerPartition，samplesPerPartition通过调低spark.mongodb.input.partitionerOptions.samplesPerPartition实现，增加numDocumentsPerPartition通过调大spark.mongodb.input.partitionerOptions.partitionSizeMB实现。并且调大spark.mongodb.input.partitionerOptions.partitionSizeMB会提高numDocumentsPerPartition的数值，可以避免进入else下面的代码块。

　　所以解决方案如下：

SparkSession.builder()

//			.master("local")

			.master(sparkURI)

			.config(new SparkConf().setJars(Array(s"${hdfsURI}/mongolib/mongo-spark-connector_2.11-2.2.1.jar",

					s"${hdfsURI}/mongolib/bson-3.4.2.jar",

					s"${hdfsURI}/mongolib/mongo-java-driver-3.4.2.jar",

					s"${hdfsURI}/mongolib/mongodb-driver-3.4.2.jar",

					s"${hdfsURI}/mongolib/mongodb-driver-core-3.4.2.jar",

					s"${hdfsURI}/mongolib/commons-io-2.5.jar",

					s"${hdfsURI}/mongolib/config-1.2.1.jar",

					s"${hdfsURI}/${jarName}") ++ extJars))

			.config("spark.cores.max", 80)

			.config("spark.executor.cores", 16)

			.config("spark.executor.memory", "32g")

			.config("spark.mongodb.input.uri", inp)

			.config("spark.mongodb.output.uri", oup)

			.config("spark.mongodb.input.partitionerOptions.samplesPerPartition", 1)

			.config("spark.mongodb.input.partitionerOptions.partitionSizeMB", 128)

			.getOrCreate()

MongoSpark 28799错误的更多相关文章

航空概论（历年资料，引之百度文库，PS：未调格式，有点乱）
航空航天尔雅选择题1. 已经实现了<天方夜谭>中的飞毯设想.—— A——美国2. 地球到月球大约—— C 38 万公里3. 建立了航空史上第一条定期空中路线—— B——德国4. 对于孔明 ...
MongoDB With Spark遇到的2个错误，不能初始化和sample重复的key
1.$sample stage could not find a non-duplicate document while using a random cursor 这个问题比较难解决,因为我用mo ...
日期格式代码出现两次的错误 ORA-01810
错误的原因是使用了两次MM . 一.Oracle中使用to_date()时格式化日期需要注意格式码如:select to_date('2005-01-01 11:11:21','yyyy-MM-dd ...
ASP.NET Core应用的错误处理[3]：ExceptionHandlerMiddleware中间件如何呈现“定制化错误页面”
DeveloperExceptionPageMiddleware中间件利用呈现出来的错误页面实现抛出异常和当前请求的详细信息以辅助开发人员更好地进行纠错诊断工作,而ExceptionHandlerMi ...
ASP.NET Core应用的错误处理[2]：DeveloperExceptionPageMiddleware中间件如何呈现“开发者异常页面”
在<ASP.NET Core应用的错误处理[1]:三种呈现错误页面的方式>中,我们通过几个简单的实例演示了如何呈现一个错误页面,这些错误页面的呈现分别由三个对应的中间件来完成,接下来我们将 ...
实时的.NET程序错误监控产品Exceptionless
Exceptionless可以对ASP.NET, Web API, WebForms, WPF, Console, 和 MVC 应用提供错误监控.上传.报表服务.使用时需要在Exceptionless ...
一个粗心的Bug，JSON格式不规范导致AJAX错误
一.事件回放今天工作时碰到了一个奇怪的问题,这个问题很早很早以前也碰到过,不过没想到过这么久了竟然又栽在这里. 当时正在联调一个项目,由于后端没有提供数据接口,于是我直接本地建立了一个 json ...
SQL Server 致程序员（容易忽略的错误）
标签:SQL SERVER/MSSQL/DBA/T-SQL好习惯/数据库/需要注意的地方/程序员/容易犯的错误/遇到的问题概述因为每天需要审核程序员发布的SQL语句,所以收集了一些程序员的一些常见 ...
C# - 值类型、引用类型&走出误区，容易错误的说法
1. 值类型与引用类型小总结 1)对于引用类型的表达式(如一个变量),它的值是一个引用,而非对象. 2)引用就像URL,是允许你访问真实信息的一小片数据. 3)对于值类型的表达式,它的值是实际的数据. ...

随机推荐

MongoDB学习总结（二）
前言:学习札记! MongoDB学习总结(二) 1. 安装.初识之前写过一篇MongoDB的快速上手文章,里边详细的讲了如何安装.启动MongoDB,这里就不再累述安装过程,简单介绍一下Mongo ...
CPU高速缓存行与内存关系及并发MESI 协议
先来一个整体图一. 大致关系: CPU Cache --> 前端总线 FSB (下图中的Bus) --> Memory 内存 CPU 为了更快的执行代码.于是当从内存中读取数据时,并不是 ...
深度学习中交叉熵和KL散度和最大似然估计之间的关系
机器学习的面试题中经常会被问到交叉熵(cross entropy)和最大似然估计(MLE)或者KL散度有什么关系,查了一些资料发现优化这3个东西其实是等价的. 熵和交叉熵提到交叉熵就需要了解下信息论 ...
Spring的ApplicationEvent实现
原理:ApplicationContextAware接口提供了publishEvent方法,实现了Observe(观察者)设计模式的传播机制,实现了对bean的传播.通过ApplicationCont ...
Oracle密码过期问题 ORA-28001:the password has expired
如果已经过期了,首先需要修改密码,然后设置密码为无限期.修改以sys用户登陆. 修改密码:alter user username identified by password 密码可以和之前的密码相 ...
五、Sql Server 基础培训《进度5-数据类型（知识点+实际操作）》
知识点: ================================================= ============================================= ...
给vscode添加右键打开功能
将以下文本存为vscode.reg,然后运行: Windows Registry Editor Version 5.00 ; Open files [HKEY_CLASSES_ROOT\*\shel ...
记录一份Oracle 正确的监听配置文件listener.ora与tnsnames.ora
一.前言昨天中午接到领导指示,有其他组的负责人B在厄瓜多尔演示他们组的产品,然后我们组的负责人就想说也在那边搭一套环境,(北美那边的亚马逊云环境),让B帮忙演示下我们的系统. 于是,开始了一个比较曲 ...
Nest js 使用axios模块
文档 let r = await this.http.get(`https://api.github.com/users/januwA`).toPromise().then(v => v.dat ...
剑指offer——python【第29题】最小的K个数
题目描述输入n个整数,找出其中最小的K个数.例如输入4,5,1,6,2,7,3,8这8个数字,则最小的4个数字是1,2,3,4,. 思路先排序后取数,排序可以用冒泡,插入,选择,快排,二分法等等, ...

MongoSpark 28799错误

MongoSpark 28799错误的更多相关文章

随机推荐

热门专题