使用Spark下的corr计算皮尔森相似度Pearson时，报错Can only zip RDDs with same number of elements in each partition....

package com.huawei.bigdata.spark.examples

import org.apache.spark.mllib.stat.Statistics

import org.apache.spark.sql.types.DoubleType

import org.apache.spark.{SparkConf, SparkContext}

/**

  * Created by wulei on 2017/8/3.

  */

object PointCorrPredict {

  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setAppName("PointCorrPredict")

    val sc = new SparkContext(sparkConf)

    val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

    sqlContext.sql("use vio_offsite")

    //360111010002,360102029001

    val dataFrame = sqlContext.sql("select kk_id,direct,day,hour,cnt,speed from kk_hour_scale").orderBy("day","hour")

    val newDataFrame = dataFrame.filter("kk_id = '3601110100'and direct = '02'")

                      .orderBy(dataFrame("day").desc,dataFrame("hour").desc).select(dataFrame.col("cnt").cast(DoubleType)).limit(100)

      .rdd.map(row=>row.getAs[Double]("cnt"))

    /*val dd =  newDataFrame.collect().take(3)

   dd.foreach(println)*/

    val destinationDataFrame = sqlContext.sql("select origin_kakou,destination_kakou from kk_relation ")

    val newDestinationDataFrame = destinationDataFrame.filter("origin_kakou = '360111010002'").select("destination_kakou").collect()

    for (i <- 0 until newDestinationDataFrame.length){

      println(newDestinationDataFrame(i))

      println(newDestinationDataFrame(i).toString().substring(1,11))

      println(newDestinationDataFrame(i).toString().substring(11,13))

      val tmpDataFrame = dataFrame.filter("kk_id = '"+ newDestinationDataFrame(i).toString().substring(1,11)

                         +"' and direct = '"+newDestinationDataFrame(i).toString().substring(11,13)+"'")

                        .orderBy(dataFrame("day").desc,dataFrame("hour").desc).select(dataFrame.col("cnt").cast(DoubleType)).limit(100)

        .rdd.map(row=>row.getAs[Double]("cnt"))

      //tmpDataFrame.foreach(row => println(row))

      var correlationPearson: Double = Statistics.corr(newDataFrame,tmpDataFrame)//计算不同数据之间的相关系数:皮尔逊

      println("\ncorrelationPearson：" + correlationPearson) //打印结果

    }

    println("11111")

  sc.stop()

  }

}

实现代码如上，因为Statistics.corr（RDD[Double],RDD[Double]）,所以SparkSQL读取后的数据生成的dataFrame必须转换，第一步是转换成RDD[Row],Row就相当于sql查询出来的一条数据，这里也转换过多次才成功，最后百度得到可以先.cast(DoubleType)的形式。问题自己接触的少，要先看本质，然后看API，然后看案例就快了。

很明显可以从问题的描述上看是组之间的元素个数对应不上，但我已经被Row=>Double转晕了头，没有静心思考琢磨，没有专注仔细的自我对话，导致自己盲目的修改代码，还依然从转换问题上改变，后来转念一想才醒悟，以此警戒自己。limit

使用Spark下的corr计算皮尔森相似度Pearson时，报错Can only zip RDDs with same number of elements in each partition....的更多相关文章

linux下, 再次遇到使用thinkphp的模板标签时,报错used undefined function \Think\Template\simplexml_load_string() 是因为没有安装 php-xml包
linux下, 使用thinkphp的模板标签,如 eq, gt, volist defined, present , empty等标签时, 报错: used undefined function ...
Winform下CefSharp的引用、配置、实例与报错排除(源码)
Winform下CefSharp的引用.配置.实例与报错排除本文详细介绍了CefSharp在vs2013..net4.0环境下,创建Winfrom项目.引用CefSharp的方法,演示了winfro ...
linux下启动dbca或netmgr类的图形界面报错解决
linux下启动dbca或netmgr类的图形界面报错解决 Xlib: connection to ":0.0" refused by server Xlib: No pro ...
【HANA系列】SAP HANA计算视图(calculation views)使用RANK报错
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[HANA系列]SAP HANA计算视图(cal ...
rdlc报表在vs2008下编辑正常，在vs2012上编辑就报错
最近我们的系统的开发工具由vs2008升级到了2012,由于系统中很多报表都是用rdlc来开发的,今天遇到有报表需要改动的需求,就直接使用vs2012对rdlc报表进行了编辑,结果改完后,怎么预览报 ...
python3.7环境下创建app、运行Django1.11版本项目报错Generator expression must be parenthesized
有些同学喜欢追求新鲜感~但追求新鲜感终归是要付出一点点代价的在编程领域有一句至理名言:用东西不要用最新的! 就像每次苹果系统的升级都会有相当一部分用户的手机成砖一样下面我们就介绍一个因版本升级带来 ...
python3.7环境下创建app，运行Django1.11版本项目报错SyntaxError: Generator expression must be parenthesized
咳咳!!! 今天用命令行创建django项目中的app应用,出现了这样一个错误这个错误在python3.6版本下安装运行django 1.11版本正常运行,但python3.7版本下运行django ...
Android 编程下 java.lang.NoClassDefFoundError: cn.jpush.android.api.JPushInterface 报错
使用了极光推送的 jar 包项目在从 SVN 中检出后,假设不又一次对 jar 包和 Bulid Path 进行配置就会抛出 java.lang.NoClassDefFoundError: cn.jp ...
Centos下_MysqL5.7在使用mysqldump命令备份数据库报错：mysqldump: [Warning] Using a password on the command line interface can be insecure.
在阿里云服务器增加一个shell脚本定时备份数据库脚本执行任务时,测试性的执行了备份命令,如下 [root@iZ2ze503xw2q1fftv5rhboZ mysql_bak]# /usr/local ...

随机推荐

wslgit
@echo off setlocal enabledelayedexpansion set command=%* If %PROCESSOR_ARCHITECTURE% == x86 ( echo | ...
PostgreSQL+PostGIS安装以及使用
安装,参照: https://www.cnblogs.com/ytwy/p/6817179.html 创建企业级地理文件数据库时报错," You must copy the lates ...
Shell实现判断进程是否存在并重新启动脚本
Shell实现判断进程是否存在并重新启动脚本 - superbfly的专栏 - CSDN博客 https://blog.csdn.net/superbfly/article/details/52513 ...
CALayer的子类之CAShapeLayer
一,CAShapeLayer介绍 * CAShapeLayer继承自CALayer,属于QuartzCore框架,可使用CALayer的所有属性. CAShapeLayer是在坐标系内绘制贝塞尔曲 ...
网易云课堂-spark
==============================Flink比spark优秀,但既生瑜何生亮,所以Flink没火起来为了使用sortbykey,需要RDD的元素是key-value的形式 ...
LeetCode 976 Largest Perimeter Triangle 解题报告
题目要求 Given an array A of positive lengths, return the largest perimeter of a triangle with non-zero ...
unity插件，从一段文字中提取中文并去重
using System.Collections.Generic; using System.Text.RegularExpressions; using UnityEditor; using Uni ...
洛谷P3237 米特运输 [HNOI2014] hash/二进制分解
正解:hash/二进制分解解题报告: 传送门! umm首先提取下题意趴QAQ 大概是说给一棵树,每个点有一个权值,要求修改一些点的权值,使得同一个父亲的儿子权值相同,且父亲的权值必须是所有儿子权值之 ...
oracle中实现当前月减少或增加N个月
add_months(last_day(trunc(sysdate)),N)N可以为正,表示增加:N可以为负,表示减少.
JSON.parseObject 和 JSON.toJSONString
JSON.parseObject,是将Json字符串转化为相应的对象:JSON.toJSONString则是将对象转化为Json字符串.在前后台的传输过程中,Json字符串是相当常用的,这里就不多介绍 ...

使用Spark下的corr计算皮尔森相似度Pearson时，报错Can only zip RDDs with same number of elements in each partition....

使用Spark下的corr计算皮尔森相似度Pearson时，报错Can only zip RDDs with same number of elements in each partition....的更多相关文章

随机推荐

热门专题