二、通过DataFrame实战电影点评系统

　　DataFrameAPI是从Spark 1.3开始就有的，它是一种以RDD为基础的分布式无类型数据集，它的出现大幅度降低了普通Spark用户的学习门槛。

　　DataFrame类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于，前者带有schema元信息，即DataFrame表示的二维表数据集的每一列都带有名称和类型。这使得Spark SQL得以解析到具体数据的结构信息，从而对DataFrame中的数据源以及对DataFrame的操作进行了非常有效的优化，从而大幅提升了运行效率。

　　现在我们通过实现几个功能来了解DataFrame的具体用法。先来看第一个功能：通过DataFrame实现某部电影观看者中男性和女性不同年龄分别有多少人。

    println("========================================")

    println("功能一：通过DataFrame实现某部电影观看者中男性和女性不同年龄人数")

    // 首先把User的数据格式化，即在RDD的基础上增加数据的元数据信息

    val schemaForUsers = StructType(

        "UserID::Gender::Age::OccupationID::Zip-code".split("::")

        .map(column => StructField(column,StringType,true))

    )

    // 然后把我们的每一条数据变成以Row为单位的数据

    val usersRDDRows = usersRDD.map(_.split("::")).map(

        line => Row(line(0).trim(),line(1).trim(),line(2).trim(),line(3).trim(),line(4).trim())

    )

    // 使用SparkSession的createDataFrame方法，结合Row和StructType的元数据信息 基于RDD创建DataFrame，

    // 这时RDD就有了元数据信息的描述

    val usersDataFrame = spark.createDataFrame(usersRDDRows, schemaForUsers)

    // 也可以对StructType调用add方法来对不同的StructField赋予不同的类型

    val schemaforratings = StructType(

        "UserID::MovieID".split("::")

        .map(column => StructField(column,StringType,true)))

        .add("Rating",DoubleType,true)

        .add("Timestamp",StringType,true)

     val ratingsRDDRows = ratingsRDD.map(_.split("::")).map(

         line => Row(line(0).trim(),line(1).trim(),line(2).trim().toDouble,line(3).trim())

     )

     val ratingsDataFrame = spark.createDataFrame(ratingsRDDRows, schemaforratings)

     // 接着构建movies的DataFrame

     val schemaformovies = StructType(

         "MovieID::Title::Genres".split("::")

         .map(column => StructField(column,StringType,true))

     )

     val moviesRDDRows = moviesRDD.map(_.split("::")).map(line => Row(line(0).trim(),line(1).trim(),line(2).trim()))

     val moviesDataFrame = spark.createDataFrame(moviesRDDRows, schemaformovies)

    // 这里能够直接通过列名MovieID为1193过滤出这部电影，这些列名都是在上面指定的

    /*

     * Join的时候直接指定基于UserID进行Join，这相对于原生的RDD操作而言更加方便快捷

     * 直接通过元数据信息中的Gender和Age进行数据的筛选

     * 直接通过元数据信息中的Gender和Age进行数据的groupBy操作

     * 基于groupBy分组信息进行count统计操作，并显示出分组统计后的前10条信息

     */

    ratingsDataFrame.filter(s"MovieID==1193")

        .join(usersDataFrame,"UserID")

        .select("Gender", "Age")

        .groupBy("Gender", "Age")

        .count().show(10)

　　上面案例中的代码无论是从思路上，还是从结构上都和SQL语句十分类似，下面通过写SQL语句的方式来实现上面的案例。

    println("========================================")

    println("功能二:用LocalTempView实现某部电影观看者中不同性别不同年龄分别有多少人")

    // 既然使用SQL语句，那么表肯定是要有的，所以需要先把DataFrame注册为临时表

    ratingsDataFrame.createTempView("ratings")

    usersDataFrame.createTempView("users")

    // 然后写SQL语句，直接使用SparkSession的sql方法执行SQL语句即可。

    val sql_local = "SELECT Gender,Age,count(*) from users u join ratings as r on u.UserID=r.UserID where MovieID=1193 group by Gender,Age"

    spark.sql(sql_local).show(10)

　　这篇博文主要来自《Spark大数据商业实战三部曲》这本书里面的第一章，内容有删减，还有本书的一些代码的实验结果。随书附赠的代码库链接为：https://github.com/duanzhihua/code-of-spark-big-data-business-trilogy

Spark实战电影点评系统(二)的更多相关文章

Spark实战电影点评系统(一)
一.通过RDD实战电影点评系统日常的数据来源有很多渠道,如网络爬虫.网页埋点.系统日志等.下面的案例中使用的是用户观看电影和点评电影的行为数据,数据来源于网络上的公开数据,共有3个数据文件:uers ...
基于Spark的电影推荐系统（实战简介）
写在前面一直不知道这个专栏该如何开始写,思来想去,还是暂时把自己对这个项目的一些想法和大家分享的形式来展现.有什么问题,欢迎大家一起留言讨论. 这个项目的源代码是在https://github. ...
实战Java虚拟机之二“虚拟机的工作模式”
今天开始实战Java虚拟机之二:“虚拟机的工作模式”. 总计有5个系列实战Java虚拟机之一“堆溢出处理” 实战Java虚拟机之二“虚拟机的工作模式” 实战Java虚拟机之三“G1的新生代GC” 实 ...
编程实战——电影管理器之界面UI及动画切换
编程实战——电影管理器之界面UI及动画切换在前文“编程实战——电影管理器之利用MediaInfo获取高清视频文件的相关信息”中提到电影管理器的目的是方便播放影片,在想看影片时不需要在茫茫的文件夹下找 ...
ETL利器Kettle实战应用解析系列二
本系列文章主要索引如下: 一.ETL利器Kettle实战应用解析系列一[Kettle使用介绍] 二.ETL利器Kettle实战应用解析系列二 [应用场景和实战DEMO下载] 三.ETL利器Kettle ...
（转载）Android项目实战（三十二）：圆角对话框Dialog
Android项目实战(三十二):圆角对话框Dialog 前言: 项目中多处用到对话框,用系统对话框太难看,就自己写一个自定义对话框. 对话框包括:1.圆角 2.app图标 , 提示文本,关闭对话 ...
基于Spark的电影推荐系统（推荐系统~2）
第四部分-推荐系统-数据ETL 本模块完成数据清洗,并将清洗后的数据load到Hive数据表里面去前置准备: spark +hive vim $SPARK_HOME/conf/hive-site.x ...
基于Spark的电影推荐系统（推荐系统~4）
第四部分-推荐系统-模型训练本模块基于第3节数据加工得到的训练集和测试集数据做模型训练,最后得到一系列的模型,进而做预测. 训练多个模型,取其中最好,即取RMSE(均方根误差)值最小的模型说 ...
基于Spark的电影推荐系统（推荐系统~7）
基于Spark的电影推荐系统(推荐系统~7) 22/100 发布文章 liuge36 第四部分-推荐系统-实时推荐本模块基于第4节得到的模型,开始为用户做实时推荐,推荐用户最有可能喜爱的5部电影. ...

随机推荐

pwd函数实现
/* * 文件名:mypwd.c * 描述: 实现简单的pwd命令 */ #include<stdio.h> #include<stdlib.h> #include<di ...
js浮点数精度丢失问题及如何解决js中浮点数计算不精准
js中进行数字计算时候,会出现精度误差的问题.先来看一个实例: console.log(0.1+0.2===0.3);//false console.log(0.1+0.1===0.2);//true ...
KAFKA && zookeeper 集群安装
服务器:#vim /etc/hosts10.16.166.90 sh-xxx-xxx-xxx-online-0110.16.168.220 sh-xx-xxx-xxx-online-0210.16.1 ...
[技术博客] win10下vagrant+centos7 rails虚拟开发机配置流程
由于少昂早年已经在此踩过坑了,因此在这里,我们现在直接贴上他早年的博客链接:https://www.cnblogs.com/HansBug/p/7403306.html
冰多多团队-第九次Scrum例会
冰多多团队-第九次Scrum会议工作情况团队成员已完成任务待完成任务 zpj debug, IAT debug, IAT 牛雅哲 debug, IAT 接通新的语音识别接口和termux,完成 ...
[BUAA 软工]提问回顾与个人总结
项目内容这个作业属于哪个课程北航软工这个作业的要求在哪里提问回顾与个人总结我在这个课程的目标是学习如何以团队的形式开发软件,提升个人软件开发能力这个作业在哪个具体方面帮助我实现目标督 ...
安装anaconda和tensorflow(windows)
Anaconda安装时勾选All User和启用环境变量可切换为清华镜像conda config --add channels https://mirrors.tuna.tsinghua.edu.cn ...
Centos 7.x卸载ibus黑屏修复及fcitx搜狗拼音安装方法
ibus黑屏修复百度出来的fcitx安装方法,都要卸载ibus,如果没有注意同时卸载掉的依赖包的话,gnome桌面中的一些关键库也没被卸载. 修复方法很简单,重新安装Gnome sudo yum - ...
【Python】解析Python中的装饰器
python中的函数也是对象,函数可以被当作变量传递. 装饰器在python中功能非常强大,装饰器允许对原有函数行为进行扩展,而不用硬编码的方式,它提供了一种面向切面的访问方式. 装饰器一个普通的装 ...
MySQL语句和命令大全
前言这里记录的是这两年学习工作过程中遇到的常用的 MySQL 语句和命令,部分是网上收集来的,出处已经不记得了,这里先谢过这些大佬.本文包括常见 SQL 语句,还有部分运维语句和命令,没有做详细的说 ...

Spark实战电影点评系统(二)

二、通过DataFrame实战电影点评系统

Spark实战电影点评系统(二)的更多相关文章

随机推荐

热门专题