Spark算子---实战应用

Spark算子实战应用

数据集 ：http://grouplens.org/datasets/movielens/ MovieLens 1M Datase

相关数据文件：

users.dat ---UserID::Gender::Age::Occupation::Zip-code

movies.dat --- MovieID::Title::Genres

ratings.dat ---UserID::MovieID::Rating::Timestamp

SogouQ.mini

完成以下业务需求：

1. 年龄段在“18-24”的男性年轻人，最喜欢看哪10部

2.得分最高的10部电影；看过电影最多的前10个人；女性看多最多的10部电影；男性看过最多的10部电影

3.利用数据集SogouQ2012.mini.tar.gz 将数据按照访问次数进行排序，求访问量前10的网站

scala实现代码如下：

package hw3

import org.apache.spark._

import scala.collection.immutable.HashSet

import org.apache.spark.rdd.RDD

/**

 * @author BIGDATA

 */

object spark_hw3{

  var sc:SparkContext=null

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setAppName("MovieDemo")

              .setMaster("local")

    sc=new SparkContext(conf)
　　//准备数据

     val rating=sc.textFile("C:\\Users\\BIGDATA\\Desktop\\文件\\BigData\\Spark\\3.SparkCore_2\\data\\data\\ratings.dat")

              .map(_.split("::")).map {x => (x(0),x(1),x(2))}
　　//年龄段在“18-24”的男性年轻人，最喜欢看哪10部

    top10LookeMovie

　　//得分最高的10部电影

    val topKScoreMostMovie = rating.map{x =>

      (x._2, (x._3.toInt, 1))

    }.reduceByKey { (v1, v2) =>

      (v1._1 + v2._1, v1._2 + v2._2)

    }.map { x =>

      (x._2._1.toDouble / x._2._2.toDouble, x._1)

    }.sortByKey(false).

        take(10).

        foreach(println)

    
　　　//女性看最多的10部电影

    top10FaleLookMovie

　　//男性看最多的10部电影

    top10MaleLookMovie


　　//看过电影最多的前10个人

    val topKmostPerson = rating.map{ x =>

      (x._1, 1)

    }.reduceByKey(_ + _).

        map(x =>(x._2, x._1)).

        sortByKey(false).

        take(10).

        foreach(println)

     val brower = sc.textFile("C:\\Users\\BIGDATA\\Desktop\\文件\\BigData\\Spark\\3.SparkCore_2\\SogouQ2012.mini\\SogouQ.mini")

     val brs=brower.map(_.split("\t")).map { x =>

          x(5)

    }.cache

    //访问量前10的网站

     val topKBrower = brs.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_)

    .sortBy(_._2, false)

    .take(10)

    .foreach(println)

  }

  /**

    * @param sc SparkContext对象

    * @return 返回用户信息

    */

  def getUsers(sc:SparkContext):RDD[Array[String]]={

    val scobj=sc

    val users=scobj.textFile("C:\\Users\\BIGDATA\\Desktop\\文件\\BigData\\Spark\\3.SparkCore_2\\data\\data\\users.dat")

                  .map(_.split("::"))

    users

  }

  /**

    * @param sc

    * @return 返回电影信息

    */

  def getMovies(sc:SparkContext):RDD[Array[String]]={

    val scobj=sc

    val movies=scobj.textFile("C:\\Users\\BIGDATA\\Desktop\\文件\\BigData\\Spark\\3.SparkCore_2\\data\\data\\movies.dat")

                .map(_.split("::"))

    movies

  }

  /**

    *

    * @param sc

    * @return 电影评分信息

    */

  def getRatings(sc:SparkContext):RDD[Array[String]]={

    val scobj=sc

    val ratings=scobj.textFile("C:\\Users\\BIGDATA\\Desktop\\文件\\BigData\\Spark\\3.SparkCore_2\\data\\data\\ratings.dat")

              .map(_.split("::"))

    ratings

  }

  def top10LookeMovie: Unit ={

    //获取年龄段在“18-24”的男性年轻人的userid

    val users=getUsers(sc)

    val userList=users.filter(x=>x(1).equals("M") && x(2).toInt>=18 && x(2).toInt<=24)

      .map(x=>x(0)).collect()

    //注意：HashSet()后面要带小括号

    val userSet=HashSet() ++ userList

    //创建广播变量

    val broadcastUserSet=sc.broadcast(userSet)

    //统计出１８－２４岁男性喜欢看的前１０名电影的movieid和次数

    val ratings=getRatings(sc)

    val topNMovies=ratings.map(x=>(x(0),x(1))) //ratings中所有的(userid,movieid)

      //从rating数据过滤出“18-24”的男性年轻人的观影信息

      .filter(x=>broadcastUserSet.value.contains(x._1))

      .map(x=>(x._2,1))

      .reduceByKey(_+_) //(movieid,次数)

      .sortBy(_._2,false)

      .take(10) //(movieid,次数)

    val movies=getMovies(sc)

    //获取所有电影的(movieid,title)

    val movieTitle=movies.map(x=>(x(0),x(1))).collect().toMap

    topNMovies.map(x=>(movieTitle.getOrElse(x._1,null),x._2))

      .foreach(x=>println(x._1+"  "+x._2))

  }

  /**

    * 女性看过最多的10部电影

    */

  def top10FaleLookMovie: Unit ={

    val users = getUsers(sc)

    //获取所有女性的userid

    val faleUserId = users.filter(x => x(1).equals("F"))

      .map(x => x(0)).collect()

    val faleUserSet = HashSet() ++ faleUserId

    //创建广播变量，里面存储所有女性的userid

    val broadcastFaleSet = sc.broadcast(faleUserSet)

    val ratings = getRatings(sc)

    //统计出女性看过最多的１０部电影的(movieid,观看次数)

    val top10moiveid = ratings.map(x => (x(0), x(1))) //(userid,movieid)

      //过滤出女性观影数据

      .filter(x => broadcastFaleSet.value.contains(x._1))

      .map(x => (x._2, 1)) //(movieid,1)

      .reduceByKey(_ + _)

      .sortBy(_._2, false)

      .take(10)

    val top10movieRDD=sc.parallelize(top10moiveid) //(movieid,次数)

    val movies=getMovies(sc)

    val allmoviesRDD=movies.map(x=>(x(0),x(1))) //(movieid,title)

    //对两个ＲＤＤ进行join操作，取二者的共同匹配项

    allmoviesRDD.join(top10movieRDD) //(movieid,(title,次数))

      .map(x=>(x._1,x._2._1,x._2._2))

      .foreach(x=>println(x._1+"  "+x._2+"  "+x._3))

  }

  /**

    * 男性看过最多的10部电影

    */

  def top10MaleLookMovie: Unit ={

    val users = getUsers(sc)

    //获取所有男性的userid

    val faleUserId = users.filter(x => x(1).equals("M"))

      .map(x => x(0)).collect()

    val faleUserSet = HashSet() ++ faleUserId

    //创建广播变量，里面存储所有男性的userid

    val broadcastFaleSet = sc.broadcast(faleUserSet)

    val ratings = getRatings(sc)

    //统计出男性看过最多的１０部电影的(movieid,观看次数)

    val top10moiveid = ratings.map(x => (x(0), x(1))) //(userid,movieid)

      //过滤出男性观影数据

      .filter(x => broadcastFaleSet.value.contains(x._1))

      .map(x => (x._2, 1)) //(movieid,1)

      .reduceByKey(_ + _)

      .sortBy(_._2, false)

      .take(10)

    val top10movieRDD=sc.parallelize(top10moiveid) //(movieid,次数)

    val movies=getMovies(sc)

    val allmoviesRDD=movies.map(x=>(x(0),x(1))) //(movieid,title)

    //对两个ＲＤＤ进行join操作，取二者的共同匹配项

    allmoviesRDD.join(top10movieRDD) //(movieid,(title,次数))

      .map(x=>(x._1,x._2._1,x._2._2))

      .foreach(x=>println(x._1+"  "+x._2+"  "+x._3))

  }

}

Spark算子---实战应用的更多相关文章

Spark入门实战系列--1.Spark及其生态圈简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介年6月进入Apache成为孵化项目,8个月后成为Apache ...
Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spar ...
倾情大奉送--Spark入门实战系列
这一两年Spark技术很火,自己也凑热闹,反复的试验.研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家.这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介.编译.部署,再到编 ...
Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Tachyon介绍 1.1 Tachyon简介随着实时计算的需求日益增多,分布式内存计算 ...
Spark入门实战系列--2.Spark编译与部署（上）--基础环境搭建
[注] 1.该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取: 2.Spark编译与部署将以CentOS 64位操作系统为基础,主要是考虑到实际应用 ...
Spark入门实战系列--2.Spark编译与部署（中）--Hadoop编译安装
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .编译Hadooop 1.1 搭建环境 1.1.1 安装并设置maven 1. 下载mave ...
Spark入门实战系列--2.Spark编译与部署（下）--Spark编译安装
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .编译Spark .时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 ...
Spark入门实战系列--3.Spark编程模型（下）--IDEA搭建及实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 . 安装IntelliJ IDEA IDEA 全称 IntelliJ IDEA,是java语 ...
Spark入门实战系列--4.Spark运行架构
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1. Spark运行架构 1.1 术语定义 lApplication:Spark Appli ...

随机推荐

Eclipse设置项目默认编码和换行符类型
为了实现不同操作系统间的Eclipse项目移植的一致性. 一.建议设置如下: 1. 默认的项目编码统一用UTF-8 2. 默认的换行符用UNIX类型二.具体的配置点见下图:
Android资源文件 - 使用资源存储字符串颜色尺寸整型布尔值数组
一. Android资源文件简介 1. Android应用资源的作用 (1) Android项目中文件分类在Android工程中, 文件主要分为下面几类 : 界面布局文件, Java src源文件, ...
android surfaceView 的简单使用画图，拖动效果
前面说到了画图,其实更好的就是使用 surfaceView了. surfaceView 继承于 View,View里面嵌套了一个专门用于画图的 surface, 对于一个View的onDraw()方法 ...
启动supervisord 生成openvpn用于android的证书
service supervisord start netstat -anp | grep 你的端口号生成证书: 进入到openvpn的证书生成文件夹,通常在/etc/openvpn/easy-r ...
mysql -- 优化之ICP(index condition pushdown)
一.为了方法说明ICP是什么.假设有如下的表和查询: create table person( id int unsigned auto_increment primary key, home_add ...
unity, ContentSizeFitter立即生效
ugui Text上添加了ContentSizeFitter组件后,如果在代码里对Text.text重新赋值,文本框并不会马上改变大小,而是会延迟到下一帧. 如果想立刻生效,需要调用 Text.Get ...
vivado 调用UE
【Unity】6.5 Time类、Mathf类、Coroutine类
分类:Unity.C#.VS2015 创建日期:2016-04-20 一.Time类 Unity引擎提供的Time类可获取和时间有关的信息.计算帧速率.调整时间流逝速度等. 1.成员变量 2.示例 ( ...
android 通过命令行启动Apk
几个启动指定程序activity的例子 Music 和 Video(音乐和视频)的启动方法为: # am start -n com.android.music/com.android.music.Mu ...
哈佛大学 Machine Learning
https://am207.github.io/2017/material.html https://am207.github.io/2017/topics.html https://am207.gi ...

Spark算子---实战应用

Spark算子---实战应用的更多相关文章

随机推荐

热门专题