Spark- 求最受欢迎的TopN课程

数据库操作工具类

package com.rz.mobile_tag.utils

import java.sql.{Connection, DriverManager, PreparedStatement}

object MySQLUtils {

  /**

    * 获取数据库连接

    * @return

    */

  def getConnection()={

    DriverManager.getConnection("jdbc:mysql://localhost:3306/bigdata?user=root&password=root")

  }

  /**

    * 释放数据库连接等资源

    * @param conn

    * @param pstmt

    */

  def release(conn:Connection, pstmt:PreparedStatement)={

    try {

      if (pstmt !=null){

        pstmt.close()

      }

    }catch {

      case e:Exception => e.printStackTrace()

    }finally {

      if (conn != null){

        conn.close()

      }

    }

  }

}

数据操作类：优化点（使用批量插入数据库，提交使用batch操作）

package com.rz.mobile_tag.dao

import java.sql.{Connection, PreparedStatement}

import com.rz.mobile_tag.bean.DayVideoAccessStat

import com.rz.mobile_tag.utils.MySQLUtils

import scala.collection.mutable.ListBuffer

object StatDao {

  /**

    * 批量保存DayVideoAccessStat到数据库

    * @param list

    */

  def insertDayVideoAccessTopN(list: ListBuffer[DayVideoAccessStat]): Unit = {

    var connection:Connection = null;

    var pstmt:PreparedStatement = null;

    try {

      connection = MySQLUtils.getConnection()

      connection.setAutoCommit(false) // 设置手动提交

      val sql ="insert into day_video_access_topn_stat(day,cms_id,times) value(?,?,?)"

      pstmt = connection.prepareStatement(sql)

      for (ele <- list){

        pstmt.setString(1, ele.day)

        pstmt.setLong(2,ele.cmsId)

        pstmt.setLong(3, ele.times)

        pstmt.addBatch()

      }

      pstmt.executeBatch() // 执行批量处理

      connection.commit() // 手工提交

    }catch {

      case e:Exception =>e.printStackTrace()

    }finally {

      MySQLUtils.release(connection, pstmt)

    }

  }

}

业务实现类

package com.rz.mobile_tag.log

import com.rz.mobile_tag.bean.DayVideoAccessStat

import com.rz.mobile_tag.dao.StatDao

import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

import org.apache.spark.sql.functions._

import scala.collection.mutable.ListBuffer

object TopNStatJob {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName(s"${this.getClass.getSimpleName}")

      .config("spark.sql.sources.partitionColumnTypeInference.enabled","false")

      .master("local[2]")

      .getOrCreate()

    val accessDF: DataFrame = spark.read.format("parquet").load(args(0))

    accessDF.printSchema()

    accessDF.show(false)

    // 最受欢迎的TopN课程

    videoAccessTopNStat(spark, accessDF)

    spark.stop()

  }

  /**

    * 最受欢迎的TopN课程

    * @param spark

    * @param accessDF

    */

  def videoAccessTopNStat(spark: SparkSession, accessDF: DataFrame) = {

//    import spark.implicits._

//    val videoAccesssTopNDF: Dataset[Row] = accessDF.filter($"day" === "20190506" && $"cmsType" === "video")

//      .groupBy("day", "cmsId")

//      .agg(count("cmsId")).as("times").orderBy($"times".desc)

//    videoAccesssTopNDF.show(false)

    accessDF.createOrReplaceTempView("access_logs")

    // 使用SQL方式进行统计

    val videoAccesssTopNDF: DataFrame = spark.sql("select day, cmsId, count(1) as times from access_logs" +

      " where day = '20190506' and cmsType = 'video' group by day, cmsId" +

      " order by times desc")

    //videoAccesssTopNDF.show(false)

    // 将统计数据写入到MySQL中

    try{

      videoAccesssTopNDF.foreachPartition(partitionOfRecords=>{

        val list = new ListBuffer[DayVideoAccessStat]

        partitionOfRecords.foreach(info =>{

          val day = info.getAs[String]("day")

          val cmsId = info.getAs[Long]("cmsId")

          val times = info.getAs[Long]("times")

          list.append(DayVideoAccessStat(day, cmsId, times))

        })

        StatDao.insertDayVideoAccessTopN(list)

      })

    }catch {

      case e:Exception => e.printStackTrace()

    }

  }

}

Spark- 求最受欢迎的TopN课程的更多相关文章

大数据学习day21-----spark04------1. 广播变量 2. RDD中的cache 3.RDD的checkpoint方法 4. 计算学科最受欢迎老师TopN
1. 广播变量 1.1 补充知识(来源:https://blog.csdn.net/huashetianzu/article/details/7821674) 之所以存在reduce side jo ...
Spark：求出分组内的TopN
制作测试数据源: c1 85 c2 77 c3 88 c1 22 c1 66 c3 95 c3 54 c2 91 c2 66 c1 54 c1 65 c2 41 c4 65 spark scala实现 ...
连通图 poj2186 最受欢迎的牛（求最受欢迎的牛的数量）
Popular Cows Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 27531 Accepted: 11077 De ...
MapReduce显示最受欢迎的Top10课程（按照课程编号）
上篇博客已经说过,会将代码进行优化,并通过TreeMap进行排序实现,现在简单说明一下代码的思路. 项目以上传到github:https://github.com/yandashan/MapReduc ...
spark求相同key的最大值
需求: 求相同key的最大值 [("a", 3), ("a", 2), ("a", 5), ("b", 5), ...
Zeppelie连接jdbc的使用
1. 下载 wget http://apache.mirror.cdnetworks.com/zeppelin/zeppelin-0.8.1/zeppelin-0.8.1-bin-all.tgz 2. ...
大数据学习day29-----spark09-------1. 练习：统计店铺按月份的销售额和累计到该月的总销售额（SQL, DSL,RDD） 2. 分组topN的实现（row_number(), rank(), dense_rank()方法的区别）3. spark自定义函数-UDF
1. 练习数据: (1)需求1:统计有过连续3天以上销售的店铺有哪些,并且计算出连续三天以上的销售额第一步:将每天的金额求和(同一天可能会有多个订单) SELECT sid,dt,SUM(mone ...
一些推荐的spark/hadoop课程
为了分享给你们,也为自己. 感谢下面的老师们! 1.王家林DT大数据梦工厂的大数据IMF传奇行动课程总的目录是: 第一阶段:Linux和Java零基础企业级实战第二阶段:Hadoop和Hive零基 ...
[PY3]——求TopN/BtmN 和排序问题的解决
需求 K长的序列,求TopN K长的序列,求BtmN 排序问题解决 heap.nlargest().heap.nsmallest( ) sorted( )+切片 max( ).min( ) 总结和比 ...

随机推荐

awk.sed.grep三剑客详解
事前准备1.主机node1:172.16.133.112.作为实验的文件/etc/passwd /etc/fstab qinqin cp /etc/passwd . cp /etc/fstab . 一 ...
Swing实现系统托盘
/* 实现系统托盘化 */ protected void setToolSystemTray() { // 系统是否支持系统托盘 if (SystemTray.isSupported()) { // ...
PHP 学习内容
第一阶段: (PHP+MySQL核心编程) 面向对象编程 MySQL数据库, MySQL的优化细节. HTTP协议,http也是我们web开发的基石.对我们了解PHP底层机制有很大帮助,做到知其然,还 ...
java学习日历输出(一)
import java.text.DateFormatSymbols; import java.util.Calendar; import java.util.GregorianCalendar; i ...
iOS开发---业务逻辑
iOS开发---业务逻辑 1. 业务逻辑 iOS的app开发的最终目的是要让用户使用, 用户使用app完成自己的事就是业务逻辑, 业务逻辑的是最显眼开发工作.但是业务逻辑对于开发任务来说, 只是露 ...
android webview 加载本地html 实现与 java 之间的相互响应
1.布局 <?xml version="1.0" encoding="utf-8"?><RelativeLayout xmlns:androi ...
python pymysql安装
==================pymysql=================== 由于 MySQLdb 模块还不支持 Python3.x,所以 Python3.x 如果想连接MySQL需要安装 ...
Razor里写函数
asp.net mvc的视图里使用Razor来书写服务器代码,人尽皆知.可以常常见到里面写上for循环语句,输出一大堆东东,牛逼得很. 可是,如果循环语句还不能满足我们的要求,需要定义一个函数来调用, ...
c3p0;jdbc;dbcp；mybatis；ubutils；
[说明]今天还是完成了一定东西的,上午是jdbc的测试,下午是数据库连接池和 dbutils 的测试,晚上是mybatis的测试,都是找了一些网上的例子运行了一下,解决出现的问题. 一:今日完成 ...
poj1135
Domino Effect Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 10454 Accepted: 2590 De ...

Spark- 求最受欢迎的TopN课程

Spark- 求最受欢迎的TopN课程的更多相关文章

随机推荐

热门专题