一:准备 1.源数据 2.上传数据 二:TopN程序编码 1.程序 package com.ibeifeng.bigdata.spark.core import java.util.concurrent.ThreadLocalRandom import org.apache.spark.{SparkConf, SparkContext} /** * 分组TopN:按照第一个字段分组:同一组中,按照第二个字段进行排序:每一组中,获取出现最多的前K个数据. * Created by ibf on 0…
由于预处理的数据都存储在cassandra里面,所以想要用spark进行数据分析的话,需要读取cassandra数据,并把分析结果也一并存回到cassandra:因此需要研究一下spark如何读写cassandra. 话说这个单词敲起来好累,说是spark,其实就是看你开发语言是否有对应的driver了. 因为cassandra是datastax主打的,所以该公司也提供了spark的对应的driver了,见这里. 我就参考它的demo,使用scala语言来测试一把. 1.执行代码 //Cassa…
1. Spark中的基本概念 Application:基于Spark的用户程序,包含了一个driver program和集群中多个executor. Driver Program:运行Application的main()函数并创建SparkContext.通常SparkContext代表driver program. Executor:为某Application运行在worker node上的一个进程.该进程负责运行Task,并负责将数据存在内存或者磁盘 上.每个Application都有自己独…
代码及使用示例:https://github.com/wlu-mstr/spark-phoenix-dynamic phoenix dynamic columns HBase的数据模型是动态的,很多系统得益于这一特性.在使用了Phoenix后自然也希望继续使用动态schema特性,有幸,Phoenix支持dynamic column. 例如: Query SELECT eventTime, lastGCTime, usedMemory, maxMemory FROM EventLog(lastG…
一.排名 /*普通排名:从1开始,顺序往下排*/ AS rank ) r ORDER BY score; /*并列排名:相同的值是相同的排名*/ SELECT cs.* , CASE WHEN @p=score THEN @r END rank ,@p:=NULL)r ORDER BY score; /*并列排名:相同的值名次相同,与上例中的并列排名不同*/ SELECT city,score,rank FROM ( SELECT cs.*, @c:=IF(@p=score,@c,@r) AS…
制作测试数据源: c1 85 c2 77 c3 88 c1 22 c1 66 c3 95 c3 54 c2 91 c2 66 c1 54 c1 65 c2 41 c4 65 spark scala实现代码: import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object GroupTopN1 { System.setProperty("hadoop.home.dir", "D:…
表结构设计: 实现select取行号 sql局部变量的2种方式 set @name='cm3333f'; select @id:=1; 区别:set 可以用=号赋值,而select 不行,必须使用:= 方法1: 由上述可得出,我们可以通过局部变量的方式来获取行号,sql如下: set @rownum=0: from test order by pname desc,pview desc ; 可实现,但需要给他先设置局部变量,在实际项目应用中,不方便 由此得出进阶版本: ,) from test…
原文地址:https://codedefault.com/s/how-can-i-retrieve-the-last-record-in-each-group-mysql 问题描述 比如,在MySQL数据库中,有数据表messages和数据记录,如下: Id Name Other_Columns ------------------------- 1 A A_data_1 2 A A_data_2 3 A A_data_3 4 B B_data_1 5 B B_data_2 6 C C_data…
获取分组后取某字段最大一条记录 方法一:(效率最高) select * from test as a where typeindex = (select max(b.typeindex) from test as b where a.type = b.type ); 方法二:(效率次之) select a.* from test a, (select type,max(typeindex) typeindex from test group by type) b where a.type = b…
1.四个需求 需求一:求contentsize的平均值.最小值.最大值 需求二:请各个不同返回值的出现的数据 ===> wordCount程序 需求三:获取访问次数超过N次的IP地址 需求四:获取访问次数最多的前K个endpoint的值 ==> TopN 2.主程序LogAnalyzer.scala package com.ibeifeng.bigdata.spark.core.log import org.apache.spark.rdd.RDD import org.apache.spar…