Spark实现销量统计】的更多相关文章

package com.mengyao.examples.spark.core; import java.io.Serializable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; import org.apache.spark.SparkConf; impor…
4. 假设检验 基础回顾: 假设检验,用于判断一个结果是否在统计上是显著的.这个结果是否有机会发生. 显著性检验 原假设与备择假设 常把一个要检验的假设记作 H0,称为原假设(或零假设) (null hypothesis) 与H0对立的假设记作H1,称为备择假设(alternative hypothesis) 拟合优度Goodness of Fit,是指回归直线对观测值的拟合程度. 对非线性方程: (1)计算残差平方和 Q =∑(y-y*)2 和 ∑y2 ,其中,y 代表的是实测值,y* 代表的…
1.  概括统计 summary statistics MLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现. colStats返回一个 MultivariateStatisticalSummary 对象,这个对象包含列式的最大值.最小值.均值.方差等等. import org.apache.spark.mllib.linalg.Vector import org.apache.spark.mllib.stat.{Multivaria…
1.准备 事先在hdfs上创建两个目录: 保存上传数据的目录:hdfs://alamps:9000/library/SparkStreaming/data checkpoint的目录:hdfs://alamps:9000/library/SparkStreaming/CheckPoint_data ------------------------------------------------------ 2.源码 package stream; import java.util.Arrays;…
0. 说明 聚合气温数据,聚合出 MAX . MIN . AVG 1. Spark Shell 实现 1.1 MAX 分步实现 # 加载文档 val rdd1 = sc.textFile("file:///home/centos/temp3.dat") # 压扁 val rdd2 = rdd1.map(line=>{).toInt , arr().toInt)}) # 得到最大值 val rdd3 = rdd2.reduceByKey((a,b)=>if(a > b)…
spark 累加历史主要用到了窗口函数,而进行全部统计,则需要用到rollup函数 1  应用场景: 1.我们需要统计用户的总使用时长(累加历史) 2.前台展现页面需要对多个维度进行查询,如:产品.地区等等 3.需要展现的表格头如: 产品.2015-04.2015-05.2015-06 2 原始数据: product_code |event_date |duration | -------------|-----------|---------| 1438 |2016-05-13 |165 |…
//统计access.log文件里面IP地址对应的省份,并把结果存入到mysql package access1 import java.sql.DriverManager import org.apache.spark.broadcast.Broadcast import org.apache.spark.{SparkConf, SparkContext} object AccessIp { def main(args: Array[String]): Unit = { //new sc va…
wordcount是spark入门级的demo,不难但是很有趣.接下来我用命令行.scala.Java和python这三种语言来实现单词统计. 一.使用命令行实现单词的统计 1.首先touch一个a.txt文本文件 2.加载文本:产生弹性分布式数据集,用sc.textFile()加载文本文件到内存中去,加载到内存之后,整个RDD就是一个数组,就以换行符来做分隔 val rdd1 = sc.textFile("/home/centos/a.txt") 3.对2中产生的数组按空格进行切割,…
在github上有spark-java8 实例地址: https://github.com/ypriverol/spark-java8 https://github.com/ihr/java8-spark 学些java8 Lambda Expressions 的可以参考下,同时自己也做下比较. java8 代码实例 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor licen…
Scala版 import org.apache.spark.{SparkConf, SparkContext} object WordCountScala { def main(args: Array[String]): Unit = { val conf: SparkConf = new SparkConf().setAppName("WordCountScala").setMaster("local[1]") val sc: SparkContext = ne…