日志分析



scala> import org.apache.spark.sql.types._

scala> import org.apache.spark.sql.Row

scala> val logRDD = sc.textFile("hdfs://master:9000/student/2016113012/data/log.txt").map(_.split("#"))

logRDD: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[2] at map at <console>:21

val schema = StructType(

    Array(

        StructField("ipAddress",StringType,true),

        StructField("clientIndentd",StringType,true),

        StructField("userId",StringType,true),

        StructField("dateTime",StringType,true),

        StructField("protocal",StringType,true),

        StructField("responseCode",StringType,true),

        StructField("contentSize",IntegerType,true)

    )

)

val rowRDD = logRDD.map(p => Row(p(0),p(1),p(2),p(3),p(4),p(5),p(6).toInt))

val logDF = sqlContext.createDataFrame(rowRDD,schema)

logDF.registerTempTable("logs")

//统计访问文件大小的平均值，最大值，最小值

scala> sqlContext.sql("select avg(contentSize),min(contentSize),max(contentSize) from logs").show()

17/03/07 17:04:20 INFO ParseDriver: Parsing command: select avg(contentSize),min(contentSize),max(contentSize) from logs

17/03/07 17:04:20 INFO ParseDriver: Parse Completed

17/03/07 17:04:21 INFO FileInputFormat: Total input paths to process : 1

17/03/07 17:04:22 INFO deprecation: mapred.tip.id is deprecated. Instead, use mapreduce.task.id

17/03/07 17:04:22 INFO deprecation: mapred.task.id is deprecated. Instead, use mapreduce.task.attempt.id

17/03/07 17:04:22 INFO deprecation: mapred.task.is.map is deprecated. Instead, use mapreduce.task.ismap

17/03/07 17:04:22 INFO deprecation: mapred.task.partition is deprecated. Instead, use mapreduce.task.partition

17/03/07 17:04:22 INFO deprecation: mapred.job.id is deprecated. Instead, use mapreduce.job.id

+------+----+----+

|   _c0| _c1| _c2|

+------+----+----+

|3506.0|2000|5554|

+------+----+----+

//统计响应代码的数量

scala> sqlContext.sql("select responseCode,count(*) from logs group by responseCode").show()

17/03/07 17:52:26 INFO ParseDriver: Parsing command: select responseCode,count(*) from logs group by responseCode

17/03/07 17:52:26 INFO ParseDriver: Parse Completed

+------------+---+

|responseCode|_c1|

+------------+---+

|         304|  1|

|         200|  2|

+------------+---+

//统计大于1次的ip地址

scala> sqlContext.sql("select ipAddress,count(1) as total  from logs group by ipAddress having total > 1").show()

17/03/07 17:55:20 INFO ParseDriver: Parsing command: select ipAddress,count(1) as total  from logs group by ipAddress having total > 1

17/03/07 17:55:20 INFO ParseDriver: Parse Completed

+----------+-----+

| ipAddress|total|

+----------+-----+

|10.0.0.153|    3|

+----------+-----+

问题：如何将p(4)里面的继续切分

spark SQL学习（综合案例-日志分析）的更多相关文章

spark SQL学习（案例-统计每日销售）
需求:统计每日销售额 package wujiadong_sparkSQL import org.apache.spark.sql.types._ import org.apache.spark.sq ...
spark SQL学习（案例-统计每日uv）
需求:统计每日uv package wujiadong_sparkSQL import org.apache.spark.sql.{Row, SQLContext} import org.apache ...
spark SQL学习（数据源之parquet）
Parquet是面向分析型业务得列式存储格式编程方式加载数据代码示例 package wujiadong_sparkSQL import org.apache.spark.sql.SQLConte ...
Mybatis高级:Mybatis注解开发单表操作,Mybatis注解开发多表操作,构建sql语句,综合案例学生管理系统使用接口注解方式优化
知识点梳理课堂讲义一.Mybatis注解开发单表操作 *** 1.1 MyBatis的常用注解之前我们在Mapper映射文件中编写的sql语句已经各种配置,其实是比较麻烦的而这几年来注解开发越 ...
Spark SQL入门用法与原理分析
Spark SQL是为了让开发人员摆脱自己编写RDD等原生Spark代码而产生的,开发人员只需要写一句SQL语句或者调用API,就能生成(翻译成)对应的SparkJob代码并去执行,开发变得更简洁注 ...
spark SQL学习（认识spark SQL）
spark SQL初步认识 spark SQL是spark的一个模块,主要用于进行结构化数据的处理.它提供的最核心的编程抽象就是DataFrame. DataFrame:它可以根据很多源进行构建,包括 ...
spark SQL学习（spark连接 mysql）
spark连接mysql(打jar包方式) package wujiadong_sparkSQL import java.util.Properties import org.apache.spark ...
spark SQL学习（spark连接hive）
spark 读取hive中的数据 scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql. ...
spark SQL学习（数据源之json）
准备工作数据文件students.json {"id":1, "name":"leo", "age":18} {&qu ...

随机推荐

Netty处理TCP拆包、粘包
Netty实践(二):TCP拆包.粘包问题-学海无涯心境无限-51CTO博客 http://blog.51cto.com/zhangfengzhe/1890577 2017-01-09 21:56: ...
Unable to locate parent package [json-default]
Unable to load configuration. - [unknown location] Caused by: Unable to locate parent package [json- ...
Random/Stochastic
---恢复内容开始--- ===================================================== A random variable's possible valu ...
Python量化常用函数
# -*- coding: utf-8 -*- # @Author: fangbei # @Date: 2017-08-26 # @Original: price_str = '30.14, 29.5 ...
不得不知的Excel技巧
1.超链接选中一个格右击选择超链接. 2.求和选择一个格点击开始中的求和按钮并拖动求和区域. 3.冻结冻结一行,选择一行区域,选择开始菜单中的冻结窗格. 冻结上面的行和左边的行,选择夹角的格并点 ...
Spark Standalone Mode 多机启动 -- 分布式计算系统spark学习(二)（更新一键启动slavers）
捣鼓了一下,先来个手动挡吧.自动挡要设置ssh无密码登陆啥的,后面开搞. 一.手动多台机链接master 手动链接master其实上篇已经用过. 这里有两台机器: 10.60.215.41 启动mas ...
Win32 配置文件用法
#include "stdafx.h"#include <Shlobj.h>#include <Shlwapi.h> #pragma comment(lib ...
对android的认识
1.混乱的返回逻辑看过Android Design的都知道,在Android上存在有back和up两套导航逻辑,一个控制应用间导航,一个控制应用内导航. 现在的问题就是这两种导航的方式,Google ...
使用maven为web工程引入jstl包时报错了
原pom文件: <dependency> <groupId>javax.servlet</groupId> <artifactId>jstl</a ...
npm命令,查看当前npm版本，更新nmp到最新版本，安装sails
打开Node.js command prompt 1 查看npm当前版本 npm -v 2 更新npm至最新版本 npm install npm@latest -g 3 安装sails npm in ...

spark SQL学习（综合案例-日志分析）

日志分析

spark SQL学习（综合案例-日志分析）的更多相关文章

随机推荐

热门专题