小记--------sparksql和DataFrame的小小案例java、scala版本

sparksql是spark中的一个模块，主要用于进行结构化数据的处理，他提供的最核心的编程抽象，就是DataFrame。同时，sparksql还可以作为分布式的sql查询引擎。最最重要的功能就是从hive中查询数据。

Dataframe可以理解为：以列的形式组织的，分布式的数据集合。

Dataframe可以通过很多来源进行构建，包括：结构化的数据文件、hive中的表、外部的关系型数据库、以及RDD

使用sparksql 首先需要创建一个sqlContext对象，或者是它的子类的对象（hiveContext的对象）

Java版本

package cn.spark.study.sql;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.sql.SQLContext;

/**

* 创建dataframe

*/

public class DataFrameCreate {

    public static void main (String[] args){

        SparkConf conf = new SparkConf()

                .setAppName("DataFrameCreate")

                .setMaster("local");

        JavaSparkContext sc = new JavaSparkContext(conf);

        SQLContext sqlContext = new SQLContext(sc);

        sqlContext.read().json("hdfs://spark1:9000/test.json").show();

    }

}

//=======================分隔符======================================

package cn.spark.study.sql;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SQLContext;

/**

* dataframe常用操作

*/

public class DataFrameOperation {

    public static void main(String [] args){

        // 创建DataFrame

        SparkConf conf = new SparkConf()

                .setAppName("DataFrameCreate");

        JavaSparkContext sc = new JavaSparkContext(conf);

        SQLContext sqlContext = new SQLContext(sc);

        // 创建出来的DataFrame完全可以理解为一张表

        Dataset<Row> json = sqlContext.read().json("hdfs://spark1:9000/students.json");

        //打印dataframe ；select * from 表名

        json.show();

        //打印dataframe的元数据信息（schema）

        json.printSchema();

        //查询某一列的数据

        json.select("name").show();

        //查询多列 name ，age 并对所有的age列的结果值加1

        json.select(json.col("name") , json.col("age").plus()).show();

        //对某一列的值进行过滤；eg:只展示age字段值大于18的数据

        json.select(json.col("age").gt()).show();

        //根据某一列进行分组，并聚合；eg：通过age分组，并求出每组的个数

        json.groupBy("age").count().show();

    }

}

Scala版本

package cn.spark.study.sql

import org.apache.spark.sql.SQLContext

import org.apache.spark.{SparkConf, SparkContext}

/**

  * 创建 dataframe

  */

object DataFrameCreateScala {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

      .setMaster("dataFramecreate")

      .setAppName("local")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    sqlContext.read.json("hdfs://spark1/test.json").show()

  }

}

===================================分隔符========================================

package cn.spark.study.sql

import org.apache.spark.sql.SQLContext

import org.apache.spark.{SparkConf, SparkContext}

/**

  * dataframe的常用操作

  */

object DataframeOperation {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

      .setAppName("dataframeOperation")

      .setMaster("local")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    val df = sqlContext.read.json("hdfs://spark1:9000/text.json")

    //打印dataframe

    df.show()

    //打印dataframe的schema

    df.printSchema()

    //查询某一列的数据

    df.select("name").show()

    //查询多列数据并进行计算；eg：查询name，age列，并对age列的值+1

    df.select(df("name") , df("age")+).show()

    //查询某列并对其过滤；eg：查询age列并且值大于18

    df.select(df("age").gt()).show()

    df.select(df("age")>).show()

    //对某一列进行分组，并对分组后的结果进行求个数

    df.groupBy(df("age")).count().show()

  }

}

小记--------sparksql和DataFrame的小小案例java、scala版本的更多相关文章

大数据学习day24-------spark07-----1. sortBy是Transformation算子，为什么会触发Action 2. SparkSQL 3. DataFrame的创建 4. DSL风格API语法 5 两种风格（SQL、DSL）计算workcount案例
1. sortBy是Transformation算子,为什么会触发Action sortBy需要对数据进行全局排序,其需要用到RangePartitioner,而在创建RangePartitioner ...
SparkSql官方文档中文翻译(java版本)
1 概述(Overview) 2 DataFrames 2.1 入口:SQLContext(Starting Point: SQLContext) 2.2 创建DataFrames(Creating ...
SparkSQL和DataFrame
SparkSQL和DataFrame SparkSQL简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用.它 ...
【sparkSQL】DataFrame的常用操作
scala> import org.apache.spark.sql.SparkSession import org.apache.spark.sql.SparkSession scala> ...
_00017 Kafka的体系结构介绍以及Kafka入门案例(0基础案例+Java API的使用)
博文作者:妳那伊抹微笑 itdog8 地址链接 : http://www.itdog8.com(个人链接) 博客地址:http://blog.csdn.net/u012185296 博文标题:_000 ...
35、sparkSQL及DataFrame
一.saprkSQL背景 Spark 1.0版本开始,推出了Spark SQL.其实最早使用的,都是Hadoop自己的Hive查询引擎:但是后来Spark提供了Shark:再后来Shark被淘汰,推出 ...
sparkSQL获取DataFrame的几种方式
sparkSQL获取DataFrame的几种方式 1. on a specific DataFrame. import org.apache.spark.sql.Column df("col ...
SparkSQL学习进度9-SQL实战案例
Spark SQL 基本操作将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json. { "id":1 , "name&quo ...
dataframe 数据统计可视化---spark scala 应用
统计效果: 代码部分: import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{Logging, SparkConf ...

随机推荐

【SecureCRT】SecureCRT 护眼配色
终端有一个好的配色,不仅能保护自己的眼睛,也能给人一个好心情,本配色方案适合任意一种SSH客户端软件. 设置背景颜色 Options => Sessions options => ...
POJ 1236 Network of Schools —— （缩点的应用）
题目大意:有N个学校和一些有向边将它们连结,求: 1.最少需要向几个学校发放软件,使得他们中的每一个学校最终都能够获得软件. 2.最少需要增加几条有向边使得可以从任意一个学校发放软件,使得每一个学校最 ...
UVA 1393 Highways，UVA 12075 Counting Triangles —— （组合数，dp）
先看第一题,有n*m个点,求在这些点中,有多少条直线,经过了至少两点,且不是水平的也不是竖直的. 分析:由于对称性,我们只要求一个方向的线即可.该题分成两个过程,第一个过程是求出n*m的矩形中,dp[ ...
查看window用户登录日志
查看window用户登录日志能追踪Windows系统登录时间的三种方法 Windows登录日志详解事件ID=4798应该对应的是锁定操作(Win+L)
Dubbo API 笔记——配置参考
版权声明:欢迎转载,请注明出处,谢谢! https://blog.csdn.net/benhuo931115/article/details/78457391 schema 配置参考所有配置项分为三 ...
HTTP缓存机制和原理
前言 Http 缓存机制作为 web 性能优化的重要手段,对于从事 Web 开发的同学们来说,应该是知识体系库中的一个基础环节,同时对于有志成为前端架构师的同学来说是必备的知识技能.但是对于很多前端同 ...
带有时间间隔的dp
Uberwatch 题意:一个人打一群敌人,每间隔时间m能释放一次大招,消灭这个时刻上的所有敌人,起始时刻开始计算冷却时间 solution: dp[i]=max(dp[i],dp[i-m]); /* ...
MySQL 中<=>用法（长知识）
https://www.runoob.com/mysql/mysql-operator.html MySQL 运算符本章节我们主要介绍 MySQL 的运算符及运算符的优先级. MySQL 主要有以下 ...
[Tex学习笔记]章节用罗马字母编号
微信扫描如上二维码关注跟锦数学微信公众账号. 详情请见那里.
前端知识点回顾之重点篇——CORS
CORS(cross origin resource sharing)跨域资源共享来源:http://www.ruanyifeng.com/blog/2016/04/cors.html 它允许浏览器 ...

小记--------sparksql和DataFrame的小小案例java、scala版本

小记--------sparksql和DataFrame的小小案例java、scala版本的更多相关文章

随机推荐

热门专题