spark-sql

本文用到的测试数据person.txt

lijing　　29

guodegang　　45

heyunwei　　30

yueyunpeng　　100

rdd的分区数量，读取hdfs文件，默认是文件个数

rdd生成方式：

1) 并行化

2) 通过读取文件api方法生成

DataFrame的基础操作，详见官方API文档。将DataFrame存储详见官方API文档

DataFrame生成方式：

1)从rdd生成

2)读取hive表生成

创建hive表：

1)执行hive脚本

import org.apache.spark.sql.hive.HiveContext

val sqlContext = new HiveContext(sc)

import sqlContext._

//hive的多行脚本必须分开执行，否则会报错(无法执行多行脚本)

//sql("use dev;create table person(name string,age int)") 会报错

sql("use dev") //指定数据库

sql("create table person(name string,age int)") //创建表

sql("load data local inpath 'person.txt' into table person") //导入数据

2)通过dataframe创建

import org.apache.spark.sql.hive.HiveContext

val sqlContext = new HiveContext(sc)

case class Person(name:String,age:Int)

val rdd_person=sc.textFile("example/person.txt") //此处是hdfs路径

val person=rdd_person.map(line => line.split("\t")).map(line => Person(line(0),line(1).toInt))

//创建dataframe

val hive_person = sqlContext.createDataFrame(person)

hive_person.registerTempTable("hive_person")

sqlContext.sql("use dev")

/*

创建一个managed表
如果需要指定字段进行分区，需要调用方法partitionBy(colNames: String*)；
mode方法用来指定存储方式：

SaveMode.Overwrite: overwrite the existing data.

SaveMode.Append: append the data.

SaveMode.Ignore: ignore the operation (i.e. no-op).

SaveMode.ErrorIfExists: default option, throw an exception at runtime.

*/

hive_person.write.mode(org.apache.spark.sql.SaveMode.Overwrite).saveAsTable("hive_person")

sqlContext.sql("select * from hive_person limit 1").collect //查看下表是否创建成功，是否有数据

在上述脚本中用到了toInt函数，如果数据有异常，无法转化为int，可自定义函数，来进行处理

def parseInt(s: String): Int = try { s.toInt } catch { case _ => 0 }

parseInt("a")

环境搭建

scala的Intelij IDEA环境搭建

在idea中最后打包jar包的时候，为了避免把目标环境已有的包再打包到jar包中导致体积过大，可在pom.xml中相应的依赖中加入

<scope>provided</scope>

或在菜单File-Project Structure中将Output Layout中多余的删掉

提交jar包到spark上

spark-submit --class 类名 --jar jar包参数

如果类里需要传参，则"--jar"要去掉，否则报错

参考：

http://www.cnblogs.com/shishanyuan/p/4699644.html

http://lxw1234.com/archives/category/spark

https://taoistwar.gitbooks.io/spark-developer-guide/content/

spark-sql的更多相关文章

Spark SQL 之 Data Sources
#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFram ...
Spark SQL 之 DataFrame
Spark SQL 之 DataFrame 转载请注明出处:http://www.cnblogs.com/BYRans/ 概述(Overview) Spark SQL是Spark的一个组件,用于结构化 ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
Spark SQL Example
Spark SQL Example This example demonstrates how to use sqlContext.sql to create and load a table ...
通过Spark SQL关联查询两个HDFS上的文件操作
order_created.txt 订单编号订单创建时间 -- :: -- :: -- :: -- :: -- :: order_picked.txt 订单编号订单提取时间 -- :: ...
Spark SQL 之 Migration Guide
Spark SQL 之 Migration Guide 支持的Hive功能转载请注明出处:http://www.cnblogs.com/BYRans/ Migration Guide 与Hive的兼 ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Spark SQL 之 Performance Tuning & Distributed SQL Engine
Spark SQL 之 Performance Tuning & Distributed SQL Engine 转载请注明出处:http://www.cnblogs.com/BYRans/ 缓 ...
基于Spark1.3.0的Spark sql三个核心部分
基于Spark1.3.0的Spark sql三个核心部分: 1.可以架子啊各种结构化数据源(JSON,Hive,and Parquet) 2.可以让你通过SQL,saprk内部程序或者外部攻击,通过标 ...

随机推荐

（转）Eclipse快捷键大全,导包快捷键:ctrl+Shift+/
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当 ...
PHP学习系列（1）——字符串处理函数（4）
16.hebrevc() 函数把希伯来文本从右至左的流转换为左至右的流.它也会把新行 (\n) 转换为 <br />.只有 224 至 251 之间的 ASCII 字符,以及标点符号受到影 ...
Solr自动生成ID
在Solr中,每一个索引,都要有一个唯一的ID,类似于关系型数据库表中的主键.为了方便创建索引,需要配置自动生成的ID,即UUID. 一.配置schema.xml文件添加uuid字段类型,修改字段i ...
python 3.5 购物小程序
#!/usr/bin/env python #encoding: utf-8 import time import os nowtime = time.strftime('%Y-%m-%d %H:%M ...
IOS APP IDs
感谢分享说下 APP ID 的组成为 APP ID Prefix + APP ID suffix APP ID Prefix 为10个字符你不用管它 APP ID Suffix 这个有点讲究 ...
SparkStreaming 源码分析
SparkStreaming 分析 (基于1.5版本源码) SparkStreaming 介绍 SparkStreaming是一个流式批处理框架,它的核心执行引擎是Spark,适合处理实时数据与历史数 ...
webpy，希望能多了解一些关于WSGI，PYTHON的WEB开发框架的事，也希望能进一步了解PYTHON
如果能真正看懂源代码,那就强了. 几年了,不应该总是小搞小打的. [Python]Webpy 源码学习(一) http://diaocow.iteye.com/blog/1922760 学习线路: 那 ...
【转】[教程]隐藏ActionBar中的MenuItem
原文网址:http://blog.csdn.net/appte/article/details/12104823 有时候我们需要在不同的时候改变ActionBar中MenuItem的项数,或者隐藏某些 ...
POJ2761---Feed the dogs (Treap求区间第k大)
题意就是求区间第k大,区间不互相包含. 尝试用treap解决一下第k大的问题. #include <set> #include <map> #include <cm ...
Junit 学习
一. 断言核心方法示例代码: package com.test; import org.junit.Assert; import org.junit.Test; /** * @Title: test ...

spark-sql

spark-sql的更多相关文章

随机推荐

热门专题