Spark学习笔记—

使用Spark读写HDFS中的parquet文件

文件夹中的parquet文件

build.sbt文件

name := "spark-hbase"

version := "1.0"

scalaVersion := "2.11.8"

libraryDependencies ++= Seq(

  "org.apache.spark" %% "spark-core" % "2.1.0",

  "mysql" % "mysql-connector-java" % "5.1.31",

  "org.apache.spark" %% "spark-sql" % "2.1.0",

  "org.apache.hbase" % "hbase-common" % "1.3.0",

  "org.apache.hbase" % "hbase-client" % "1.3.0",

  "org.apache.hbase" % "hbase-server" % "1.3.0",

  "org.apache.hbase" % "hbase" % "1.2.1"

)

Scala实现方法

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.sql._

import java.util.Properties

import com.google.common.collect.Lists

import org.apache.spark.sql.types.{ArrayType, StringType, StructField, StructType}

import org.apache.hadoop.hbase.HBaseConfiguration

import org.apache.hadoop.hbase.client.{Result, Scan}

import org.apache.hadoop.hbase.io.ImmutableBytesWritable

import org.apache.hadoop.hbase.mapreduce.TableInputFormat

/**

  * Created by mi on 17-4-11.

  */

case class resultset(name: String,

                     info: String,

                     summary: String)

case class IntroItem(name: String, value: String)

case class BaikeLocation(name: String,

                         url: String = "",

                         info: Seq[IntroItem] = Seq(),

                         summary: Option[String] = None)

case class MewBaikeLocation(name: String,

                         url: String = "",

                         info: Option[String] = None,

                         summary: Option[String] = None)

object MysqlOpt {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("WordCount").setMaster("local")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    import sqlContext.implicits._

    //定义数据库和表信息

    val url = "jdbc:mysql://localhost:3306/baidubaike?useUnicode=true&characterEncoding=UTF-8"

    val table = "baike_pages"

    //读取parquetFile，并写入Mysql

    val sparkSession = SparkSession.builder()

      .master("local")

      .appName("spark session example")

      .getOrCreate()

    val parquetDF = sparkSession.read.parquet("/home/mi/coding/coding/baikeshow_data/baikeshow")

//    parquetDF.collect().take(20).foreach(println)

    //parquetDF.show()

    //BaikeLocation是读取的parquet文件中的case class

    val ds = parquetDF.as[BaikeLocation].map { line =>

      //把info转换为新的case class中的类型String

      val info = line.info.map(item => item.name + ":" + item.value).mkString(",")

      //注意需要把字段放在一个case class中，不然会丢失列信息

      MewBaikeLocation(name = line.name, url = line.url, info = Some(info), summary = line.summary)

    }.cache()

    ds.show()

//    ds.take(2).foreach(println)

    //写入Mysql

    //    val prop = new Properties()

    //    prop.setProperty("user", "root")

    //    prop.setProperty("password", "123456")

    //    ds.write.mode(SaveMode.Append).jdbc(url, "baike_location", prop)

    //写入parquetFile

    ds.repartition(10).write.parquet("/home/mi/coding/coding/baikeshow_data/baikeshow1")

  }

}

df.show打印出来的信息，如果没放在一个case class中的话，name,url,info,summary这列信息会变成1,2,3,4

使用spark-shell查看写回去的parquet文件的信息

#进入spark-shell

import org.apache.spark.sql.SQLContext

val sqlContext = new SQLContext(sc)

val path = "file:///home/mi/coding/coding/baikeshow_data/baikeshow1"

val df = sqlContext.parquetFile(path)

df.show

df.count

如果只想显示某一列的话，可以这么做

df.select("title").take(100).foreach(println)　　//只显示title这一列的信息

Spark学习笔记——读写HDFS的更多相关文章

Spark学习笔记——读写Hbase
1.首先在Hbase中建立一张表,名字为student 参考 Hbase学习笔记——基本CRUD操作一个cell的值,取决于Row,Column family,Column Qualifier和Ti ...
Spark学习笔记——读写MySQL
1.使用Spark读取MySQL中某个表中的信息 build.sbt文件 name := "spark-hbase" version := "1.0" scal ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
Spark学习笔记2——RDD（上）
目录 Spark学习笔记2--RDD(上) RDD是什么? 例子创建 RDD 并行化方式读取外部数据集方式 RDD 操作转化操作行动操作惰性求值 Spark学习笔记2--RDD(上) 笔记摘 ...
Spark学习笔记1——第一个Spark程序：单词数统计
Spark学习笔记1--第一个Spark程序:单词数统计笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖通过 Maven 添加 Spark-c ...
Spark学习笔记之SparkRDD
Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② ...
Spark学习笔记2（spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后 ...
Spark学习笔记3（IDEA编写scala代码并打包上传集群运行）
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的sp ...
Spark学习笔记-GraphX-1
Spark学习笔记-GraphX-1 标签: SparkGraphGraphX图计算 2014-09-29 13:04 2339人阅读评论(0) 收藏举报分类: Spark(8) 版权声明: ...

随机推荐

C、C++ 学习经历
1.可以考虑先学习C. 大多数时候,我们学习语言的目的,不是为了成为一个语言专家,而是希望成为一个解决问题的专家.做一个有用的程序员,做一个赚钱的程序员.我们的价值,将体现在客户价值上,而不是语言写得 ...
20172302 《Java软件结构与数据结构》第八周学习总结
2018年学习总结博客总目录:第一周第二周第三周第四周第五周第六周第七周第八周教材学习内容总结第十二章优先队列与堆 1.堆(heap)是具有两个附加属性的一棵二叉树: (1)它是一 ...
centos7环境下对防火墙的操作
我是运行了systemctl stop firewalld.service && systemctl disabl e firewalld.service命令于是显示 [root@in ...
Centos7安装Redis 3.2.8
关闭防火墙和SELinx 关闭防火墙 [root@node1 ~]# systemctl stop firewalld 开启防火墙 [root@node1 ~]# systemctl enable f ...
MySQL中间件方案盘点_搜狐科技_搜狐网
MySQL中间件方案盘点_搜狐科技_搜狐网
使用sshfs挂载远程服务器目录
点击访问原文您还可以加入全栈技术交流群(QQ群号:254842154) 服务器日志查看,是开发人员和服务器运维人员在工作中经常会遇到的一件事情,只有一台服务器时,比较好办,直接登录服务器使用tail ...
p中不能包含div
一句话:有些块元素不可以包含另一些块元素 ,DTD中规定了块级元素是不能放在P里;P标签内包含块元素时,它会先结束自己,比如:<*p><*div>测试p包含div<*/d ...
eclipse中的yaml插件
现在spring中推荐使用yaml格式的配置文件,扩展名为yml 在eclipse中编辑的话,可以安装yaml编辑插件,在Eclipse Marketpalce可以搜到两款: YEdit的推荐指数38 ...
JSTL标签使用总结，foreach
最近开发一个网站,经常使用JSTL,这种语法与以前的不同,开始用着非常吃力,今天总结一下,供大家参考. 一.前言 JSTL全名为JavaServer Pages Standard Tag Librar ...
mariadb multi-source replication(mariadb多主复制)
下文一起来看看mariadb multi-source replication(mariadb多主复制)例子,希望对各位有帮助. mariadb multi-source replication( ...

Spark学习笔记——读写HDFS

Spark学习笔记——读写HDFS的更多相关文章

随机推荐

热门专题