spark使用scala读取Avro数据(转)
这是一篇翻译,原文来自:How to load some Avro data into Spark。
首先,为什么使用 Avro ?
最基本的格式是 CSV ,其廉价并且不需要顶一个一个 schema 和数据关联。
随后流行起来的一个通用的格式是 XML,其有一个 schema 和 数据关联,XML 广泛的使用于 Web Services 和 SOA 架构中。不幸的是,其非常冗长,并且解析 XML 需要消耗内存。
另外一种格式是 JSON,其非常流行易于使用因为它非常方便易于理解。
这些格式在 Big Data 环境中都是不可拆分的,这使得他们难于使用。在他们之上使用一个压缩机制(Snappy,Gzip)并不能解决这个问题。
因此不同的数据格式出现了。Avro 作为一种序列化平台被广泛使用,因为它能跨语言,提供了一个小巧紧凑的快速的二进制格式,支持动态 schema 发现(通过它的泛型)和 schema 演变,并且是可压缩和拆分的。它还提供了复杂的数据结构,例如嵌套类型。
例子
让我们来看一个例子,创建一个 Avro schema 并生成一些数据。在一个真实案例的例子中,组织机构通常有一些更加普通的格式,例如 XML,的数据,并且他们需要通过一些工具例如 JAXB 将他们的数据转换成 Avro。我们来使用这个例子,其中 twitter.avsc 如下:
{
"type" : "record",
"name" : "twitter_schema",
"namespace" : "com.miguno.avro",
"fields" : [
{ "name" : "username",
"type" : "string",
"doc" : "Name of the user account on Twitter.com" },
{
"name" : "tweet",
"type" : "string",
"doc" : "The content of the user's Twitter message" },
{
"name" : "timestamp",
"type" : "long",
"doc" : "Unix epoch time in seconds" }
],
"doc:" : "A basic schema for storing Twitter messages"
}
twitter.json 中有一些数据:
{"username":"miguno","tweet":"Rock: Nerf paper, scissors is fine.","timestamp": 1366150681 }
{"username":"BlizzardCS","tweet":"Works as intended. Terran is IMBA.","timestamp": 1366154481 }
我们将这些数据转换成二进制的 Avro 格式:
$ java -jar ~/avro-tools-1.7.7.jar fromjson --schema-file twitter.avsc twitter.json > twitter.avro
然后,我们将 Avro 数据转换为 Java:
$ java -jar /app/avro/avro-tools-1.7.7.jar compile schema /app/avro/data/twitter.avsc /app/avro/data/
现在,我们编译这些类并将其打包:
$ CLASSPATH=/app/avro/avro-1.7.7-javadoc.jar:/app/avro/avro-mapred-1.7.7-hadoop1.jar:/app/avro/avro-tools-1.7.7.jar
$ javac -classpath $CLASSPATH /app/avro/data/com/miguno/avro/twitter_schema.java
$ jar cvf Twitter.jar com/miguno/avro/*.class
我们启动 Spark,并将上面创建的 Jar 和一些需要的库(Hadoop 和 Avro)传递给 Spark 程序:
$ ./bin/spark-shell --jars /app/avro/avro-mapred-1.7.7-hadoop1.jar,/avro/avro-1.7.7.jar,/app/avro/data/Twitter.jar
在 REPL 中,我们获取数据并创建一个 RDD:
scala>
import com.miguno.avro.twitter_schema
import org.apache.avro.file.DataFileReader;
import org.apache.avro.file.DataFileWriter;
import org.apache.avro.io.DatumReader;
import org.apache.avro.io.DatumWriter;
import org.apache.avro.specific.SpecificDatumReader;
import org.apache.avro.mapreduce.AvroKeyInputFormat
import org.apache.avro.mapred.AvroKey
import org.apache.hadoop.io.NullWritable
import org.apache.avro.mapred.AvroInputFormat
import org.apache.avro.mapred.AvroWrapper
import org.apache.avro.generic.GenericRecord
import org.apache.avro.mapred.{AvroInputFormat, AvroWrapper}
import org.apache.hadoop.io.NullWritable
val path = "/app/avro/data/twitter.avro"
val avroRDD = sc.hadoopFile[AvroWrapper[GenericRecord], NullWritable, AvroInputFormat[GenericRecord]](path)
avroRDD.map(l => new String(l._1.datum.get("username").toString() ) ).first
返回结果:
res2: String = miguno
一些注意事项:
- 我们在使用 MR1 的类,但是 MR2的类同样能够运行。
- 我们使用GenericRecord 而不是 Specific ,因为我们生成了 Avro schema(并且导入了它)。更多内容参见http://avro.apache.org/docs/current/gettingstartedjava.html
- 注意到即使 Avro 类是用 Java 编译的,你还是可以在 Spark 中导入他们,因为 Scala 也是运行在 JVM 之上。
- Avro 允许你定义一个可选的方式去定义 schema 中每个节点的反序列化类型,即通过 key/value 的键值对,这是方式非常方便。参考http://stackoverflow.com/questions/27827649/trying-to-deserialize-avro-in-spark-with-specific-type/27859980?noredirect=1%23comment44240726_27859980。
- 还有大量的其他方式来实现这个功能,一种是使用 Kryo,另一种是使用 Spark SQL。然而,这需要你创建一个 Spark SQL 的上下文(见 https://github.com/databricks/spark-avro ),而不是一个纯粹的 Spark/Scala 方式。然而,也许这在将来会是一种最佳方式?
翻译结束。
接下来,我将上述过程在 CDH 5.3 集群中测试一遍。
验证
首先,在集群一个节点创建 twitter.avsc 和 twitter.json 两个文件。
然后,使用 avro-tools 将这些数据转换成二进制的 Avro 格式:
$ java -jar /usr/lib/avro/avro-tools.jar fromjson --schema-file twitter.avsc twitter.json > twitter.avro
这时候会生成 avro 文件:
$ ll
总用量 12
-rw-r--r-- 1 root root 543 3月 25 15:13 twitter.avro
-rw-r--r-- 1 root root 590 3月 25 15:12 twitter.avsc
-rw-r--r-- 1 root root 191 3月 25 15:12 twitter.json
将 Avro 数据转换为 Java:
$ java -jar /usr/lib/avro/avro-tools.jar compile schema twitter.avsc .
这时候会生成 twitter_schema.java 文件:
$ tree
.
├── com
│ └── miguno
│ └── avro
│ └── twitter_schema.java
├── twitter.avro
├── twitter.avsc
└── twitter.json
这时候会生成一个 Twitter.jar 的 jar 包。
编译这些类并将其打包:
$ CLASSPATH=/usr/lib/avro/avro-mapred-hadoop2.jar:/usr/lib/avro/avro-tools.jar
$ javac -classpath $CLASSPATH com/miguno/avro/twitter_schema.java
$ jar cvf Twitter.jar com/miguno/avro/*.class
在当前目录,运行 spark-shell:
spark-shell --jars /usr/lib/avro/avro-mapred-hadoop2.jar,/usr/lib/avro/avro.jar,Twitter.jar
将 twitter.avro 上传到 hdfs:
hadoop fs -put twitter.avro
在 REPL 中,我们创建一个 RDD 并查看结果是否和上面一致:
scala>
import com.miguno.avro.twitter_schema;
import org.apache.avro.file.DataFileReader;
import org.apache.avro.file.DataFileWriter;
import org.apache.avro.io.DatumReader;
import org.apache.avro.io.DatumWriter;
import org.apache.avro.specific.SpecificDatumReader;
import org.apache.avro.mapreduce.AvroKeyInputFormat
import org.apache.avro.mapred.AvroKey
import org.apache.hadoop.io.NullWritable
import org.apache.avro.mapred.AvroInputFormat
import org.apache.avro.mapred.AvroWrapper
import org.apache.avro.generic.GenericRecord
import org.apache.avro.mapred.{AvroInputFormat, AvroWrapper}
import org.apache.hadoop.io.NullWritable
val path = "twitter.avro"
val avroRDD = sc.hadoopFile[AvroWrapper[GenericRecord], NullWritable, AvroInputFormat[GenericRecord]](path)
avroRDD.map(l => new String(l._1.datum.get("username").toString() ) ).first
更多的 Avro Tools 用法,可以参考 Avro 介绍。
spark使用scala读取Avro数据(转)的更多相关文章
- Spark使用Java读取mysql数据和保存数据到mysql
原文引自:http://blog.csdn.net/fengzhimohan/article/details/78471952 项目应用需要利用Spark读取mysql数据进行数据分析,然后将分析结果 ...
- Spark使用Java、Scala 读取mysql、json、csv数据以及写入操作
Spark使用Java读取mysql数据和保存数据到mysql 一.pom.xml 二.spark代码 2.1 Java方式 2.2 Scala方式 三.写入数据到mysql中 四.DataFrame ...
- Spark学习笔记4:数据读取与保存
Spark对很多种文件格式的读取和保存方式都很简单.Spark会根据文件扩展名选择对应的处理方式. Spark支持的一些常见文件格式如下: 文本文件 使用文件路径作为参数调用SparkContext中 ...
- Spark读取elasticsearch数据指南
最近要在 Spark job 中通过 Spark SQL 的方式读取 Elasticsearch 数据,踩了一些坑,总结于此. 环境说明 Spark job 的编写语言为 Scala,scala-li ...
- Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十九):推送avro格式数据到topic,并使用spark structured streaming接收topic解析avro数据
推送avro格式数据到topic 源代码:https://github.com/Neuw84/structured-streaming-avro-demo/blob/master/src/main/j ...
- spark通过JDBC读取外部数据库,过滤数据
官网链接: http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases http:// ...
- spark读取kafka数据 createStream和createDirectStream的区别
1.KafkaUtils.createDstream 构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic, ...
- scala实现读取Oracle数据
用scala实现读取oracle数据 增加oralce的jar包后 package cn.bigdata.scala.oracle import java.sql.{DriverManager, Co ...
- 毕设三: spark与phoenix集成插入数据/解析json数组
需求:将前些日子采集的评论存储到hbase中 思路: 先用fastjson解析评论,然后构造rdd,最后使用spark与phoenix交互,把数据存储到hbase中 部分数据: [ { "r ...
随机推荐
- grafana 指标视图嵌入到其他html网页
我们开发了一套管理平台用来监控整个系统环境的运行情况,但是在指标信息这块不想重新开发,而想直接拿grafana来用,刚开始的时候我们的管理平台和grafana是完全独立的,只能从我们平台跳转到graf ...
- jenkins+git 构建项目
首先先参照了网上几篇文章 http://blog.csdn.net/kefengwang/article/details/54233584 https://www.liaoxuefeng.com/ar ...
- version control(关于版本控制)
版本控制(Version Control Systems)是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统. 这个系统可以自动帮我们备份文件的每一次更改,并且可以非常方便的恢复到 ...
- IIS 反向代理设置
http://blog.csdn.net/yuanguozhengjust/article/details/23576033
- linux下的环境变量配置
方法一: 方法二:
- android 开发 对话框Dialog详解
转载请注明出处:红亮的专栏:http://blog.csdn.net/liang5630/article/details/44098899 Android中的对话框形式大致可分为五种:分别是一般对话框 ...
- [Unity动画]06.子状态机
参考链接: https://www.jianshu.com/p/6b1db3d060ac?utm_campaign=maleskine&utm_content=note&utm_med ...
- Spring MVC 学习笔记8 —— 实现简单的用户管理(4)用户登录
Spring MVC 学习笔记8 -- 实现简单的用户管理(4)用户登录 增删改查,login 1. login.jsp,写在外面,及跟WEB-INF同一级目录,如:ls Webcontent; &g ...
- 【HQL】窗口函数
LAG LAG(col,n,DEFAULT) :与lead相反,用于统计窗口内往上第n行值.第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候, ...
- 36.scrapy框架采集全球玻璃网数据
1.采集目标地址 https://www.glass.cn/gongying/sellindex.aspx 网站比较简单,没什么大的需要注意的问题.2.通过分析测试 https://www.glass ...