Spark中如何生成Avro文件

研究spark的目的之一就是要取代MR，目前我司MR的一个典型应用场景即为生成Avro文件，然后加载到HIVE表里，所以如何在Spark中生成Avro文件，就是必然之路了。

我本人由于对java不熟，对hadoop的各个框架也知之寥寥，所以耗费了五六天的时间才搞明白怎么在spark中生成avro文件。其中困难有二，一是网上关于spark中生成avro的资料太少，无论官网还是各种论坛，要么没有讯息，要么就是三言两语，对于我这个菜鸟而言，真是要了老命；二是在spark生成avro的代码中，用到了avro框架和hadoop框架的东西，他们自己底层的引用，又有可能和spark的底层引用冲突，虽然最终解决了问题，但是对于问题的直接原因，还么有弄明白。

对于Java的老手，对于hadoop的生态又比较熟悉的人，估计这个课题一天之内就解决了。这里我不怕大家笑话，将目前在本地能跑成功的代码贴出来，还多请指教。还没有提交到集群中去。

1.代码片段

2.pom文件

3.avro格式和文本

1.代码片段

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

import org.apache.spark.rdd._

import org.apache.hadoop.mapreduce.Job

import org.apache.hadoop.io.NullWritable

import org.apache.avro.Schema

import org.apache.avro.mapred.AvroKey

import org.apache.avro.mapreduce.AvroKeyOutputFormat

import org.apache.avro.mapreduce._

object TextTest extends App {

  System.setProperty("hadoop.home.dir", "D:\\bd\\software\\winutils")

  val sparkConf = new SparkConf().setAppName("AvroTest").setMaster("local[4]")

  val sc = new SparkContext(sparkConf)

  //**************************to generate an avro file based on internal java type

  var li = List("A","A","C","B")

  var lip = sc.parallelize(li, 4)

  var liprdd = lip.map { x => (new AvroKey[String](x),NullWritable.get()) }

  var prdd = new PairRDDFunctions(liprdd)

  val schema = Schema.create(Schema.Type.STRING)

  val job1 = Job.getInstance

  AvroJob.setOutputKeySchema(job1, schema)

  prdd.saveAsNewAPIHadoopFile("D:/002", classOf[AvroKey[String]], classOf[NullWritable],

      classOf[AvroKeyOutputFormat[String]], job1.getConfiguration)

  println("job1 done")

  //**************************to generate an avro file based on avro type

  var av = sc.textFile("D://bdp//NewHuman//Users.txt",5)

  var job = Job.getInstance

  AvroJob.setOutputKeySchema(job, User.getClassSchema)

  val avArray = av.map(x => x.split(" "))

  val userP = avArray.map { x => (new AvroKey[User](User.newBuilder().setFavoriteNumber(Integer.parseInt(x(2))).setName(x(0)).setFavoriteColor(x(1)).build()),NullWritable.get()) }

  var avP = new PairRDDFunctions(userP)

   avP.saveAsNewAPIHadoopFile("D:/003", classOf[AvroKey[User]], classOf[NullWritable],

      classOf[AvroKeyOutputFormat[User]], job.getConfiguration)

  println("job2 done")

}

　　代码中演示了两种类型的场景，一种是内存技术的，一种是外部文件。其中需要注意的是，必须要用AvroJob去设定schema，再者就是只有pairRDD才有saveAsNewAPIHadoop方法，所以其他的RDD必须要转成PairRDD。

　　另外，上面代码中的User类是利用avro自动生成的，需要引用进来。

2.pom文件

 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

     xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

     <modelVersion>4.0.0</modelVersion>

     <dependencies>

         <dependency>

             <groupId>jdk.tools</groupId>

             <artifactId>jdk.tools</artifactId>

             <version>1.7.0_67</version>

             <scope>system</scope>

             <systemPath>${JAVA_HOME}/lib/tools.jar</systemPath>

         </dependency>

         <dependency>

         <groupId>com.google.guava</groupId>

         <artifactId>guava</artifactId>

         <version>16.0.1</version>

     </dependency>

         <dependency>

             <groupId>org.apache.spark</groupId>

             <artifactId>spark-core_2.10</artifactId>

             <version>1.2.2</version>

         </dependency>

         <dependency>

             <groupId>org.scala-lang</groupId>

             <artifactId>scala-library</artifactId>

             <version>2.10.4</version>

         </dependency>

         <dependency>

             <groupId>junit</groupId>

             <artifactId>junit</artifactId>

             <version>3.8.1</version>

             <scope>test</scope>

         </dependency>

         <dependency>

             <groupId>org.apache.kafka</groupId>

             <artifactId>kafka_2.10</artifactId>

             <version>0.8.1.1</version>

         </dependency>

         <dependency>

             <groupId>org.apache.spark</groupId>

             <artifactId>spark-streaming_2.10</artifactId>

             <version>1.2.2</version>

         </dependency>

         <dependency>

             <groupId>org.apache.spark</groupId>

             <artifactId>spark-streaming-kafka_2.10</artifactId>

             <version>1.2.2</version>

         </dependency>

         <dependency>

             <groupId>org.apache.avro</groupId>

             <artifactId>avro</artifactId>

             <version>1.7.4</version>

         </dependency>

         <dependency>

             <groupId>org.apache.avro</groupId>

             <artifactId>avro-mapred</artifactId>

             <version>1.7.4</version>

             <classifier>hadoop2</classifier>

         </dependency>

         <dependency>

             <groupId>org.apache.hadoop</groupId>

             <artifactId>hadoop-common</artifactId>

             <version>2.2.0</version>

         </dependency>

         <dependency>

             <groupId>org.apache.hadoop</groupId>

             <artifactId>hadoop-core</artifactId>

             <version>1.0.4</version>

         </dependency>

     </dependencies>

     <repositories>

         <repository>

             <id>scala-tools.org</id>

             <name>Scala-tools Maven2 Repository</name>

             <url>http://scala-tools.org/repo-releases</url>

         </repository>

     </repositories>

     <pluginRepositories>

         <pluginRepository>

             <id>scala-tools.org</id>

             <name>Scala-tools Maven2 Repository</name>

             <url>http://scala-tools.org/repo-releases</url>

         </pluginRepository>

     </pluginRepositories>

     <build>

         <sourceDirectory>src</sourceDirectory>

         <pluginManagement>

             <plugins>

                 <plugin>

                     <groupId>net.alchim31.maven</groupId>

                     <artifactId>maven-scala-plugin</artifactId>

                     <version>3.2.0</version>

                 </plugin>

                 <plugin>

                     <groupId>org.apache.maven.plugins</groupId>

                     <artifactId>maven-compiler-plugin</artifactId>

                     <version>3.1</version>

                 </plugin>

             </plugins>

         </pluginManagement>

         <plugins>

             <plugin>

                 <groupId>org.scala-tools</groupId>

                 <artifactId>maven-scala-plugin</artifactId>

                 <executions>

                     <execution>

                         <id>scala-compile-first</id>

                         <phase>process-resources</phase>

                         <goals>

                             <goal>add-source</goal>

                             <goal>compile</goal>

                         </goals>

                     </execution>

                 </executions>

             </plugin>

         </plugins>

     </build>

 </project>

这个文件中要注意的是dependency的顺序不能变，由于spark和avro的底层的外部引用可能会冲突。

3.avro格式和文本

avro格式为

{"namespace": "example.avro",

 "type": "record",

 "name": "User",

 "fields": [

     {"name": "name", "type": "string"},

     {"name": "favorite_number",  "type": ["int", "null"]},

     {"name": "favorite_color", "type": ["string", "null"]}

 ]

}

测试用例的文本Users.txt

Josh Green 13
Ken Yellow 6
Xiao Orange 8
Gerry Black 12

Spark中如何生成Avro文件的更多相关文章

flask中如何生成迁移文件
在flask网站开发中,如果直接对数据库进行修改的话,风险比较高,最好的是由迁移文件生成,这样确保了数据的误操作. 在Flask中可以使用Flask-Migrate扩展,来实现数据迁移.并且集成到Fl ...
读取Excel二进制写入DB，并从DB中读取生成Excel文件
namespace SendMailSMSService { class Program { static void Main(string[] args) { var connString = Sq ...
使用IO流将数据库中数据生成一个文件，结果使用Notepad++打开部分数据结尾出现NUL
场景描述: 项目中通过java代码中从数据库中查询一系列数据,对数据做相应处理,然后通过字符流将数据写如一个新生成的文件中,将该项目部署在linux服务器上,最后生成的文件拿到本地使用notepad+ ...
Makefile中自动生成头文件依赖
为什么需要自动生成头文件依赖? 编译单个源文件时,需要获取文件中包含的头文件的信息,但是一般的Makefile不会在规则中明确写明文件依赖的头文件,所以单独修改头文件后,不会导致包含头文件的源文件重新 ...
PHP中的生成XML文件的4种方法（转）
<?xml version="1.0" encoding="utf-8"?> <article> <item> <ti ...
PHP中的生成XML文件的4种方法分享
生成如下XML串 Xml代码 <?xml version="1.0" encoding="utf-8"?> <article> < ...
myeclipse中hibernate生成映射文件
在hibernate中,每个数据表对应的其实是一个实体类,每个实体类有一个对应的hbm.xml配置文件匹配,myeclipse中有个MyEclipse Database Explorer视图,它提供了 ...
Linux的环境中如何生成srw-rw---- 的文件权限？
文件属性 d 开头是: 目录文件. l 开头是: 符号链接(指向另一个文件,类似于瘟下的快捷方式). s 开头是: 套接字文件(sock). b 开头是: 块设备文件,二进制文件. c 开头是: 字符 ...
c++中.dll与.lib文件的生成与使用的详解
两种库: • 包含了函数所在的DLL文件和文件中函数位置的信息(入口),代码由运行时加载在进程空间中的DLL提供,称为动态链接库dynamic link library.• 包含函数代码本身,在编译时 ...

随机推荐

P1247 取火柴游戏
题目描述输入k及k个整数n1,n2,-,nk,表示有k堆火柴棒,第i堆火柴棒的根数为ni:接着便是你和计算机取火柴棒的对弈游戏.取的规则如下:每次可以从一堆中取走若干根火柴,也可以一堆全部取走,但不 ...
MySQL——用户与密码
mysql安装完成之后,在/var/log/mysqld.log文件中给root生成了一个默认密码.通过下面的方式找到root默认密码,然后登录mysql进行修改: grep 'temporary p ...
利用login-path对MySQL安全加固
Preface Connection security is one of the most important safety strategies which we should ...
【Win10分区教程】
Win10怎么分区?如何为Win10硬盘分区? 注:本教程适用于Win7.Win8.Win8.1和Win10系到了Windows10时代,TB级硬盘已经很普及了,那么在Win10系统下如何为这些大容 ...
Java小功能大杂烩
生成UUID: import java.util.UUID; public class ProductUUID { // 随机返回前十位的UUID public static String getUU ...
Java源码解析——集合框架（一）——ArrayList
ArrayList源码分析 ArrayList就是动态数组,是Array的复杂版本,它提供了动态的增加和减少元素.灵活的设置数组的大小. 一.类声明 public class ArrayList< ...
zookeeper环境搭建(Linux)
安装zookeeper 安装jdk(此处省略) 解压tar包并配置变量环境配置文件修改将/usr/local/src/zookeeper-3.4.5/conf这个路径下的zoo_sample.cf ...
springMVC3
复习: springmvc框架: DispatcherServlet前端控制器:接收request,进行response HandlerMapping处理器映射器:根据url查找Handler.(可以 ...
汇编实验15：安装新的int 9中断例程
汇编实验15:安装新的int 9中断例程任务安装一个新的int 9中断例程,功能:在DOS下,按下“A”键后,除非不在松开,一旦松开后,就显示满屏幕的“A”,其他键照常处理. 预备知识概要这次实 ...
springmvc 处理put,delete请求
前言:ajax用post编辑,删除提示越权操作状态为500,修改半晌最后大神指点说是:type修改为post和delete模式最后还是一知半解,但是程序却正常使用了.当然注意我用的mvc,contr ...

Spark中如何生成Avro文件

Spark中如何生成Avro文件的更多相关文章

随机推荐

热门专题