如何使用Spark大规模并行构建索引

使用Spark构建索引非常简单，因为spark提供了更高级的抽象rdd分布式弹性数据集，相比以前的使用Hadoop的MapReduce来构建大规模索引，Spark具有更灵活的api操作，性能更高，语法更简洁等一系列优点。

先看下，整体的拓扑图：

然后，再来看下，使用scala写的spark程序：

package com.easy.build.index
import java.util
import org.apache.solr.client.solrj.beans.Field
import org.apache.solr.client.solrj.impl.HttpSolrClient
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import scala.annotation.meta.field
/**
* Created by qindongliang on 2016/1/21.
*/
//注册model,时间类型可以为字符串，只要后台索引配置为Long即可，注解映射形式如下
case class Record(
@(Field@field)("rowkey") rowkey:String,
@(Field@field)("title") title:String,
@(Field@field)("content") content:String,
@(Field@field)("isdel") isdel:String,
@(Field@field)("t1") t1:String,
@(Field@field)("t2")t2:String,
@(Field@field)("t3")t3:String,
@(Field@field)("dtime") dtime:String
)
/***
* Spark构建索引==>Solr
*/
object SparkIndex {
//solr客户端
val client=new HttpSolrClient("http://192.168.1.188:8984/solr/monitor");
//批提交的条数
val batchCount=10000;
def main2(args: Array[String]) {
val d1=new Record("row1","title","content","1","01","57","58","3");
val d2=new Record("row2","title","content","1","01","57","58","45");
val d3=new Record("row3","title","content","1","01","57","58",null);
client.addBean(d1);
client.addBean(d2)
client.addBean(d3)
client.commit();
println("提交成功！")
}
/***
* 迭代分区数据（一个迭代器集合），然后进行处理
* @param lines 处理每个分区的数据
*/
def indexPartition(lines:scala.Iterator[String] ): Unit ={
//初始化集合，分区迭代开始前，可以初始化一些内容，如数据库连接等
val datas = new util.ArrayList[Record]()
//迭代处理每条数据，符合条件会提交数据
lines.foreach(line=>indexLineToModel(line,datas))
//操作分区结束后，可以关闭一些资源，或者做一些操作，最后一次提交数据
commitSolr(datas,true);
}
/***
* 提交索引数据到solr中
*
* @param datas 索引数据
* @param isEnd 是否为最后一次提交
*/
def commitSolr(datas:util.ArrayList[Record],isEnd:Boolean): Unit ={
//仅仅最后一次提交和集合长度等于批处理的数量时才提交
if ((datas.size()>0&&isEnd)||datas.size()==batchCount) {
client.addBeans(datas);
client.commit(); //提交数据
datas.clear();//清空集合，便于重用
}
}
/***
* 得到分区的数据具体每一行，并映射
* 到Model，进行后续索引处理
*
* @param line 每行具体数据
* @param datas 添加数据的集合，用于批量提交索引
*/
def indexLineToModel(line:String,datas:util.ArrayList[Record]): Unit ={
//数组数据清洗转换
val fields=line.split("\1",-1).map(field =>etl_field(field))
//将清洗完后的数组映射成Tuple类型
val tuple=buildTuble(fields)
//将Tuple转换成Bean类型
val recoder=Record.tupled(tuple)
//将实体类添加至集合，方便批处理提交
datas.add(recoder);
//提交索引到solr
commitSolr(datas,false);
}
/***
* 将数组映射成Tuple集合，方便与Bean绑定
* @param array field集合数组
* @return tuple集合
*/
def buildTuble(array: Array[String]):(String, String, String, String, String, String, String, String)={
array match {
case Array(s1, s2, s3, s4, s5, s6, s7, s8) => (s1, s2, s3, s4, s5, s6, s7,s8)
}
}
/***
* 对field进行加工处理
* 空值替换为null,这样索引里面就不会索引这个字段
* ,正常值就还是原样返回
*
* @param field 用来走特定规则的数据
* @return 映射完的数据
*/
def etl_field(field:String):String={
field match {
case "" => null
case _ => field
}
}
/***
* 根据条件清空某一类索引数据
* @param query 删除的查询条件
*/
def deleteSolrByQuery(query:String): Unit ={
client.deleteByQuery(query);
client.commit()
println("删除成功!")
}
def main(args: Array[String]) {
//根据条件删除一些数据
deleteSolrByQuery("t1:03")
//远程提交时，需要提交打包后的jar
val jarPath = "target\\spark-build-index-1.0-SNAPSHOT.jar";
//远程提交时，伪装成相关的hadoop用户，否则，可能没有权限访问hdfs系统
System.setProperty("user.name", "webmaster");
//初始化SparkConf
val conf = new SparkConf().setMaster("spark://192.168.1.187:7077").setAppName("build index ");
//上传运行时依赖的jar包
val seq = Seq(jarPath) :+ "D:\\tmp\\lib\\noggit-0.6.jar" :+ "D:\\tmp\\lib\\httpclient-4.3.1.jar" :+ "D:\\tmp\\lib\\httpcore-4.3.jar" :+ "D:\\tmp\\lib\\solr-solrj-5.1.0.jar" :+ "D:\\tmp\\lib\\httpmime-4.3.1.jar"
conf.setJars(seq)
//初始化SparkContext上下文
val sc = new SparkContext(conf);
//此目录下所有的数据，将会被构建索引,格式一定是约定好的
val rdd = sc.textFile("hdfs://192.168.1.187:9000/user/monitor/gs/");
//通过rdd构建索引
indexRDD(rdd);
//关闭索引资源
client.close();
//关闭SparkContext上下文
sc.stop();
}
/***
* 处理rdd数据，构建索引
* @param rdd
*/
def indexRDD(rdd:RDD[String]): Unit ={
//遍历分区，构建索引
rdd.foreachPartition(line=>indexPartition(line));
}
}

ok，至此，我们的建索引程序就写完了，本例子中用的是远程提交模式，实际上它也可以支持spark on yarn （cluster 或者 client ）模式，不过此时需要注意的是，不需要显式指定setMaster的值，而由提交任务时，通过--master来指定运行模式，另外，依赖的相关jar包，也需要通过--jars参数来提交到集群里面，否则的话，运行时会报异常，最后看下本例子里面的solr是单机模式的，所以使用spark建索引提速并没有达到最大值，真正能发挥最大威力的是，多台search集群正如我画的架构图里面，每台机器是一个shard，这就是solrcloud的模式，或者在elasticsearch里面的集群shard，这样以来，才能真正达到高效批量的索引构建

如何使用Spark大规模并行构建索引的更多相关文章

如何提高Lucene构建索引的速度
如何提高Lucene构建索引的速度 hans(汉斯) 2013-01-27 10:12 对于Lucene>=2.3:IndexWriter可以自行根据内存使用来释放缓存.调用writer.set ...
【Lucene实验1】构建索引
一.实验名称:构建索引二.实验日期:2013/9/21 三.实验目的: 1) 能理解Lucene中的Document-Field结构的数据建模过程: 2) 能编针对特定数 ...
构建NCBI本地BLAST数据库 (NR NT等) | blastx/diamond使用方法 | blast构建索引 | makeblastdb
参考链接: FTP README 如何下载 NCBI NR NT数据库? 下载blast:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+ 先了解 ...
OpenACC 《大规模并行处理器编程实战》教材讲解
▶ <大规模并行处理器编程实战>第15章,关于OpenACC 的部分,散点 ● OpenACC 中,主机存储器和设备存储器是分开处理的,程序员只要制定要传输的存储器对象即可,编译器会自动生 ...
【Lucene】Apache Lucene全文检索引擎架构之构建索引2
上一篇博文中已经对全文检索有了一定的了解,这篇文章主要来总结一下全文检索的第一步:构建索引.其实上一篇博文中的示例程序已经对构建索引写了一段程序了,而且那个程序还是挺完善的.不过从知识点的完整性来考虑 ...
spark ml pipeline构建机器学习任务
一.关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程 1.源数据ETL 2.数据预处理 3.特征选取 4.模型训练与验证以上四个步骤可以抽象为一个包括多个步骤的流 ...
Jenkins分布式构建与并行构建
Jenkins分布式构建与并行构建 jenkins的架构 Jenkins采用的是"master+agent(slave)"架构.Jenkins master负责提供界面.处理HTT ...
达梦数据库(DM8)大规模并行集群MPP 2节点安装部署
达梦数据库大规模并行集群MPP 2节点安装部署 1.环境准备 os 数据库版本 ip mpp角色 centos7.x86 DM8 192.168.30.100 mpp1 centos7.x86 ...
Spark学习笔记——构建分类模型
Spark中常见的三种分类模型:线性模型.决策树和朴素贝叶斯模型. 线性模型,简单而且相对容易扩展到非常大的数据集:线性模型又可以分成:1.逻辑回归:2.线性支持向量机决策树是一个强大的非线性技术, ...

随机推荐

C++11中的技术剖析(萃取技术)
从C++98开始萃取在泛型编程中用的特别多,最经典的莫过于STL.STL中的拷贝首先通过萃取技术识别是否是已知并且支持memcpy类型,如果是则直接通过内存拷贝提高效率,否则就通过类的重载=运算符,相 ...
NX二次开发-UFUN按类型遍历名字获取Tag函数UF_OBJ_cycle_by_name_and_type
NX9+VS2012 #include <uf.h> #include <uf_draw.h> #include <uf_obj.h> #include <u ...
NX二次开发-UFUN编辑图层类别描述UF_LAYER_edit_category_descr
1 NX11+VS2013 2 3 #include <uf.h> 4 #include <uf_layer.h> 5 6 7 UF_initialize(); 8 9 //创 ...
jquery判断对象是undifined，判断对象是null
判断对象是undifined: var aaa = undefined; if (typeof(aaa) == "undefined") { ... } typeof 返回的是字符 ...
windows下装LINUX后，进不了系统
在网上找了一款叫"DisckGenius"的软件,运行后选“硬盘”/“重建主引导记录(MBR)”,然后重启,就正常了. 还有系统盘最好是FAT32格式的.
Python中字典的详细用法
#字典 #字典是Python中唯一内建的映射类型.字典中没有特殊的顺序,但都是存储在一个特定的键(key)下面,键可以是数字,字符串,甚至是元组 #一.字典的使用 #在某些情况下,字典比列表更加适用: ...
线性可分SVM中线性规划问题的化简
在网上找了许多关于线性可分SVM化简的过程,但似乎都不是很详细,所以凭借自己的理解去详解了一下. 线性可分SVM的目标是求得一个超平面(其实就是求w和b),在其在对目标样本的划分正确的基础上,使得到该 ...
自学之linux的基本命令
cd cd 用于进入指定文件夹 cd ..用于回到上个文件夹 ls ls用于列出文件夹里的所有元素 ls/home/ 列出home文件夹的元素 ls -l 可以看到文件名,拥有者是谁,什么时候修改的 ...
Palindrome Partition CodeForces - 932G 回文树+DP+(回文后缀的等差性质)
题意: 给出一个长度为偶数的字符串S,要求把S分成k部分,其中k为任意偶数,设为a[1..k],且满足对于任意的i,有a[i]=a[k-i+1].问划分的方案数. n<=1000000 题解: ...
elasticsearch实现读写分离
简介今天我们不讲三国,我们讲一讲elasticsearch(以下简称ES)读写分离,这是个好东西,全文索引的时候使用它贼得劲,对elasticsearch索引原理不太清楚的,请自行查找相关的文章这 ...

如何使用Spark大规模并行构建索引

如何使用Spark大规模并行构建索引的更多相关文章

随机推荐

热门专题