Apache Pig和Solr问题笔记（一）

记录下最近两天散仙在工作中遇到的有关Pig0.12.0和Solr4.10.2一些问题，总共有3个，如下：

（1）问题一：如何Pig中使用ASCII和十六进制（hexadecimal）的分隔符进行加载，和切分数据？

注意关于这个问题，在Pig中，会反应到2个场景中，
第一：在Pig加载（load）数据时候。
第二：
在Pig处理split，或则正则截取数据的时候。

先稍微说下，为啥使用十六进制的字段分隔符，而不是我们常见的空格，逗号，冒号，分号，#号，等，这些字符，虽然也可以使用，但是如果我们数据中有和这些符号冲突的数据，那么在解析时，就会发生一些出人意料的Bug，所以，为了保险起见，选用肉眼不可读的十六进制的数据，是一个不错的选择，当然这也是，针对场景来说的，看情况决定。

关于详细的ASCII和十六进制，二进制，八进制，十进制的文档介绍，请参考维基百科全书。

下面继续回到正题，本例中，我们的数据格式是这样存储的：

每行一条记录,UTF-8编码；
每条记录都包括字段名和字段内容；
字段之间用ascii码1分隔；
字段名与内容之间用ascii码2分隔；

每行一条记录,UTF-8编码；

每条记录都包括字段名和字段内容；

字段之间用ascii码1分隔；

字段名与内容之间用ascii码2分隔；

一个在eclipse中的小例子如下：

public static void main(String[] args) {
//注意\1和\2，在我们的IDE中，NotePad++中，Linux的终端设备的界面中，都会呈现不同的
//显示方式，大家可以在维基百科中，详细了解下
//数据示例
String s="prod_cate_disp_id019";
//split规则
String ss[]=s.split("\2");
for(String st:ss){
System.out.println(st);
}
}

	public static void main(String[] args) {

		//注意\1和\2，在我们的IDE中，NotePad++中，Linux的终端设备的界面中，都会呈现不同的

		//显示方式，大家可以在维基百科中，详细了解下

		//数据示例

		String s="prod_cate_disp_id019";

		//split规则

		String ss[]=s.split("\2");

		for(String st:ss){

			System.out.println(st);

		}

	}

关于load函数，加载时支持的分隔符类型，大家可以参考官网的文档
下面看在Pig脚本的代码：

--Hadoop技术交流群：415886155
/*Pig支持的分隔符包括：
1,任意字符串，
2,任意转义字符
3，dec的字符\\u001 或者 \\u002
4，十六进行字符 \\x0A \\x0B
*/
--注意这个load时的分隔符，代表ASCII的1，作为Pig里面的dec直接解析方式
a = load '/tmp/dongliang/20150401/20150301/tmp_search_keywords_cate_stat/' using PigStorage('\\u001') ;
/**
注意下面的分割符^B，这个符号是脱元字符，只会在终端设备上
显示，这个符号，代表ASCII的2
*/
a = foreach a generate REGEX_EXTRACT ($0, '(.*)^B(.*)', 2) as time ,
REGEX_EXTRACT ($1, '(.*)^B(.*)', 2) as kw ,
REGEX_EXTRACT ($2, '(.*)^B(.*)', 2) as ic ,
REGEX_EXTRACT ($3, '(.*)^B(.*)', 2) as cid,
REGEX_EXTRACT ($4, '(.*)^B(.*)', 2) as cname,
REGEX_EXTRACT ($5, '(.*)^B(.*)', 2) as pname,
REGEX_EXTRACT ($6, '(.*)^B(.*)', 2) as snt,
REGEX_EXTRACT ($7, '(.*)^B(.*)', 2) as cnt,
REGEX_EXTRACT ($8, '(.*)^B(.*)', 2) as fnt,
REGEX_EXTRACT ($9, '(.*)^B(.*)', 2) as ant,
REGEX_EXTRACT ($10, '(.*)^B(.*)', 2) as pnt ;
--获取字符串长度
a = foreach a generate SIZE(cid) as len;
--按长度分组
b = group a by len;
--统计各个长度下的数量
c = foreach b generate group, COUNT($1);
--输出打印
dump c;

--Hadoop技术交流群：415886155

/*Pig支持的分隔符包括：

1,任意字符串，

2,任意转义字符

3，dec的字符\\u001 或者 \\u002

4，十六进行字符 \\x0A  \\x0B

*/

--注意这个load时的分隔符，代表ASCII的1，作为Pig里面的dec直接解析方式

a = load '/tmp/dongliang/20150401/20150301/tmp_search_keywords_cate_stat/' using PigStorage('\\u001') ;

/**

注意下面的分割符^B，这个符号是脱元字符，只会在终端设备上

显示，这个符号，代表ASCII的2

*/

a = foreach a generate   REGEX_EXTRACT ($0, '(.*)^B(.*)', 2) as time ,

                         REGEX_EXTRACT ($1, '(.*)^B(.*)', 2) as kw ,

                         REGEX_EXTRACT ($2, '(.*)^B(.*)', 2) as ic ,

                         REGEX_EXTRACT ($3, '(.*)^B(.*)', 2) as cid,

                         REGEX_EXTRACT ($4, '(.*)^B(.*)', 2) as cname,

                         REGEX_EXTRACT ($5, '(.*)^B(.*)', 2) as pname,

                         REGEX_EXTRACT ($6, '(.*)^B(.*)', 2) as snt,

                         REGEX_EXTRACT ($7, '(.*)^B(.*)', 2) as cnt,

                         REGEX_EXTRACT ($8, '(.*)^B(.*)', 2) as fnt,

                         REGEX_EXTRACT ($9, '(.*)^B(.*)', 2) as ant,

                         REGEX_EXTRACT ($10, '(.*)^B(.*)', 2) as pnt ;

--获取字符串长度

a = foreach a generate SIZE(cid) as len;

--按长度分组

b = group a by len;

--统计各个长度下的数量

c = foreach b generate group, COUNT($1);

--输出打印

dump c;

（2）问题二：如何在Apache Solr中，查询某个不分词的field的长度，有多少个记录？

Solr里面并没有直接提供这样类似JAVA里的lenth这样的函数，或者Pig里面的SIZE这样的函数，那么我们应该如何查询呢？

Solr虽然不直接支持这样的查询，但是我们可以通过正则查询，来变相的实现这个目的，用法如下：
（1）查询固定长度 cid:/.{6}/
只过滤长度为6的记录
（2）查询范围长度 cid:/.{6,9}/ 只过滤长度6到9的记录
（3）查询最少多少长度以上的cid:/.{6}.*/
长度最少为6的

（3）问题三：在使用Pig+MapReduce，向Solr中，批量添加索引时，发现，无任何错误异常，但是索引里却没任何数据?

这是一个比较诡异的问题，本来，散仙觉得应该是程序出问题了，但是后来发现，同样的代码向另外一个collection里添加数据，就很正常，查看solr的log，发现里面打印的一些信息如下：

INFO - 2015-04-01 21:08:36.097; org.apache.solr.update.DirectUpdateHandler2; start commit{,optimize=false,openSearcher=true,waitSearcher=true,expungeDeletes=false,softCommit=false,prepareCommit=false}
INFO - 2015-04-01 21:08:36.098; org.apache.solr.update.DirectUpdateHandler2; No uncommitted changes. Skipping IW.commit.
INFO - 2015-04-01 21:08:36.101; org.apache.solr.core.SolrCore; SolrIndexSearcher has not changed - not re-opening: org.apache.solr.search.SolrIndexSearcher
INFO - 2015-04-01 21:08:36.102; org.apache.solr.update.DirectUpdateHandler2; end_commit_flush

INFO  - 2015-04-01 21:08:36.097; org.apache.solr.update.DirectUpdateHandler2; start commit{,optimize=false,openSearcher=true,waitSearcher=true,expungeDeletes=false,softCommit=false,prepareCommit=false}

INFO  - 2015-04-01 21:08:36.098; org.apache.solr.update.DirectUpdateHandler2; No uncommitted changes. Skipping IW.commit.

INFO  - 2015-04-01 21:08:36.101; org.apache.solr.core.SolrCore; SolrIndexSearcher has not changed - not re-opening: org.apache.solr.search.SolrIndexSearcher

INFO  - 2015-04-01 21:08:36.102; org.apache.solr.update.DirectUpdateHandler2; end_commit_flush

解释下上面的信息的意思，大概就是说在数据索引完了，但是没有发现有commit的数据，所以跳过commit，这一点在程序跑的时候是非常奇怪的，因为数据源HDFS里最少有110万的数据，怎么会没有数据呢？
然后散仙通过谷歌搜索发现也有人发现类似的奇怪情况，无任何异常的情况下，重建索引成功，却在索引里没有看见任何数据，而且最为疑惑的是，这几个网上已经有的案例，竟然没有一个有解决方案。

没办法了，只好再次查看程序，这一次散仙，把中间处理好需要建索引的数据，给打印出来看一下，到底什么情况，结果打印出来的都是一行行空数据，原来在使用正则截取数据时，原来的分隔符失效了，所以导致截取不到数据，这下问题基本定位了，solr索引里没有数据，肯定是因为本来就没有数据提交，导致的那个奇怪的log发生，结果在散仙把这个bug修复之后，再次重建索引，发现这次果然成功了，在Solr中，也能正常查询到数据。如果你也发生了类似的情况，请首先确保你能正确的获取到数据，不论是从远程读取的，还是解析word，excel，或者txt里面的数据，都要首先确定，能够正确的把数据解析出来，然后，如果还是没建成功，可根据solr的log或者抛出的异常提示，进行修复
。

Apache Pig和Solr问题笔记（一）的更多相关文章

玩转大数据系列之Apache Pig如何与Apache Solr集成（二）
散仙,在上篇文章中介绍了,如何使用Apache Pig与Lucene集成,还不知道的道友们,可以先看下上篇,熟悉下具体的流程. 在与Lucene集成过程中,我们发现最终还要把生成的Lucene索引,拷 ...
玩转大数据系列之Apache Pig高级技能之函数编程（六）
原创不易,转载请务必注明,原创地址,谢谢配合! http://qindongliang.iteye.com/ Pig系列的学习文档,希望对大家有用,感谢关注散仙! Apache Pig的前世今生 Ap ...
Solr学习笔记之3、Solr dataimport - 从SQLServer导入数据建立索引
Solr学习笔记之3.Solr导入SQLServer数据建立索引一.下载MSSQLServer的JDBC驱动下载:Microsoft JDBC Driver 4.0 for SQL Server ...
Apache Pig处理数据示例
Apache Pig是一个高级过程语言,可以调用MapReduce查询大规模的半结构化数据集. 样例执行的环境为cloudera的单节点虚拟机读取结构数据中的指定列在hdfs上放置一个文件 [cl ...
Solr学习笔记之5、Component（组件）与Handler（处理器）学习
Solr学习笔记之5.Component(组件)与Handler(处理器)学习一.搜索篇拼写检查(spellCheck) 作用:用来检查用户输入的检索内容是否存在,如果不存在则给它提示出相近或相似 ...
Solr学习笔记之4、Solr配置文件简介
Solr学习笔记之4.Solr配置文件简介摘自<Solr in Action>. 1. solr.xml – Defines one or more cores per Solr ser ...
solr学习笔记-入门
solr学习笔记 1.安装前准备 solr依赖java 8 运行环境,所以我们先安装java.如果没有java环境无法启动solr服务,并且会看到如下提示: [root@localhost solr- ...
Solr学习笔记之2、集成IK中文分词器
Solr学习笔记之2.集成IK中文分词器一.下载IK中文分词器 IK中文分词器此文IK版本:IK Analyer 2012-FF hotfix 1 完整分发包二.在Solr中集成IK中文分词器 ...
Solr学习笔记之1、环境搭建
Solr学习笔记之1.环境搭建一.下载相关安装包 1.JDK 2.Tomcat 3.Solr 此文所用软件包版本如下: 操作系统:Win7 64位 JDK:jdk-7u25-windows-i586 ...

随机推荐

PHP setrawcookie() 函数
定义和用法 setrawcookie() 函数不对 cookie 值进行 URL 编码,发送一个 HTTP cookie. cookie 是由服务器发送到浏览器的变量.cookie 通常是服务器嵌入到 ...
回滚树形dp（按dfs序dp）——hdu6035
本题前面的操作别的博客里都有.难点在于颜色ci的贡献,如何一次dfs求出答案先来考虑如何在一次dfs中单独对颜色i进行计算用遍历dfs序的方式,在深搜过程中,碰到带有颜色 i 的点 u,u每个颜色 ...
51 eigen、boost等基础库学习
0 引言 eigen库是一个高层次的C++库,有效支持线性代数,矩阵和矢量运算,数值分析及其相关的算法.eigen除了C++标准库之外,不需要任何其他的依赖包.Eigen使用的CMake建立配置文件和 ...
NX二次开发-UFUN旋转视图UF_VIEW_rotate_view
NX11+VS2013 #include <uf.h> #include <uf_view.h> #include <uf_obj.h> #include < ...
1.RabbitMQ介绍
MQ全称为Message Queue, 消息队列(MQ)是一种应用程序对应用程序的通信方法.应用程序通过读写出入队列的消息(针对应用程序的数据)来通信,而无需专用连接来链接它们.消息传递指的是程序之间 ...
JVM虚拟机瓜分内存原则
操作系统分配给每个进程的内存是有限制的,例如32位的Windows限制为2GB.虚拟机提供了参数来控制java堆和方法区(非堆)这两部分内存的最大值.则剩余的内存为2GB(操作系统限制)减去Xmx(最 ...
判断APP是否已安装
NSString *str = [NSString stringWithFormat:@"%@://%@",[dic objectForKey:@"ios_url_sch ...
arm-linux-objdump 的使用
1. 查看静态库或.o 文件的组成文件 [arm@localhost gcc]$ armlinuxobjdump a libhello.a 2. 查看静态库或.o 文件的络组成部分的头部分 [a ...
Tomcat相关知识总结
有关Tomcat的杂货店一.修改端口号,并以IP访问 1.确保80端口没有程序占用.例如nginx等. 2.vi /tomcat/conf/server.xml 3.找到<Connector ...
【CSP-S/J 2019】初赛注意事项
UPD:10-25-13:33 正式成绩出了,省里500多名应该进了吧... UPD:10-20-10:07 现在又很慌啊,怎么感觉82又一点都不稳啊... 然后现在又不太想写文化课作业...我是不是 ...

Apache Pig和Solr问题笔记（一）

Apache Pig和Solr问题笔记（一）的更多相关文章

随机推荐

热门专题