Apache Pig和Solr问题笔记(一)】的更多相关文章

记录下最近两天散仙在工作中遇到的有关Pig0.12.0和Solr4.10.2一些问题,总共有3个,如下: (1)问题一: 如何Pig中使用ASCII和十六进制(hexadecimal)的分隔符进行加载,和切分数据? 注意关于这个问题,在Pig中,会反应到2个场景中, 第一: 在Pig加载(load)数据时候 . 第二: 在Pig处理split,或则正则截取数据的时候. 先稍微说下,为啥使用十六进制的字段分隔符,而不是我们常见的空格,逗号,冒号,分号,#号,等,这些字符,虽然也可以使用,但是如果我…
散仙,在上篇文章中介绍了,如何使用Apache Pig与Lucene集成,还不知道的道友们,可以先看下上篇,熟悉下具体的流程. 在与Lucene集成过程中,我们发现最终还要把生成的Lucene索引,拷贝至本地磁盘,才能提供检索服务,这样以来,比较繁琐,而且有以下几个缺点: (一)在生成索引以及最终能提供正常的服务之前,索引经过多次落地操作,这无疑会给磁盘和网络IO,带来巨大影响 (二)Lucene的Field的配置与其UDF函数的代码耦合性过强,而且提供的配置也比较简单,不太容易满足,灵活多变的…
原创不易,转载请务必注明,原创地址,谢谢配合! http://qindongliang.iteye.com/ Pig系列的学习文档,希望对大家有用,感谢关注散仙! Apache Pig的前世今生 Apache Pig如何自定义UDF函数? Apache Pig5行代码怎么实现Hadoop的WordCount? Apache Pig入门学习文档(一) Apache Pig学习笔记(二) Apache Pig学习笔记之内置函数(三) 玩转大数据系列之Apache Pig如何与Apache Lucen…
Solr学习笔记之3.Solr导入SQLServer数据建立索引 一.下载MSSQLServer的JDBC驱动 下载:Microsoft JDBC Driver 4.0 for SQL Server 地址:http://www.microsoft.com/zh-CN/download/details.aspx?displaylang=en&id=11774 二.配置Solr dataimport for SQLServer 1.依赖jar包配置 将MSSQLServer的JDBC驱动中的sqlj…
Apache Pig是一个高级过程语言,可以调用MapReduce查询大规模的半结构化数据集. 样例执行的环境为cloudera的单节点虚拟机 读取结构数据中的指定列 在hdfs上放置一个文件 [cloudera@quickstart ~]$ hdfs dfs -put /etc/passwd /user/cloudera/ 启动Apache Pig [cloudera@quickstart ~]$ pig -x mapreduce grunt> 使用Pig Latin进行数据提取 grunt>…
Solr学习笔记之5.Component(组件)与Handler(处理器)学习 一.搜索篇 拼写检查(spellCheck) 作用:用来检查用户输入的检索内容是否存在,如果不存在则给它提示出相近或相似的内容 配置:在solrconfig.xml中配置如下 <searchComponent name="spellcheck" class="solr.SpellCheckComponent"> <lst name="spellchecker&…
Solr学习笔记之4.Solr配置文件简介 摘自<Solr in Action>. 1. solr.xml – Defines one or more cores per Solr server2. solrconfig.xml – Defines the main settings for a specific Solr core3. schema.xml – Defines the structure of your index including fields and field typ…
solr学习笔记 1.安装前准备 solr依赖java 8 运行环境,所以我们先安装java.如果没有java环境无法启动solr服务,并且会看到如下提示: [root@localhost solr-6.1.0]# ./bin/solr start -e cloud -noprompt /*运行solr服务*/ Java not found, or an error was encountered when running java. A working Java 8 is required t…
Solr学习笔记之2.集成IK中文分词器 一.下载IK中文分词器 IK中文分词器 此文IK版本:IK Analyer 2012-FF hotfix 1 完整分发包 二.在Solr中集成IK中文分词器 1.将 IKAnalyzer.cfg.xml,IKAnalyzer2012FF_u1.jar,stopword.dic 拷贝到tomcat的/webapps/solr/WEB-INF/lib/下面 2.选择某一Solr的core配置IK分词,打开coreName/conf/schema.xml,在<…
Solr学习笔记之1.环境搭建 一.下载相关安装包 1.JDK 2.Tomcat 3.Solr 此文所用软件包版本如下: 操作系统:Win7 64位 JDK:jdk-7u25-windows-i586.exe Tomcat:apache-tomcat-8.0.3.exe Solr:solr-4.7.0.zip 注意:JDK 与 Tomcat 版本要对应,要么都是32位版本,要么都是64位版本,否则会报异常. 二.Solr安装 1.解压solr的zip安装包: 2.将dist文件夹中的solr-4…