Nutch & Solr & IKAnalyzer Deployment Debug

Nutch配置错误

(1) IO错误

　　记得出错的时候把出错的目录删除，否则下次还是出错。

(2) Command crawl is deprecated, please use bin/crawl instead

　　　1.8和2.3版本不可以使用这个命令，所以才会有之前的错误。
　　　使用以下代替：

 Usage: bin/crawl <seedDir> <crawlID> <solrURL> <numberOfRounds>

 Example: bin/crawl urls/seed.txt TestCrawl http://localhost:8983/solr/ 2

Solr配置错误

(1) 出现500问题

　　在/usr/lib/tomcat/apache-tomcat-6.0.43/webapps/solr/WEB-INF下的web.xml中

 <env-entry>

 <env-entry-name>solr/home</env-entry-name>

 <env-entry-value>这里的值应该指向之前从solr拷到tomcat下的文件夹solr</env-entry-value>

 <env-entry-type>java.lang.String</env-entry-type>

 </env-entry>

(2) 出现404问题

　　将 /usr/lib/hadoop/solr/solr-4.10.2/example/lib/ext下的所有jar文件复制到/usr/lib/tomcat/apache-tomcat-6.0.43/lib下
　　修改/usr/lib/tomcat/apache-tomcat-6.0.43/solr/collection1/conf里的solrconfig.xml文件中的dataDir一行内容为：

 <dataDir>${solr.data.dir:原本是空的，现需要加上拷到tomcat里solr包下的data地址：/usr/lib/tomcat/apache-tomcat-6.0.43/solr/collection1/data}</dataDir>

IKAnalyzer配置错误

(1) 已经将包拷贝到lib下面，依然出现无法加载包的问题

　　在 Solr4.0 发布以后，官方取消了 BaseTokenizerFactory 接口，而直接使用 Lucene Analyzer 标准接口。因此 IK 分词器 2012 FF 版本也取消了org.wltea.analyzer.solr.IKTokenizerFactory 类。
　　所以检查schema.xml中FieldType的配置，删除或修改掉出现class="org.wltea.analyzer.solr.IKTokenizerFactory"的部分，改为使用

 <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>

(2) Field域的name属性必须唯一，不能有重复

(3) 测试地址为localhost:8080/solr/#/collection1/analysis

Nutch & Solr & IKAnalyzer Deployment Debug的更多相关文章

[solr] - IKAnalyzer 扩展分词库
在solr中加入自己的扩展分词库方法: 参考文章: http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 1.在solr的we ...
[solr] - IKAnalyzer 分词加入
1.下载IK Analyzer中文分词器:http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip 2.解压出zip ...
Nutch + solr 这个配合不错哦
因为朋友需要,所以把这个开源组合放在一起试用了下,正在弄,先Mark下. 用的是Nutch1.9,这个比较新,资料比较少,基本上就是用原来的英文WIKI. 首先要注意的是,不要试着在windows下做 ...
docker-compose 安装solr+ikanalyzer
docker-compose.yml version: '3.1' services: solr: image: solr restart: always container_name: solr p ...
nutch solr
创建solr数据目录创建目录solrData,拷贝solr-4.10.2/example/solr到solrData下修改配置文件中数据目录路径修改 solrData/solr/coll ...
nutch solr 配置
http://blog.csdn.net/panjunbiao/article/details/12171147 后半部分实践通过
基于Nutch Solr等基于搭建一体化的数据抓取平台
参考链接:https://www.ibm.com/developerworks/cn/opensource/os-cn-BigInsightsNutchSolr/
Build IKAnalyzer With Solr 5.1.0
中文分詞裡IKAnalyzer和結巴是大家比較常用的分詞器, 不過IKAnalyzer已經很久沒有更新了, IKAnalyzer中文分词器V2012使用手册也跟IK Analyer 2012-FF H ...
solr ,hadoop ,lucene,nutch 的关系和区别
apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术. nutch和solr原来都是lucene下的子项目.但后来 ...

随机推荐

Css里的BFC
一.BFC简介 BFC全称:Block Formatting Contexts (BFC,块级格式化上下文),就是一个块级元素的渲染显示规则 (可以把 BFC 理解为一个封闭的大箱子,,容器里面的 ...
《即时消息技术剖析与实战》学习笔记11——IM系统如何保证服务高可用：流量控制和熔断机制
IM 系统的不可用主要有以下两个原因: 一是无法预测突发流量,即使进行了服务拆分.自动扩容,但流量增长过快时,服务已经不可用了: 二是业务中依赖的这些接口.资源不可用或变慢时,比如发消息可能需要依赖& ...
Oracle 11g rac中关于crsctl stop cluster/crs/has的区别
转载至http://www.oracleplus.net/arch/1203.html,整理后得. 1 通过命令查看cluster/has/crs管理的内容 [root@11rac1 ~]# crsc ...
scrapy-redis分布式爬取知乎问答，使用docker布置多台机器。
先上结果: 问题: 答案: 可以看到现在答案文档有十万多,十万个为什么~hh 正文开始: 分布式爬虫应该是在多台服务器(A B C服务器)布置爬虫环境,让它们重复交叉爬取,这样的话需要用到状态管理器. ...
Java集合03——你不得不了解的Map
Map 在面试中永远是一个绕不开的点,本文将详细讲解Map的相关内容.关注公众号「Java面典」了解更多 Java 知识点. Map Map 是一个键值对(key-value)映射接口: 映射中不能包 ...
Java反射之数组的反射应用
上一篇我们说了Java反射之成员方法的反射这一篇我们说一说数组的反射应用,数组的有长度等属性,所以也会有相应的方法获得这些属性,这里我们不一一列举哪些方法.我们来了解反射包中的一个类----Arra ...
js中 navigator 对象
Navigator 对象包含有关浏览器的信息. 很多时候我们需要在判断网页所处的浏览器和平台,Navigator为我们提供了便利 Navigator常见的对象属性如下: 属性描述 appCodeNa ...
drf呼啦圈
呼啦圈 1.1 表结构设计不会经常变化的值放在内存:choices形式,避免跨表性能低. 分表:如果表中列太多/大量内容可以选择水平分表表自关联 from django.db import mod ...
ReentrantReadWriteLock 源码分析以及 AQS 共享锁（二）
前言上一篇讲解了 AQS 的独占锁部分(参看:ReentrantLock 源码分析以及 AQS (一)),这一篇将介绍 AQS 的共享锁,以及基于共享锁实现读写锁分离的 ReentrantReadW ...
Github Pages访问太慢？通过Netlify免费加速
github pages vs netlify Github Pages为Github提供的一项静态站点托管服务,它直接从Github仓库获取静态文件进行发布,然后提供一个github.io的二级域名 ...

Nutch & Solr & IKAnalyzer Deployment Debug

Nutch & Solr & IKAnalyzer Deployment Debug的更多相关文章

随机推荐

热门专题