Solr4.10.2集成Nutch1.9与自带UI界面使用
Solr4.10.2集成Nutch1.9与自带UI界面使用
一、Solr4.10.2与Nutch1.9集成
环境:Solr4.10.2已经配置在Tomcat上
Solr的Tomcat配置详见Solr4.10.2的Tomcat配置
将NUTCH_DIR/conf/schema-solr4.xml
拷贝到SOLR_HOME/collection1/conf/
,重命名为schema.xml,并在<fields>...</fields>
最后添加一行
- <field name="_version_" type="long" indexed="true" stored="true" multiValued="false"/>
<field name="_version_" type="long" indexed="true" stored="true" multiValued="false"/>
重启Tomcat后即可用Nutch的crawl命令带上solrURL参数进行爬取索引工作了
Nutch1.9的命令使用详见Nutch1.9安装配置与基本使用介绍
在爬取索引后进入solr管理界面可以看到solr下已经有索引好的数据了:
二、Solr4.10.2的自带UI界面(Solritas)
1.拷贝solr-4.10.2\contrib\velocity\lib以及solr-4.10.2\dist下面的所有jar包到SOLR_SERVER\WEB-INF\lib目录下
2.如果不进行上一步集成Nutch,这一步就可以跳过了,如果集成了Nutch则需要在新的schema.xml文件中继续添加配置
① 在</types>前加上
- <!-- Money/currency field type. Seehttp://wiki.apache.org/solr/MoneyFieldType
- Parameters:
- defaultCurrency: Specifies thedefault currency if none specified. Defaults to "USD"
- precisionStep: Specifies the precisionStep for the TrieLongfield used for the amount
- providerClass: Lets you plug in other exchange providerbackend:
- solr.FileExchangeRateProvider is the default and takes one parameter:
- currencyConfig:name of an xml file holding exchange rates
- solr.OpenExchangeRatesOrgProvider uses rates from openexchangerates.org:
- ratesFileLocation:URL or path to rates JSON file (default latest.json on the web)
- refreshInterval:Number of minutes between each rates fetch (default: 1440, min: 60)
- -->
- <fieldType name="currency"class="solr.CurrencyField" precisionStep="8"defaultCurrency="USD" currencyConfig="currency.xml" />
- <!-- boolean type: "true" or "false" -->
- <fieldType name="boolean" class="solr.BoolField"sortMissingLast="true"/>
<!-- Money/currency field type. Seehttp://wiki.apache.org/solr/MoneyFieldType
Parameters:
defaultCurrency: Specifies thedefault currency if none specified. Defaults to "USD"
precisionStep: Specifies the precisionStep for the TrieLongfield used for the amount
providerClass: Lets you plug in other exchange providerbackend:
solr.FileExchangeRateProvider is the default and takes one parameter:
currencyConfig:name of an xml file holding exchange rates
solr.OpenExchangeRatesOrgProvider uses rates from openexchangerates.org:
ratesFileLocation:URL or path to rates JSON file (default latest.json on the web)
refreshInterval:Number of minutes between each rates fetch (default: 1440, min: 60)
-->
<fieldType name="currency"class="solr.CurrencyField" precisionStep="8"defaultCurrency="USD" currencyConfig="currency.xml" /> <!-- boolean type: "true" or "false" -->
<fieldType name="boolean" class="solr.BoolField"sortMissingLast="true"/>
② 在</fields>前加上
- <field name="cat" type="string"indexed="true" stored="true" multiValued="true"/>
- <field name="manu_exact" type="string"indexed="true" stored="false"/>
- <field name="content_type" type="string"indexed="true" stored="true"multiValued="true"/>
- <field name="price" type="float" indexed="true"stored="true"/>
- <field name="popularity" type="int"indexed="true" stored="true" />
- <field name="inStock" type="boolean"indexed="true" stored="true" />
- <dynamicField name="*_s" type="string" indexed="true" stored="true"/>
- <dynamicField name="*_c" type="currency" indexed="true" stored="true"/>
- <dynamicField name="*_dt" type="date" indexed="true" stored="true"/>
<field name="cat" type="string"indexed="true" stored="true" multiValued="true"/>
<field name="manu_exact" type="string"indexed="true" stored="false"/>
<field name="content_type" type="string"indexed="true" stored="true"multiValued="true"/>
<field name="price" type="float" indexed="true"stored="true"/>
<field name="popularity" type="int"indexed="true" stored="true" />
<field name="inStock" type="boolean"indexed="true" stored="true" />
<dynamicField name="*_s" type="string" indexed="true" stored="true"/>
<dynamicField name="*_c" type="currency" indexed="true" stored="true"/>
<dynamicField name="*_dt" type="date" indexed="true" stored="true"/>
③ 在</schema>前加上
- <copyField source="author" dest="author_s"/>
- <copyField source="price"dest="price_c"/>
<copyField source="author" dest="author_s"/>
<copyField source="price"dest="price_c"/>
④ 中文分词按照之前的方法配置就好,IK分词器配置详见Solr4.10.2的IK Analyzer分词器配置
3.重启Tomcat,访问http://localhost:8080/solr/browse即可
nutch1.8+solr 4 配置过程+ikanalayzer2012 中文分词器
本文固定连接:http://blog.csdn.net/fyfmfof/article/details/42803841
Solr4.10.2集成Nutch1.9与自带UI界面使用的更多相关文章
- Solr4.10.3安装配置
系统环境 window版本为:windows 8.1 64位 软件环境 JDK版本:1.7 solr版本:4.10.3 tomcat版本:tomcat 7 安装过程 步骤一:将下载好的solr-4.1 ...
- Tomcat部署Solr4.10.4
前段时间学习solr,兴致勃勃的从官网下载到solr5.3.0最新版本,然后在后期部署时出现了很多问题.首先,4.0到5.0是个大版本更新,下载 的压缩包的文件结构有了很多变化,导致网上很多关于sol ...
- Win7下Solr4.10.1和MySql的整合(索引与搜索)
1.打开D:\webserver\solr\collection1\conf\solrconfig.xml文件,在<requestHandler name="/select" ...
- Win7下Solr4.10.1和TomCat8的安装
1.系统为win7 64位系统,安装有wamp的环境,我的所有网站放在 d:\webserver下,域名指向该目录下的子目录: 2.安装TomCat8到 D:\Tomcat 8.0: 3.在 d:\w ...
- Solr-4.10.2与Tomcat整合
1.将下载的solr解压至D:\solr,拷贝d:\solr\solr-4.10.2\example\webapps\solr.war到Tomcat的webapps\目录中.直接解压 solr.war ...
- Solr4.10与tomcat整合并安装中文分词器
1.solr Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器.Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置.可扩展,并对索引. ...
- tomcat部署solr4.10
1.创建solrHome mkdir /opt/solrHome 2.拷贝solr基础数据 /example/solr/* /opt/solrHome 将contrib和dist两个目录拷贝到/opt ...
- 10.Solr4.10.3数据导入(DIH全量增量同步Mysql数据)
转载请出自出处:http://www.cnblogs.com/hd3013779515/ 1.创建MySQL数据 create database solr; use solr; DROP TABLE ...
- 9.Solr4.10.3数据导入(post.jar方式和curl方式)
转载请出自出处:http://www.cnblogs.com/hd3013779515/ 1.使用post.jar方式 java -Durl=http://192.168.137.168:8080/s ...
随机推荐
- POJ 1988 Cube Stacking( 带权并查集 )*
POJ 1988 Cube Stacking( 带权并查集 ) 非常棒的一道题!借鉴"找回失去的"博客 链接:传送门 题意: P次查询,每次查询有两种: M x y 将包含x的集合 ...
- WIN10 java环境变量问题之 配置的JDK1.8版本却是1.7
问题前沿,在开发项目中,发布的项目出现了内存溢出问题,我挨个把代码看了一遍,并不能准确定位到那个地方能出现内存溢出问题,后来想到使用压力测试,较可能出现内存溢出的接口进行一番测试. 我就安装了一个ap ...
- 刷新页面vuex数据不消失和不跳转页面
先说点什么 vuex和路由拦截这一块捣鼓的有一段时间了,总算是爬出来了,特地来分享一下,首先声明没有什么基础介绍,用的是登录状态存储sessionStorage的方法!!! 进入正题 刷新 刷新相当与 ...
- javascript-知识点集合
第三课.JavaScript的语法与关键字 1.JavaScript的语法 字符串.数字.布尔.数组.对象.Null.Undefined 1.js的变量区分大小写 username userName ...
- 译:MySQL性能优化的21条最佳经验
今天,数据库的操作越来越成为整个应用的性能瓶颈了,这点对于Web应用尤其明显.关于数据库的性能,这并不只是DBA才需要担心的事,而这更是我们程序员需要去关注的事情.当我们去设计数据库表结构,对操作数据 ...
- php学习之道:php empty()和isset()的差别
在使用 php 编写页面程序时,我常常使用变量处理函数推断 php 页面尾部參数的某个变量值是否为空,開始的时候我习惯了使用 empty() 函数,却发现了一些问题,因此改用 isset() 函数,问 ...
- nodejs即时聊天
一直想做一个即时聊天的应用,前几天看到了socket.io,感觉还不错.自己略加改动,感觉挺不错的.官网上给的样例非常easy,以下改进了一点,实现了历史消息的推送. demo地址:chat.code ...
- centos6.5配置SSH免password登录
创建新用户:useradd hadoop 设置password:passwd hadoop,输入自己想要的password就可以.之后su hadoop切换用户 改动主机名:vim /etc/sysc ...
- CentOS6.3升级GCC到GCC4.8.2
server上安装的GCC版本号过旧.已经不满足个人使用的版本号需求,故决定对其进行升级操作.由当前版本号3.4.6升级到4.8.2.然受权限制约.仅仅能安装到个人文件夹.因此假设您的server能够 ...
- 如何编译dotnet core
1.git clone源码 2.init-tools.cmd 3. Error: DIA SDK is missing at "C:\Program Files (x86)\Microsof ...