Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门

https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6EmUbbW&id=564564604865

http://outofmemory.cn/code-snippet/3588/Apache-Solr-chuji-course-introduction-install-bushu-Java-interface-zhongwen-fenci

Apache Solr 初级教程（介绍、安装部署、Java接口、中文分词）

更多1

Solr

中文分词

搜索

Apache Solr 介绍

Solr 是什么？

Solr 是一个开源的企业级搜索服务器，底层使用易于扩展和修改的Java 来实现。服务器通信使用标准的HTTP 和XML，所以如果使用Solr 了解Java 技术会有用却不是必须的要求。

Solr 主要特性有：强大的全文检索功能，高亮显示检索结果，动态集群，数据库接口和电子文档（Word ，PDF 等）的处理。而且Solr 具有高度的可扩展，支持分布搜索和索引的复制。

Lucene 是什么？

Lucene 是一个基于 Java 的全文信息检索工具包，它不是一个完整的搜索应用程序，而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。

目前已经有很多应用程序的搜索功能是基于 Lucene ，比如 Eclipse 帮助系统的搜索功能。Lucene 能够为文本类型的数据建立索引，所以你只要把你要索引的数据格式转化的文本格式，Lucene 就能对你的文档进行索引和搜索。

Solr VS Lucene

Solr 与Lucene 并不是竞争对立关系，恰恰相反Solr 依存于Lucene ，因为Solr 底层的核心技术是使用Apache Lucene 来实现的，简单的说Solr 是Lucene 的服务器化。需要注意的是Solr 并不是简单的对Lucene 进行封装，它所提供的大部分功能都区别于Lucene 。

安装搭建Solr

安装 Java 虚拟机

Solr 必须运行在Java1.5 或更高版本的Java 虚拟机中，运行标准Solr 服务只需要安装JRE 即可，但如果需要扩展功能或编译源码则需要下载JDK 来完成。可以通过下面的地址下载所需JDK 或JRE ：

OpenJDK （ http://java.sun.com/j2se/downloads.html ）
Sun （http://java.sun.com/j2se/downloads.html ）
IBM （http://www.ibm.com/developerworks/java/jdk/ ）
Oracle （http://www.oracle.com/technology/products/jrockit/index.html ）安装步骤请参考相应的帮助文档。

安装中间件

Solr 可以运行在任何Java 中间件中，下面将以开源Apache Tomcat 为例讲解Solr 的安装、配置与基本使用。本文使用Tomcat5.5 解压版进行演示，可在下面地址下载最新版本http://tomcat.apache.org/download-55.cgi

安装Apache Solr

下载最新的Solr

本文发布时Solr1.4 为最新的版本，下文介绍内容均针对该版本，如与Solr 最新版本有出入请以官方网站内容为准。Solr官方网站下载地址：http://www.apache.org/dyn/closer.cgi/lucene/solr/

Solr 程序包的目录结构

build ：在solr 构建过程中放置已编译文件的目录。
client ：包含了一些特定语言调用Solr 的API 客户端程序，目前只有Ruby 可供选择，Java 客户端叫SolrJ 在src/solrj 中可以找到。
dist ：存放Solr 构建完成的JAR 文件、WAR 文件和Solr 依赖的JAR 文件。
example ：是一个安装好的Jetty 中间件，其中包括一些样本数据和Solr 的配置信息。
example/etc ：Jetty 的配置文件。
example/multicore ：当安装Slor multicore 时，用来放置多个Solr 主目录。
example/solr ：默认安装时一个Solr 的主目录。
example/webapps ：Solr 的WAR 文件部署在这里。
src ：Solr 相关源码。
src/java ：Slor 的Java 源码。
src/scripts ：一些在大型产品发布时一些有用的Unix bash shell 脚本。
src/solrj ：Solr 的Java 客户端。
src/test ：Solr 的测试源码和测试文件。
src/webapp ：Solr web 管理界面。管理界面的Jsp 文件都放在web/admin/ 下面，可以根据你的需要修改这些文件。

Solr 的源码没有放在同一个目录下，src/java 存放大多数文件，src/common 是服务器端与客户端公用的代码，src/test 放置solr 的测试程序，serlvet 的代码放在src/webapp/src 中。

Solr 主目录结构

一个运行的Solr 服务其主目录包含了Solr 的配置文件和数据（Lucene 的索引文件）

Solr 的主目录展开后为如下结构：

bin ：建议将集群复制脚本放在这个目录下。
conf ：放置配置文件。
conf/schema.xml ：建立索引的schema 包含了字段类型定义和其相关的分析器。
conf/solrconfig.xml ：这个是Solr 主要的配置文件。
conf/xslt ：包含了很多xslt 文件，这些文件能将Solr 的XML 的查询结果转换为特定的格式，比如：Atom/RSS。
data ：放置Lucene 产生的索引数据。
lib ：放置可选的JAR 文件比如对Slor 扩展的插件，这些JAR 文件将会在Solr 启动时加载。

如何设置主目录

通过Java system property ，属性的名称是：solr.solr.home 。

通过JNDI 将主目录的路径绑定到java:comp/env/solr/home 。

通过修改web.xml 位置在：src/web-app/web/WEB-INF ，

<env-entry>

    <env-entry-name>solr/home</env-entry-name>

    <env-entry-value>solr/</env-entry-value>

    <env-entry-type>java.lang.String</env-entry-type>

</env-entry>

如果Solr 主目录没有指定则默认设置为solr/

发布运行Solr

将apache-solr-1.4.0/dist/apache-solr-1.4.0.war 从安装包中解压到<tomcat home>/webapps 下。WAR 是一个完整的web 应用程序，包括了Solr 的Jar 文件和所有运行Solr 所依赖的Jar 文件，Jsp 和很多的配置文件与资源文件，这里需要注意的是：WAR 文件中不包括Solr 主目录，因此在启动tomcat 之前我们要先指定Solr 的主目录。

将安装程序中的apache-solr-1.4.0/example/solr 文件夹解压到<tomcat homt>/ 下，然后在<tomcat home>/bin/catalina.bat 第一行添加如下内容：

set JAVA_OPTS=%JAVA_OPTS% -Dsolr.solr.home=<tomcat home>/solr 注：Windows 以外操作系统需修改 catalina.sh 文件。

启动tomcat ，apache-solr-1.4.0.war 自动发布为web 应用。

点击链接访问Solr 控制台界面，http://localhost:8080/apache-solr-1.4.0/ ，显示如下界面表示启动成功。

使用Java 接口访问Solr 服务

SolrJ 是Solr 服务器的一个Java 接口，使用该接口再也不同为虑客户端与服务器端交互时格式解析和转换的问题烦恼了，取而代之的是用你熟悉的对象来进行相关的操作，而且随着Solr 的不断升级SolrJ 也会同样提供这些新加入的功能。

SolrJ （Solr1.4 ）依赖的Jar 包

commons-codec-1.3.jar
commons-fileupload-1.2.1.jar
commons-httpclient-3.1.jar
commons-logging-1.0.4.jar
commons-io-1.4.jar
geronimo-stax-api_1.0_spec-1.0.1.jar
solr-solrj-1.4.0.jar
wstx-asl-3.2.7.jar
stax-api-1.0.1.jar
slf4j-api-1.5.5.jar
slf4j-simple-1.5.5.jar

创建 SolrServer

SolrJ 中有2 种SolrServer 对象，CommonsHttpSolrServer 与EmbeddedSolrServer ，他们都是线程安全的并建议使用单例模式来使用他们，因为动态创建会造成连接泄露。

Create CommonsHttpSolrServer

String url = "http://localhost:8983/solr";

SolrServer server = new CommonsHttpSolrServer( url );

Create EmbeddedSolrServer

// solr.solr.home 属性也可以通过 JVM 参数设置

System.setProperty("solr.solr.home", "/home/shalinsmangar/work/oss/branch-1.3/example/solr");

CoreContainer.Initializer initializer = new CoreContainer.Initializer();

CoreContainer coreContainer = initializer.initialize();

EmbeddedSolrServer server = new EmbeddedSolrServer(coreContainer, "");

添加

public SolrServer getSolrServer(){

    // 对象实例可以重复使用

    return new CommonsHttpSolrServer();

}

SolrServer server = getSolrServer();

// 清空之前建立的索引数据

server.deleteByQuery( "*:*" );

// 创建一个文档

SolrInputDocument doc1 = new SolrInputDocument();

doc1.addField( "id", "id1", 1.0f );

doc1.addField( "name", "doc1", 1.0f );

doc1.addField( "price", 10 );

// 创建另外一个文档

SolrInputDocument doc2 = new SolrInputDocument();

doc2.addField( "id", "id2", 1.0f );

doc2.addField( "name", "doc2", 1.0f );

doc2.addField( "price", 20 );

// 创建文档集合

Collection<SolrInputDocument> docs = new ArrayList<SolrInputDocument>();

docs.add( doc1 );

docs.add( doc2 );

// 将文档添加到 Solr 中

server.add( docs );

// 提交

server.commit();

查询

// 得到一个 SolrServer 实例（通过上面介绍的方法创建）

SolrServer server = getSolrServer();

// 构造一个查询对象

SolrQuery query = new SolrQuery();

query.setQuery( "*:*" );

query.addSortField( "price", SolrQuery.ORDER.asc );

// 查询结果

SolrDocumentList docs = rsp.getResults();

solr中文分词

分词产品目前Lucene 的中文分词主要有：

paoding ：Lucene 中文分词“庖丁解牛” Paoding Analysis 。
imdict ：imdict 智能词典所采用的智能中文分词程序。
mmseg4j ：用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器。
ik ：采用了特有的“正向迭代最细粒度切分算法“，多子处理器分析模式。

分词效率

下面是各个分词产品官方提供的数据：

paoding ：在PIII 1G 内存个人机器上，1 秒可准确分词 100 万汉字。
imdict ：483.64 ( 字节/ 秒) ，259517( 汉字/ 秒) 。
mmseg4j ： complex 1200kb/s 左右, simple 1900kb/s 左右。
ik ：具有 50 万字 / 秒的高速处理能力。

自定义词库

paoding ：支持不限制个数的用户自定义词库，纯文本格式，一行一词，使用后台线程检测词库的更新，自动编译更新过的词库到二进制版本，并加载
imdict ：暂时不支持用户自定义词库。但原版 ICTCLAS 支持。支持用户自定义 stop words
mmseg4j ：自带 sogou 词库，支持名为 wordsxxx.dic ， utf8 文本格式的用户自定义词库，一行一词。不支持自动检测。 -Dmmseg.dic.path
ik ：支持 api 级的用户词库加载，和配置级的词库文件指定，无 BOM 的 UTF-8 编码， \r\n 分割。不支持自动检测。
ik 与 solr 集成

以上产品中只有 ik 提供了 Solr （ 1.3 ， 1.4 ）的分词接口程序，只需修改配置文件即可实现中文分词，配置方法如下；

使用 IKAnalyzer 的配置

<schema name="example" version="1.1">

……

<fieldType name="text" class="solr.TextField">

<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>

</fieldType>

……

</schema>

使用 IKTokenizerFactory 的配置

<fieldType name="text" class="solr.TextField" >

<analyzer type="index">

<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>

……

</analyzer>

<analyzer type="query">

<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>

……

</analyzer>

</fieldType>

Apache Solr 初级教程（介绍、安装部署、Java接口、中文分词）的更多相关文章

Apache Solr入门教程(初学者之旅)
Apache Solr入门教程(初学者之旅) 写在前面:本文涉及solr入门的各方面,建议边思考边实践,相信能帮助你对solr有个清晰全面的了解并能简单实用. 在Apache Solr初学者教程的这个 ...
Apache Hadoop集群离线安装部署(一)——Hadoop(HDFS、YARN、MR)安装
虽然我已经装了个Cloudera的CDH集群(教程详见:http://www.cnblogs.com/pojishou/p/6267616.html),但实在太吃内存了,而且给定的组件版本是不可选的, ...
Apache Hadoop集群离线安装部署(三)——Hbase安装
Apache Hadoop集群离线安装部署(一)——Hadoop(HDFS.YARN.MR)安装:http://www.cnblogs.com/pojishou/p/6366542.html Apac ...
Apache Hadoop集群离线安装部署(二)——Spark-2.1.0 on Yarn安装
Apache Hadoop集群离线安装部署(一)——Hadoop(HDFS.YARN.MR)安装:http://www.cnblogs.com/pojishou/p/6366542.html Apac ...
CentOS6.0(64位)安装Apache+PHP+Mysql教程，安装Magento（解决DOM，Mcrypt，GD问题）完整教程
CentOS6.0(64位)安装Apache+PHP+Mysql教程,安装Magento(解决DOM,Mcrypt,GD问题)完整教程 0 Posted by :小黑 On : 2012 年 9 ...
Apache solr 6.6.0安装
Apache solr 6.6.0安装最近使用了Apache solr搜索引擎框架,solr是基于lucene的一个搜索服务器,lucene也是Apache的一个开源项目:对于学习搜索引擎来说,这个 ...
11大Java开源中文分词器的使用方法和分词效果对比，当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
推荐十款java开源中文分词组件
1:Elasticsearch的开源中文分词器 IK Analysis(Star:2471) IK中文分词器在Elasticsearch上的使用.原生IK中文分词是从文件系统中读取词典,es-ik本身 ...
11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

随机推荐

jiedui
源代码:https://github.com/hanzhaoyan/jieduizuoye/tree/master 功能要求: 该程序用图形界面实现下面功能:用计算机产生一个100以内的随机数,游戏者 ...
Linux标准输入、输出和错误和文件重定向专题
当我们在shell中执行命令的时候,每个进程都和三个打开的文件相联系,并使用文件描述符来引用这些文件.由于文件描述符不容易记忆,shell同时也给出了相应的文件名. 下面就是这些文件描述符及它们通常所 ...
PHP + JS 实现大文件分割上传
服务器上传文件会有一定的限制.避免内存消耗过大影响性能,在 php.ini 配置文件中,有几个影响参数: upload_max_filesize = 2M //PHP最大能接受的文件大小 post_m ...
BOM嵌套简单写法
WITHTREE AS( SELECT a.FItemID cfitemid,b.FItemID pfitemid FROM dbo.ICBOMChild a,dbo.ICBOM b WHERE a. ...
Ubuntu 16.04 root环境变量不生效问题解决方案
在Ubuntu 16.04中配置JDK环境变量,但是在切换到root时不生效 . 在/etc/profile中添加如下: export JAVA_HOME=/opt/java/jdk1..0_151 ...
codeforces701C
They Are Everywhere CodeForces - 701C 大B,年轻的口袋妖怪训练师,找到了一个由 n 间从左向右的房间组成的大房子.你可以从街道里走入任何一间房子,也可以从任何一间 ...
python异常提示表
Python常见的异常提示及含义对照表如下: 异常名称描述 BaseException 所有异常的基类 SystemExit 解释器请求退出 KeyboardInterrupt 用户中断执行(通常是 ...
Maven环境配置及简单使用（二）
Maven环境变量配置配置Maven前先从官网下载相关版本,Maven下载地址:http://maven.apache.org/download.cgi,笔者使用最新版本apache-maven-3 ...
BZOJ3772精神污染——可持久化线段树+出栈入栈序
题目描述兵库县位于日本列岛的中央位置,北临日本海,南面濑户内海直通太平洋,中央部位是森林和山地,与拥有关西机场的大阪府比邻而居,是关西地区面积最大的县,是集经济和文化于一体的一大地区,是日本西部门户 ...
BZOJ1926[Sdoi2010]粟粟的书架——二分答案+主席树
题目描述幸福幼儿园 B29 班的粟粟是一个聪明机灵.乖巧可爱的小朋友,她的爱好是画画和读书,尤其喜欢 Thomas H. Co rmen 的文章.粟粟家中有一个 R行C 列的巨型书架,书架的每一个位 ...

Apache Solr 初级教程（介绍、安装部署、Java接口、中文分词）

http://outofmemory.cn/code-snippet/3588/Apache-Solr-chuji-course-introduction-install-bushu-Java-interface-zhongwen-fenci

Apache Solr 初级教程（介绍、安装部署、Java接口、中文分词）

Apache Solr 介绍

Solr 是什么？

Lucene 是什么？

Solr VS Lucene

安装搭建Solr

安装 Java 虚拟机

安装中间件

安装Apache Solr

下载最新的Solr

Solr 程序包 的目录结构

Solr 主目录结构

如何 设置 主目录

发布运行Solr

使用Java 接口访问Solr 服务

SolrJ （Solr1.4 ）依赖的Jar 包

创建 SolrServer

添加

查询

solr中文分词

Apache Solr 初级教程（介绍、安装部署、Java接口、中文分词）的更多相关文章

随机推荐

热门专题

Solr 程序包的目录结构

如何设置主目录