[转]Sphinx+Mysql+中文分词安装-实现中文全文搜索

From : http://blog.csdn.net/lgm252008/article/details/5373436

1、什么是Sphinx
Sphinx 是一个在GPLv2 下发布的一个全文检索引擎，商业授权（例如, 嵌入到其他程序中）
需要联系我们（Sphinxsearch.com）以获得商业授权。
一般而言，Sphinx是一个独立的搜索引擎，意图为其他应用提供高速、低空间占用、高结果
相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。
当前系统内置MySQL和PostgreSQL 数据库数据源的支持，也支持从标准输入读取特定格式
的XML数据。通过修改源代码，用户可以自行增加新的数据源（例如：其他类型的DBMS
的原生支持）。
搜索API支持PHP、Python、Perl、Rudy和Java，并且也可以用作MySQL存储引擎。搜索
API非常简单，可以在若干个小时之内移植到新的语言上。
Sphinx 是SQL Phrase Index的缩写，但不幸的和CMU的Sphinx项目重名

2、Sphinx的特性

高速的建立索引(在当代CPU上，峰值性能可达到10 MB/秒);


高性能的搜索(在2 – 4GB 的文本数据上，平均每次检索响应时间小于0.1秒);

可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可
处理100 M 文档);

提供了优秀的相关度算法，基于短语相似度和统计（BM25）的复合Ranking方法;

支持分布式搜索;

provides document exceprts generation;

可作为MySQL的存储引擎提供搜索服务;

支持布尔、短语、词语相似度等多种检索模式;

文档支持多个全文检索字段(最大不超过32个);

文档支持多个额外的属性信息(例如：分组信息，时间戳等);

停止词查询;

支持单一字节编码和UTF-8编码;

原生的MySQL支持(同时支持MyISAM 和InnoDB );

原生的PostgreSQL 支持.

一、安装所需文件mmseg-0.7.3.tar.gz 中文分词
http://www.coreseek.com/uploads/sources/mmseg-0.7.3.tar.gz

mysql-5.1.26-rc.tar.gz mysql-5.1.26源代码

sphinx-0.9.8-rc2.tar.gz sphinx-0.9.8-rc2源代码
http://www.sphinxsearch.com/downloads/sphinx-0.9.8-rc2.tar.gz

mmseg
Coreseek COS(tm) MM Segment 1.0
Copyright By Coreseek.com All Right Reserved.
Usage: mmseg <option> <file>
-u <unidict> Unigram Dictionary
-r Combine with -u, used a plain text build Unigram Dictionary, default Off
-b <Synonyms> Synonyms Dictionary
-h print this help and exit

fix-crash-in-excerpts.patch sphinx支持分词补丁
http://www.coreseek.com/uploads/sources/fix-crash-in-excerpts.patch

sphinx-0.98rc2.zhcn-support.patch sphinx支持分词补丁
http://www.coreseek.com/uploads/sources/sphinx-0.98rc2.zhcn-support.patch

二、开始安装
1.安装libmmseg

安装mmseg完成,测试一下

tar -zxvf mmseg-0.7.3.tar.gz
cd mmseg-0.7.3
./configure --prefix=/usr/local/mmseg
make
make install
cd ..

有问题可以尝试执行下面命令

echo '/usr/local/mmseg/lib' >> /etc/ld.so.conf
ldconfig -v
ln -s /usr/local/mmseg/bin/mmseg /bin/mmseg

2.重新编译mysql
在安装之前先打两个补丁,这个是支持中文必须打的补丁

tar -zxvf sphinx-0.9.8-rc2.tar.gz
cd sphinx-0.9.8
patch -p1 < ../sphinx-0.98rc2.zhcn-support.patch
patch -p1 < ../fix-crash-in-excerpts.patch

3.安装sphinx

cd /root/lemp/sphinx-0.9.8-rc2
./configure --prefix=/usr/local/sphinx --with-mysql=/opt/mysql /
--with-mysql-includes=/opt/mysql/include/mysql --with-mysql-libs=/opt/mysql/lib/mysql /
--with-mmseg-includes=/usr/local/mmseg/include --with-mmseg-libs=/usr/local/mmseg/lib --with-mmseg
make

tokenizer_zhcn.cpp:1:30: SegmenterManager.h: 没有那个文件或目录
tokenizer_zhcn.cpp:2:23: Segmenter.h: 没有那个文件或目录

make clean
./configure --prefix=/usr/local/sphinx --with-mysql=/opt/mysql /
--with-mysql-includes=/usr/local/mysql/include/mysql --with-mysql-libs=/opt/mysql/lib/mysql /
--with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib --with-mmseg
/root/sphinx/sphinx-0.9.8-rc2/src/tokenizer_zhcn.cpp:34: undefined reference to `libiconv_close'
collect2: ld returned 1 exit status

官网解决办法：
In the meantime I've change the configuration file and set
#define USE_LIBICONV 0 in line 8179.
修改configure 文件把 #define USE_LIBICONV 0 最后的数值由1改为0
重新编译。

make clean
./configure --prefix=/usr/local/sphinx --with-mysql=/opt/mysql /
--with-mysql-includes=/usr/local/mysql/include/mysql --with-mysql-libs=/usr/local/mysql/lib/mysql /
--with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib --with-mmseg

vi configure
输入/define USE_LIBICONV 找到目标行
按i键后将1改成0,按esc,输入:wq保存退出

make
make install

cd /usr/local/sphinx/etc
cp sphinx.conf.dist sphinx.conf

4.配置sphinx

修改/usr/local/sphinx/etc/sphinx.conf

type = mysql
# some straightforward parameters for SQL source types
sql_host = localhost
sql_user = root
sql_pass =
sql_db = test
sql_port = 3306 # optional, default is 3306
address = 127.0.0.1 #安全点可以只监听本机

5.索引建立

装好sphinx后在sphinx的目录中有三个目录分别为bin etc var
bin中存有sphinx用到的一些执行文件包括 indexer 索引建立 search 查询工具 searchd 查询服务器等

为了下面测试方便，我们先将sphinx.conf自带的example.sql脚本倒入的mysql中
//创建了一个test库，并建立了documents测试表和数据

/usr/local/mysql/bin/mysql -uroot -p < /usr/local/sphinx/etc/example.sql

索引的建立方法为

/usr/local/sphinx/bin/indexer --config /usr/local/sphinx/etc/sphinx.conf test1

test1为资源名称不写为默认所有都建立索引
附:
建立索引期间可能由于不同版本的数据库导致indexer找不到共享库libmysqlclient.so.16
需要把/opt/mysql/lib/mysql/libmysqlclient.so.16.0.0 这个文件复制到/usr/lib下或者作软连接即可

6.查询服务器

/usr/local/sphinx/bin/searchd --config /usr/local/sphinx/etc/sphinx.conf 为开启

/usr/local/sphinx/bin/searchd --config /usr/local/sphinx/etc/sphinx.conf --stop 为关闭

sphinx的查询可以大致分为三种

1 数据库引擎中的查询

2 通过search工具查询
/usr/local/sphinx/bin/search --config /usr/local/sphinx/etc/sphinx.conf test

3 通过php的接口查询详见sphinxapi.php

三、在mysql中的使用SphinxSE方式调用Sphinx

1.在mysql中的使用SphinxSE方式调用Sphinx
首先建立一张索引专用表：

CREATE TABLE `sphinx` (
`id` int(11) NOT NULL,
`weight` int(11) NOT NULL,
`query` varchar(255) NOT NULL,
`CATALOGID` INT NOT NULL,
`EDITUSERID` INT NOT NULL,
`HITS` INT NULL,
`ADDTIME` INT NOT NULL, KEY
`Query` (`Query`)
) ENGINE=SPHINX DEFAULT CHARSET=utf8 CONNECTION='sphinx://localhost:3312/test1'

test1：索引的名称，可以在sphinx.conf中查找到
建立完索引专用表后，我们就可以在mysql中使用它了，例如，在mysql中输入

SELECT doc. * FROM documents doc JOIN sphinx ON ( doc.id = sphinx.id ) WHERE query = 'doc;mode= any'

运行后，结果记录中将会显示包含doc字符串的所用记录行

关于query的语法，还有sphinx的配置等信息你可以请参考：
http://www.sphinxsearch.com/doc.html

2.中文分词应用
生成词典
进入到mmseg的源代码目录后

cd data
mmseg -u unigram.txt

在data下边会产生一个文件unigram.txt.uni
这个就是生成的字典然后把字典改名为uni.lib放在可以读取的目录中即可

cp unigram.txt.uni /usr/local/sphinx/uni.lib

修改 sphinx.conf(/usr/local/sphinx/etc/sphinx.conf)配置文件
在索引中加入

charset_type = zh_cn.utf-8
charset_dictpath = /usr/local/sphinx/

INSERT INTO `test`.`documents` (
`id` ,
`group_id` ,
`group_id2` ,
`date_added` ,
`title` ,
`content`
)
VALUES (
NULL , '3', '9', NOW( ) , 'sphinx中文搜索', 'Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL也设计了一个存储引擎插件。 '
);

(如果searchd已经再运行，先kill 它再运行)
注意：在添加完数据后，需要重新加载索引，这样新的数据才能被缓存进去
重建索引,成功后，开启索引监听

/usr/local/sphinx/bin/indexer --config /usr/local/sphinx/etc/sphinx.conf --all
/usr/local/sphinx/bin/searchd --config /usr/local/sphinx/etc/sphinx.conf

在ide硬盘上建索引的速度

indexing index 'test1'...
collected 423228 docs, 637.2 MB
sorted 125.5 Mhits, 100.0% done
total 423228 docs, 637201412 bytes
total 753.401 sec, 845766.13 bytes/sec, 561.76 docs/sec

这样，就可以在phpmyadmin中进行测试了。

SELECT doc. * FROM documents doc JOIN sphinx ON ( doc.id = sphinx.id )
WHERE query = '设计;mode= any '

好像没出来。。。。

修改 sphinx.conf
去掉下面的注释

sql_query_pre = SET NAMES utf8

再重启searchd就可以搜出结果了

使用service 控制sphinx

先增加一sphinx用户并属于website组(事先已存在),并修改sphinx目录的属主

useradd -d /usr/local/sphinx -g website -s /sbin/nologin sphinx
chown -R sphinx:website /usr/local/sphinx

创建/etc/init.d/sphinx脚本

#!/bin/sh
# sphinx: Startup script for Sphinx search
#
# chkconfig: 345 86 14
# description: This is a daemon for high performance full text /
# search of MySQL and PostgreSQL databases. /
# See http://www.sphinxsearch.com/ for more info.
#
# processname: searchd
# pidfile: $sphinxlocation/var/log/searchd.pid
# Source function library.
. /etc/rc.d/init.d/functions
processname=searchd
servicename=sphinx
username=sphinx
sphinxlocation=/usr/local/sphinx
pidfile=$sphinxlocation/var/log/searchd.pid
searchd=$sphinxlocation/bin/searchd
RETVAL=0
PATH=$PATH:$sphinxlocation/bin
start() {
echo -n $"Starting Sphinx daemon: "
daemon --user=$username --check $servicename $processname
RETVAL=$?
echo
[ $RETVAL -eq 0 ] && touch /var/lock/subsys/$servicename
}
stop() {
echo -n $"Stopping Sphinx daemon: "
$searchd --stop
#killproc -p $pidfile $servicename -TERM
RETVAL=$?
echo
if [ $RETVAL -eq 0 ]; then
rm -f /var/lock/subsys/$servicename
rm -f $pidfile
fi
}
# See how we were called.
case "$1" in
start)
start
;;
stop)
stop
;;
status)
status $processname
RETVAL=$?
;;
restart)
stop
sleep 3
start
;;
condrestart)
if [ -f /var/lock/subsys/$servicename ]; then
stop
sleep 3
start
fi
;;
*)
echo $"Usage: $0 {start|stop|status|restart|condrestart}"
;;
esac
exit $RETVAL

修改权限并加入到service,机器启动时自动启动

chmod 755 /etc/init.d/sphinx
chkconfig --add sphinx
chkconfig --level 345 sphinx on
chkconfig --list|grep sphinx #检查下
service sphinx start #运行
service sphinx stop #停止,官方的脚本在我的as4上有点问题，所以粗鲁的改了下
service sphinx restart #重启
service sphinx status #查看是否运行
#检查下已用sphinx用户运行
ps aux |grep searchd
sphinx 24612 0.0 0.3 11376 6256 pts/1 S 14:07 0:00 searchd

[转]Sphinx+Mysql+中文分词安装-实现中文全文搜索的更多相关文章

如何在MySQL中获得更好的全文搜索结果
如何在MySQL中获得更好的全文搜索结果很多互联网应用程序都提供了全文搜索功能,用户可以使用一个词或者词语片断作为查询项目来定位匹配的记录.在后台,这些程序使用在一个SELECT 查询中的LIKE语 ...
Sphinx中文分词安装配置及API调用
这几天项目中需要重新做一个关于商品的全文搜索功能,于是想到了用Sphinx,因为需要中文分词,所以选择了Sphinx for chinese,当然你也可以选择coreseek,建议这两个中选择一个,暂 ...
(转)Sphinx中文分词安装配置及API调用
这几天项目中需要重新做一个关于商品的全文搜索功能,于是想到了用Sphinx,因为需要中文分词,所以选择了Sphinx for chinese,当然你也可以选择coreseek,建议这两个中选择一个,暂 ...
Solr4.0+IKAnalyzer中文分词安装(转)
有近2年没接触Solr跟Lucene了,这2年自己跟solr/lucene都发生了很多变化.不过有种疏途同归的感觉,那就是都向分布式/云和监控靠了.2年前接触了solrcloud,那时大概玩了一周.那 ...
Solr4.0+IKAnalyzer中文分词安装
1.依赖: JDK1.6,Tomcat 5.5,Solr 4.0.0,IKAnalyzer 2012FF Tomcat虽然不是必须,但觉得上生产环境的话,还是得用Tomcat,便于统一管理和监控. T ...
scws中文分词安装和使用
一.下载源码 wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 tar xvjf scws-1.2.3.tar.bz2 二.执行配置 ...
ElasticSearch使用IK中文分词---安装步骤记录
提示1:必须保证之前的ES中不存在index, 否则ES集群无法启动, 会提示red! 提示2:下载的IK如果太新,会报错 TokenStream被重载Caused by: java.lang.Ver ...
Python_ jiba、snownlp中文分词、pypinyin中文转拼音
import jieba #导入jieba模块 x = '分词的准确度直接影响了后续文本处理和挖掘算法的最终效果.' jieba.cut(x) #使用默认词库进行分词 print(list(jieba ...
关于yaha中文分词（将中文分词后，结合TfidfVectorizer变成向量）
https://github.com/jannson/yaha # -*- coding: utf-8 -*- """ Created on Wed Aug 10 08: ...

随机推荐

C++Primer，C++标准IO库阅读心得
IO 标准库类型和头文件 iostream istream 从流中读取 ostream 写到流中去 iostream 对流进行读写:从 istream 和 ostream 派生而来fstream if ...
centos 6.x x86 源码安装git-2.3.0
(1) 添加rpmforge源 wget http://pkgs.repoforge.org/rpmforge-release/rpmforge-release-0.5.3-1.el6.rf.i686 ...
MySQL的lock tables和unlock tables的用法（转载）
早就听说lock tables和unlock tables这两个命令,从字面也大体知道,前者的作用是锁定表,后者的作用是解除锁定.但是具体如何用,怎么用,不太清楚.今天详细研究了下,总算搞明白了2者的 ...
[转]KMP算法
KMP算法应该是每一本<数据结构>书都会讲的,算是知名度最高的算法之一了,但很可惜,我大二那年压根就没看懂过~~~ 之后也在很多地方也都经常看到讲解KMP算法的文章,看久了好像也知道是怎么 ...
[转]01分数规划算法 ACM 二分 Dinkelbach 最优比率生成树最优比率环
01分数规划前置技能二分思想最短路算法一些数学脑细胞? 问题模型1 基本01分数规划问题给定nn个二元组(valuei,costi)(valuei,costi),valueivaluei是选择此 ...
odoo视图继承
odoo视图继承简介继承在odoo里可以通过继承的方式来改写已经存在的view 对比view的定义视图定义中写法多了inherit_id inherit_id指向要改写的view <fiel ...
[HDU4348]To the moon(主席树+标记永久化)
学可持久化treap的时候才发现自己竟然没写过需要标记下传的主席树,然而现在发现大部分操作都可以标记永久化,下传会增大占用空间. 这题一种写法是和普通的线段树一样标记下传,注意所有修改操作(包括put ...
nginx优化(转)
Puppet利用Nginx多端口实现负载均衡对 Nginx SSL 的性能进行调整一.nginx 配置文件中基本设置: 1. worker_processes 8; 2. worker_cpu ...
WCID Devices -- Windows Compatible ID Devices
WCID Devices What is WCID? A WCID device, where WCID stands for "Windows Compatible ID", i ...
【Go入门教程2】基本构成元素：标识符（identifier）、关键字（keyword 25个）、字面量（literal）、分隔符（delimiter）、和操作符（operator）
基本构成要素 Go 的语言符号又称词法元素,共包括 5 类内容——标识符(identifier).关键字(keyword).字面量(literal).分隔符(delimiter) 和操作符(op ...

[转]Sphinx+Mysql+中文分词安装-实现中文全文搜索

[转]Sphinx+Mysql+中文分词安装-实现中文全文搜索的更多相关文章

随机推荐

热门专题