SCWS中文分词,功能函数实例应用】的更多相关文章

结合前文的demo演示,现写一个实用的功能函数,使用方法:header('Content-Type:text/html;charset=UTF-8');$text        = '我是一个中国人,我会C++语言,我也有很多T恤衣服,我想知道奥迪A6与第八代索纳塔哪个油耗低,谢谢花好月圆二手奥拓芽菜好吃悦翔V3怎么样卧槽日系车Q5';$so          = scws_new();$getFCstr = scwsFenCi($so,$text,$xattr='');echo $getFCs…
SCWS 中文分词v1.2.3 开源免费的中文分词系统,PHP分词的上乘之选! 首页 下载 演示 文档 关于 服务&支持 API/HTTP 论坛 捐赠 源码@github 文档目录 SCWS-.x.x 安装说明 Libscws C-API 文档 SCWS-.x.x 命令行说明 SCWS 之 PHP 扩展文档 php_scws.dll/Win32 安装说明 PSCWS23 文档 PSCWS4 文档 词典词性标注详解 SCWS- 安装说明 以 Linux(FreeBSD) 操作系统为例 . 取得 s…
SCWS中文分词词典条目多达26万条之巨,在整理的时候已经把很多明显不对的标注或词条清理了 ---- 附北大词性标注版本 ----Ag 形语素 形容词性语素.形容词代码为a,语素代码g前面置以A. a 形容词 取英语形容词adjective的第1个字母. ad 副形词 直接作状语的形容词.形容词代码a和副词代码d并在一起. an 名形词 具有名词功能的形容词.形容词代码a和名词代码n并在一起. b 区别词 取汉字“别”的声母. c 连词 取英语连词conjunction的第1个字母. Dg 副语…
SCWS官方网站:http://www.xunsearch.com/scws/ 1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库.    目前支持 PHP-5.2.x 和 PHP-5.3.x 系列,下载地址分别为:    php-5.2.x(44KB/VC6/ZTS): http://www.xunsearch.com/scws/down/php-5.2.x/php_scws.dll    php-5.3.x(44KB/VC6/ZTS): http://w…
前言 前一段时间,公司网站做站内搜索,只简单针对输入的文字进行搜索,作全匹配检索,搜索出来的内容很少.如何达到模糊搜索,匹配到更多的内容成了需要解决的问题.于是,今天想到可以做分词检索,如何对输入的一段文字进行分词就是关键,本着不做轮子的想法网上找找,还真有一些分词方案scws中文分词. 正文 1.引入PSCWS4文件包和XDB词典文件(utf-8),放进Vendor文件夹: 2.通过PSCWS4工具类进行分词操作: //搜索页面 public function searched($keywor…
上文已经讲了关于SCSW中文分词的安装配置,本节进入demo演示: <?php header('Content-Type:text/html;charset=UTF-8'); echo '<pre>'; ////////////////////////////////////////////////////////////////////////////// echo $text="我是一个中国人,我会C++语言,我也有很多T恤衣服,我想知道奥迪A6与第八代索纳塔哪个油耗低,谢…
SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统).1.下载scws官方提供的类(这里使用的是pscws第四版的)http://www.xunsearch.com/scws/down/pscws4-20081221.tar.bz2下载XDB 词典文件 (这里使用的是utf8简体中文词典包)http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz22.解压scws类Ps…
因最近写的一段代码,需要用到中文分词,在网上找了一下,发现了scws这个不错的插件,故根据文档安装使用,下面记录下安装的全过程 系统:centos 安装scws wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 tar xvjf scws-1.2.3.tar.bz2 cd scws-1.2.3 ./configure --prefix=/usr/local/scws make make install 下载词典 cd /usr/…
SCWS是个不错的中文分词解决方案,词库也是hightman个人制作,总不免有些不尽如人意的地方.有些词语可能不会及时被收入词库中. 幸好SCWS提供了词库XDB导出导入词库的工具(phptool_for_scws_xdb.zip),下载后解压至任意文件夹,我解压至“E:/www/tools/scws_xdb/”目录下.在命令行下进入PHP的安装目录,我的目录是”E:/xampp/php“. 步骤1:执行命令行,将词库先导出来,生成一个文本文件(dict.txt): 命令格式为:php dump…
对于分词系统的实现来说,主要应集中在两方面的考虑上:一是对语料库的组织,二是分词策略的制订. 1.   Tire树 Tire树,即字典树,是通过字串的公共前缀来对字串进行统计.排序及存储的一种树形结构.其具有如下三个性质: 1)      根节点不包含字符(或汉字),除根节点以外的每个节点只能包含一个字符(汉字) 2)      从根节点到任一节点的路径上的所有节点中的字符(汉字)按顺序排列的字符串(词组)就是该节点所对应的字符串(词组) 3)      每个节点的所有直接子节点包含的字符(汉字…