【Neo4j】踩坑大会-Neo4J用中文索引
正在用的Neo4j是当前最新版:3.1.0,各种踩坑。说一下如何在Neo4j 3.1.0中使用中文索引。选用了IKAnalyzer做分词器。
1. 首先参考文章:
https://segmentfault.com/a/1190000005665612
里面大致讲了用IKAnalyzer做索引的方式。但并不清晰,实际上,这篇文章的背景是用嵌入式Neo4j,即Neo4j一定要嵌入在你的Java应用中(https://neo4j.com/docs/java-reference/current/#tutorials-java-embedded),切记。否则无法使用自定义的Analyzer。其次,文中的方法现在用起来已经有问题了,因为Neo4j 3.1.0用了lucene5.5,故官方的IKAnalyzer已经不适用了。
2. 修正
转用 IKAnalyzer2012FF_u1.jar,在Google可以下载到(https://code.google.com/archive/p/ik-analyzer/downloads)。这个版本的IKAnalyzer是有小伙伴修复了IKAnalyzer不适配lucene3.5以上而修改的一个版本。但是用了这个包仍有问题,报错提示:
Caused by: java.lang.AbstractMethodError: org.apache.lucene.analysis.Analyzer.createComponents(Ljava/lang/String;)Lorg/apache/lucene/analysis/Analyzer$TokenStreamComponents;
即IKAnalyzer的Analyzer类和当前版本的lucene仍有不适配的地方。
解决方案:再增加两个类
-
package com.uc.wa.function;
-
-
import org.apache.lucene.analysis.Analyzer;
-
import org.apache.lucene.analysis.Tokenizer;
-
-
public class IKAnalyzer5x extends Analyzer{
-
-
private boolean useSmart;
-
-
public boolean useSmart() {
-
return useSmart;
-
}
-
-
public void setUseSmart(boolean useSmart) {
-
this.useSmart = useSmart;
-
}
-
-
public IKAnalyzer5x(){
-
this(false);
-
}
-
-
public IKAnalyzer5x(boolean useSmart){
-
super();
-
this.useSmart = useSmart;
-
}
-
-
-
/**
-
protected TokenStreamComponents createComponents(String fieldName, final Reader in) {
-
Tokenizer _IKTokenizer = new IKTokenizer(in , this.useSmart());
-
return new TokenStreamComponents(_IKTokenizer);
-
}
-
**/
-
-
-
/**
-
* 重写最新版本的createComponents
-
* 重载Analyzer接口,构造分词组件
-
*/
-
@Override
-
protected TokenStreamComponents createComponents(String fieldName) {
-
Tokenizer _IKTokenizer = new IKTokenizer5x(this.useSmart());
-
return new TokenStreamComponents(_IKTokenizer);
-
}
-
}
-
package com.uc.wa.function;
-
-
import java.io.IOException;
-
-
import org.apache.lucene.analysis.Tokenizer;
-
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
-
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
-
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
-
import org.wltea.analyzer.core.IKSegmenter;
-
import org.wltea.analyzer.core.Lexeme;
-
-
public class IKTokenizer5x extends Tokenizer{
-
-
//IK�ִ���ʵ��
-
private IKSegmenter _IKImplement;
-
-
//��Ԫ�ı�����
-
private final CharTermAttribute termAtt;
-
//��Ԫλ������
-
private final OffsetAttribute offsetAtt;
-
//��Ԫ�������ԣ������Է���ο�org.wltea.analyzer.core.Lexeme�еķ��ೣ����
-
private final TypeAttribute typeAtt;
-
//��¼���һ����Ԫ�Ľ���λ��
-
private int endPosition;
-
-
-
/**
-
public IKTokenizer(Reader in , boolean useSmart){
-
super(in);
-
offsetAtt = addAttribute(OffsetAttribute.class);
-
termAtt = addAttribute(CharTermAttribute.class);
-
typeAtt = addAttribute(TypeAttribute.class);
-
_IKImplement = new IKSegmenter(input , useSmart);
-
}**/
-
-
/**
-
* Lucene 5.x Tokenizer��������캯��
-
* ʵ�����µ�Tokenizer�ӿ�
-
* @param useSmart
-
*/
-
public IKTokenizer5x(boolean useSmart){
-
super();
-
offsetAtt = addAttribute(OffsetAttribute.class);
-
termAtt = addAttribute(CharTermAttribute.class);
-
typeAtt = addAttribute(TypeAttribute.class);
-
_IKImplement = new IKSegmenter(input , useSmart);
-
}
-
-
/* (non-Javadoc)
-
* @see org.apache.lucene.analysis.TokenStream#incrementToken()
-
*/
-
@Override
-
public boolean incrementToken() throws IOException {
-
//������еĴ�Ԫ����
-
clearAttributes();
-
Lexeme nextLexeme = _IKImplement.next();
-
if(nextLexeme != null){
-
//��Lexemeת��Attributes
-
//���ô�Ԫ�ı�
-
termAtt.append(nextLexeme.getLexemeText());
-
//���ô�Ԫ����
-
termAtt.setLength(nextLexeme.getLength());
-
//���ô�Ԫλ��
-
offsetAtt.setOffset(nextLexeme.getBeginPosition(), nextLexeme.getEndPosition());
-
//��¼�ִʵ����λ��
-
endPosition = nextLexeme.getEndPosition();
-
//��¼��Ԫ����
-
typeAtt.setType(nextLexeme.getLexemeTypeString());
-
//����true��֪�����¸���Ԫ
-
return true;
-
}
-
//����false��֪��Ԫ������
-
return false;
-
}
-
-
/*
-
* (non-Javadoc)
-
* @see org.apache.lucene.analysis.Tokenizer#reset(java.io.Reader)
-
*/
-
@Override
-
public void reset() throws IOException {
-
super.reset();
-
_IKImplement.reset(input);
-
}
-
-
@Override
-
public final void end() {
-
// set final offset
-
int finalOffset = correctOffset(this.endPosition);
-
offsetAtt.setOffset(finalOffset, finalOffset);
-
}
-
}
解决 IKAnalyzer2012FF_u1.jar和lucene5不适配的问题。使用时用IKAnalyzer5x替换IKAnalyzer即可。
3. 最后
Neo4j中文索引建立和搜索示例:
-
/**
-
* 为单个结点创建索引
-
*
-
* @param propKeys
-
*/
-
public static void createFullTextIndex(long id, List<String> propKeys) {
-
log.info("method[createFullTextIndex] begin.propKeys<"+propKeys+">");
-
Index<Node> entityIndex = null;
-
-
try (Transaction tx = Neo4j.graphDb.beginTx()) {
-
entityIndex = Neo4j.graphDb.index().forNodes("NodeFullTextIndex",
-
MapUtil.stringMap(IndexManager.PROVIDER, "lucene", "analyzer", IKAnalyzer5x.class.getName()));
-
-
Node node = Neo4j.graphDb.getNodeById(id);
-
log.info("method[createFullTextIndex] get node id<"+node.getId()+"> name<"
-
+node.getProperty("knowledge_name")+">");
-
/**获取node详细信息*/
-
Set<Map.Entry<String, Object>> properties = node.getProperties(propKeys.toArray(new String[0]))
-
.entrySet();
-
for (Map.Entry<String, Object> property : properties) {
-
log.info("method[createFullTextIndex] index prop<"+property.getKey()+":"+property.getValue()+">");
-
entityIndex.add(node, property.getKey(), property.getValue());
-
}
-
tx.success();
-
}
-
}
-
/**
-
* 使用索引查询
-
*
-
* @param query
-
* @return
-
* @throws IOException
-
*/
-
public static List<Map<String, Object>> selectByFullTextIndex(String[] fields, String query) throws IOException {
-
List<Map<String, Object>> ret = Lists.newArrayList();
-
try (Transaction tx = Neo4j.graphDb.beginTx()) {
-
IndexManager index = Neo4j.graphDb.index();
-
/**查询*/
-
Index<Node> addressNodeFullTextIndex = index.forNodes("NodeFullTextIndex",
-
MapUtil.stringMap(IndexManager.PROVIDER, "lucene", "analyzer", IKAnalyzer5x.class.getName()));
-
Query q = IKQueryParser.parseMultiField(fields, query);
-
-
IndexHits<Node> foundNodes = addressNodeFullTextIndex.query(q);
-
-
for(Node n : foundNodes){
-
Map<String, Object> m = n.getAllProperties();
-
if(!Float.isNaN(foundNodes.currentScore())){
-
m.put("score", foundNodes.currentScore());
-
}
-
log.info("method[selectByIndex] score<"+foundNodes.currentScore()+">");
-
ret.add(m);
-
}
-
tx.success();
-
} catch (IOException e) {
-
log.error("method[selectByIndex] fields<"+Joiner.on(",").join(fields)+"> query<"+query+">", e);
-
throw e;
-
}
-
return ret;
-
}
注意到,在这里我用了IKQueryParser,即根据我们的查询词和要查询的字段,自动构造Query。这里是绕过了一个坑:用lucene查询语句直接查的话,是有问题的。比如:“address:南昌市” 查询语句,会搜到所有带市字的地址,这是非常不合理的。改用IKQueryParser即修正这个问题。IKQueryParser是IKAnalyzer自带的一个工具,但在 IKAnalyzer2012FF_u1.jar却被删减掉了。因此我这里重新引入了原版IKAnalyzer的jar包,项目最终是两个jar包共存的。
到这里坑就踩得差不多了。
原文地址:https://blog.csdn.net/hereiskxm/article/details/54345261 </div>
【Neo4j】踩坑大会-Neo4J用中文索引的更多相关文章
- PLSQL Developer 中文乱码踩坑记
环境 操作系统版本: Windows 7 PL/SQL 版本: 12.0.1.1814 原因 由于 Oracle 服务器端和客户端字符集编码不一致引起的. 注意点 写在最前面,减少踩坑!!! 网上教程 ...
- Neo4j之坑
10个月前,我开始用neo4j做cmdb. 初体验下去neo4j很美好. 但是一年中发现一些问题, 仅仅是个人的体验.经供参考 查询语言 如果接触过Neo4j,都会为Cypher的简单和易用感觉到惊叹 ...
- 你真的了解字典(Dictionary)吗? C# Memory Cache 踩坑记录 .net 泛型 结构化CSS设计思维 WinForm POST上传与后台接收 高效实用的.NET开源项目 .net 笔试面试总结(3) .net 笔试面试总结(2) 依赖注入 C# RSA 加密 C#与Java AES 加密解密
你真的了解字典(Dictionary)吗? 从一道亲身经历的面试题说起 半年前,我参加我现在所在公司的面试,面试官给了一道题,说有一个Y形的链表,知道起始节点,找出交叉节点.为了便于描述,我把上面 ...
- AI相关 TensorFlow -卷积神经网络 踩坑日记之一
上次写完粗浅的BP算法 介绍 本来应该继续把 卷积神经网络算法写一下的 但是最近一直在踩 TensorFlow的坑.所以就先跳过算法介绍直接来应用场景,原谅我吧. TensorFlow 介绍 TF是g ...
- 人工智能(AI)库TensorFlow 踩坑日记之一
上次写完粗浅的BP算法 介绍 本来应该继续把 卷积神经网络算法写一下的 但是最近一直在踩 TensorFlow的坑.所以就先跳过算法介绍直接来应用场景,原谅我吧. TensorFlow 介绍 TF是g ...
- 微信小程序踩坑集合
1:官方工具:https://mp.weixin.qq.com/debug/w ... tml?t=1476434678461 2:简易教程:https://mp.weixin.qq.com/debu ...
- C# -- HttpWebRequest 和 HttpWebResponse 的使用 C#编写扫雷游戏 使用IIS调试ASP.NET网站程序 WCF入门教程 ASP.Net Core开发(踩坑)指南 ASP.Net Core Razor+AdminLTE 小试牛刀 webservice创建、部署和调用 .net接收post请求并把数据转为字典格式
C# -- HttpWebRequest 和 HttpWebResponse 的使用 C# -- HttpWebRequest 和 HttpWebResponse 的使用 结合使用HttpWebReq ...
- Nebula Exchange 工具 Hive 数据导入的踩坑之旅
摘要:本文由社区用户 xrfinbj 贡献,主要介绍 Exchange 工具从 Hive 数仓导入数据到 Nebula Graph 的流程及相关的注意事项. 1 背景 公司内部有使用图数据库的场景,内 ...
- Spark踩坑记——数据库(Hbase+Mysql)
[TOC] 前言 在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值.最近一个实时消费者处理任务,在使用spark streami ...
随机推荐
- RQNOJ PID4 数列
题目描述 给定一个正整数k(3≤k≤15),把所有k的方幂及所有有限个互不相等的k的方幂之和构成一个递增的序列,例如,当k=3时,这个序列是: 1,3,4,9,10,12,13,… (该序列实际上就是 ...
- Java集成开发环境IDEA
一,安装 1,从http://www.jetbrains.com/idea/download/下载最新的community(free)版本. 2,解压文件 3,进入解压目录下的bin目录 4,执行id ...
- 关于kettle
1.点spoon.bat无报错也不运行 可以运行一下spoonDebug.bat 查看一下spoondebug.txt日志 我遇到这个问题时 是给他分配的内存太多了 我的电脑只有2g 给果他给分了20 ...
- 用python+tushare获取股票前复权后复权行情数据
接口名称 :pro_bar 接口说明 :复权行情通过通用行情接口实现,利用Tushare Pro提供的复权因子进行计算,目前暂时只在SDK中提供支持,http方式无法调取. Python SDK版本要 ...
- 2019-9-18-WPF-客户端开发需要知道的触摸失效问题
title author date CreateTime categories WPF 客户端开发需要知道的触摸失效问题 lindexi 2019-09-18 15:30:38 +0800 2019- ...
- 生成对抗网络(GAN)的18个绝妙应用
https://juejin.im/post/5d3fb44e6fb9a06b2e3ccd4e 生成对抗网络(GAN)是生成模型的一种神经网络架构. 生成模型指在现存样本的基础上,使用模型来生成新案例 ...
- codeforces 24d Broken robot 期望+高斯消元
题目传送门 题意:在n*m的网格上,有一个机器人从(x,y)出发,每次等概率的向右.向左.向下走一步或者留在原地,在最左边时不能向右走,最右边时不能像左走.问走到最后一行的期望. 思路:显然倒着算期望 ...
- [转载]python异常如何全面捕获
写在前面:最近写python程序,进场遇到异常的问题,因此需要捕获异常.查阅了下资料,整理如下: 常见的异常处理的方法: 假设有下面的一段程序: try: 语句1 语句2 . ...
- final、finally和finalized的区别?
(1)final:被final修饰的类,不被能继承:被final修饰的方法,不能被重写:被fianl修饰的量,为常量,只能被赋值一次: (2)finally:异常处理,和try.catch结合使用,可 ...
- java idea 创建第一个java 程序
我们在 src 目录下边创建一个 package. 然后在package下创建我们的程序 helloworld.java 代码: package com.api.com; public class ...