一、团队课程设计博客链接

https://www.cnblogs.com/Rasang/p/12169899.html

二、个人负责模块或任务说明

2.1Elasticsearch简介

Elasticsearch是使用Java编写的一种开源搜索引擎,它在内部使用Luence做索引与搜索,通过对Lucene的封装,提供了一套简单一致的RESTful API。Elasticsearch也是一种分布式的搜索引擎架构,可以很简单地扩展到上百个服务节点,并支持PB级别的数据查询,使系统具备高可用和高并发性。

2.2个人任务说明

任务:利用Elasticsearch进行检索,需实现的功能如下:

  • 导入数据建立索引库(包括使用ik分词器进行中文分词)
  • 保存历史搜索(用于搜索自动补全)
  • 搜索自动补全(使用completion suggester实现,补全的建议优先从历史搜索中获取,建议数量不足时再从索引的标题(title)段中获取)
  • 全文检索(搜索时需先用ik分词器进行分词,之后再根据分词后得到的词条进行检索,检索的结果需进行分页返回)

三、自己的代码提交记录截图

github项目地址:https://github.com/xingkyh/searchEngine













四、自己负责模块或任务详细说明

Elasticsearch模块:

  • EsClient类:用于链接elasticsearch
  • EsCreatIndex类:用于创建索引、向索引中插入数据
  • EsSearch类:用于执行全文检索请求并返回检索结果
  • EsSuggest类:用于获取搜索建议以便于搜索时进行自动补全

(以下讲解我只会贴出部分代码,完整代码请到本人的github上查看)

4.1EsClient类

4.1.1属性

  • indexName:索引名称
  • typeName:索引下的字段名称(elasticsearch6.0及以上每个index仅允许存在一个type)
  • suggestName:用于保存历史搜索的库的名称
  • jestClient与transportClient:API连接elasticsearch之后用于操作的对象

4.1.2jest API连接elasticsearch

4.1.3transport API连接elasticsearch

4.2EsCreatIndex类

4.2.1索引的创建与mapping的写入





mapping关键属性:

  • type:字段的类型,在本次课设中字符串为text(旧版本为string),日期为data,设置为completion则代表此字段将用于搜索时自动补全(但也会导致此字段无法进行检索,若想此字段仍可用于检索,请在此字段中添加一个附加字段并将附加字段属性设置为completion,原字段属性设置为text,获取自动补全建议时使用附加字段)
  • analyzer:生成倒排索引时使用的分词方式,一般使用ik_max_word(最细拆分)
  • search_analyzer:搜索时,对搜索请求使用的分词器,一般使用ik_smart(最粗拆分)

对于elasticsearch来说maping就相当与mysql的表结构,elasticsearch内部是使用json文档来存储数据的,导入数据时elasticsearch会根据mapping来生成json文档来保存数据(若无mapping或mapping中无对应字段则elasticsearch会判断导入的数据类型并自动生成mapping),建立索引库和搜索时使用的分词方式也是在mapping进行设置的,可以说索引的建立的关键就在于mapping的设计与写入。

(在学elasticsearch时,最让我头疼最久的就是这个mapping)

4.2.2插入数据

单独插入



批量插入

4.2.3删除索引

4.3EsSearch类

4.3.1全文检索

不带日期限制的检索





带日期限制的检索

4.3.2保存历史搜索



由于历史搜索中可能存在相同的搜索,若不经处理就直接保存可能会导致自动补全时出现重复的建议,所以在此处插入数据的时候需要手动指定id,由于elasticsearch内部是使用唯一id来标识文档的,当插入的文档的id已经存在时,文档就不会插入,而是会更新原id标识的文档,因此我在此处使用了MD5来加密字符串生成一个唯一的32位id,当数据相同时生成的id也会相同,这样就不会有数据重复的问题了。(不过MD5加密字符串仍有概率会生成一样的32位散列,但这个概率极小,基本可以忽略不记)

4.4EsSuggest类

4.4.1返回搜索建议



搜索建议优先从历史搜索中获取,当建议不足10条时会从索引的标题(title)字段中获取其余的建议,以下代码是将获取建议的请求提交到elasticsearch的具体操作



ps:这一部分我是使用teansport API来写的,其它部分则是jest API

五、课程设计感想

从刚开始接触elasticsearch到完成这一部分代码断断续续差不多花了我一个月左右的时间(其实大部分时间都用来处理其它事情,比如复习准备考试之类的,真正用来打代码的时间并不多),最开始的时候,我从网上搜索java操作elasticsearch时,我便了解到了存在多种java操作elasticsearch的API,每种API的具体使用方式都有一定的区别,于是,经过一番对比之后我决定使用jest API来编写代码,但刚开始编写我便遇上了让我最为头疼的一块--mapping,为了能设计好mapping我在网上参考了很多资料,但大部分资料讲的都是直接使用Restful来直接操作的,其设计的mapping并不能直接用于jest操作使用,经过了一番努力,在我大致理解mapping中各个字段的意义之后,我终于设计好了mapping,但也因此又遇到了一个问题--mapping无法写入,为此我又到处去查找资料,最终在查看了请求的错误信息后我发现了是elasticsearch新版本新增的一个字段所导致的问题,由于我不知如何设置这个字段,所以只好将elasticsearch的版本由7.4.2更换为6.8.5才解决了这个问题,之后代码一直顺利写到了全文检索,但当我开始写自动补全时,又出现了一个问题,不知是我使用的jest的版本问题还是什么,其缺少了一个类,导致了我无法使用jest来编写自动补全这一部分的代码,所以我迫不得已只好使用teansport API来编写这一部分代码,但又由于我一开始设计mapping时没有考虑到这一部分功能,所以只好回去重写mapping,但重写之后我发现用于获取搜索建议的字段无法进行检索,为此我又去查找资料,最终在我了解到了附加字段使用方式之后,我将用于获取建议的字段由原字段改为原字段的附加字段并保持原字段不变来解决这个问题,至此这一模块的代码才终于全部完成了。

java课程设计之--Elasticsearch篇的更多相关文章

  1. Java课程设计之——爬虫篇

    主要使用的技术 Httplcient Jsoup 多线程 dao模式 网络爬虫简介 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取 ...

  2. Java课程设计(2019版)

    参考资料 Java课程设计参考资料(2018-12-26更新) Java课程设计常见问题(程序部署.数据库.JSP) 项目开发参考-阿里巴巴Java开发手册(正式版) 更多参考资料请查看QQ群文件中的 ...

  3. Java课程设计-算术运算测试(D级) 齐鲁工业大学 计科20-1 王瀚垠 202003010033

    Java课程设计-算术运算测试(D级) 齐鲁工业大学 计科20-1 王瀚垠 202003010033 目录 1.项目简介 2.项目采用技术 3.功能需求分析 4.项目亮点 5.项目功能架构图和UML类 ...

  4. java(课程设计之记事本界面部分代码公布)

    代码:涉及记事本的一些界面......!! /* *java课程设计之记事本(coder @Gxjun) * 编写一个记事本程序 * 要求: * 用图形用户界面实现. * 能实现编辑.保存.另存为.查 ...

  5. java课程设计(计算器)

    JAVA课程 设 计 报 告 1206401-18   瞿杰 一.设计时间 2013年6月 24日-----6月28日 二.设计地点 湖南城市学院实验楼计算机506机房 三.设计目的 1.巩固学习VB ...

  6. Java课程设计——博客作业教学数据分析系统(201521123084 林正晟)

    #课程设计--博客作业教学数据分析系统(201521123084 林正晟) 1.团队课程设计博客链接 博客作业教学数据分析系统 2.个人负责模块或任务说明 学生登陆界面的前端实现和与数据库的连接 学生 ...

  7. Java课程设计——博客作业教学数据分析系统(201521123082 黄华林)

    Java课程设计--博客作业教学数据分析系统(201521123082 黄华林) 一.团队课程设计博客链接 博客作业教学数据分析系统(From:网络五条狗) 二.个人负责模块或任务说明 1.网络爬虫 ...

  8. java课程设计--We Talk(201521123061)

    java课程设计--We Talk(201521123061) 团队博客链接:http://www.cnblogs.com/slickghost/ 数据库 一.通过Dao模式建立与数据库的连接 1.数 ...

  9. Java 课程设计 "Give it up"小游戏(团队)

    JAVA课程设计 "永不言弃"小游戏(From :Niverse) 通过Swing技术创建游戏的登陆注册界面,使用mySQL数据库技术完成用户的各项信息保存和游戏完成后的成绩保存. ...

随机推荐

  1. WTM 3.5发布,VUE来了!

    千呼万唤中,WTM的Vue前后端分离版本终于和大家见面了,我曾经跟群里1000多位用户保证过Vue版本会在春天到来,吹过的牛逼总算是圆上了. WTM一如既往地追求最大程度提高生产效率,所以内置的代码生 ...

  2. Lua Table pairs输出顺序问题 (版本差异 解决数字索引间断并兼容字符串索引)

    问题标签: Lua Table 迭代器;Lua Table 输出顺序; Lua Table 顺序输出;Lua Table 数字索引 字符串索引;Lua Table pairs; 问题背景: 使用pai ...

  3. dnSpy C#逆向工具

    dnSpy下载地址:https://www.softpedia.com/get/Programming/Debuggers-Decompilers-Dissasemblers/dnSpy.shtml ...

  4. Docker Data

    docker data 六.Docker存储 docker存储驱动storage driver(优先使用linux默认的storage driver,因为比较稳定) ubuntu:aufs,/var/ ...

  5. hdu1015+hdu1016 都是十分钟以内的深搜题

    hdu1015:给定一串可用序列值,每个字符映射到一个1-26之间的整数,选择五个有序数使得满足 a-b2+c3-d4+e5=target. #include<iostream> #inc ...

  6. 洛谷 P2257 YY的GCD 题解

    原题链接 庆祝: 数论紫题 \(T4\) 达成! 莫比乌斯 \(T1\) 达成! yy 真是个 神犇 前记 之前我觉得: 推式子,直接欧拉筛,筛出个 \(\phi\),然后乱推 \(\gcd\) 就行 ...

  7. Prism 源码解读1-Bootstrapper和Region的创建

    介绍 之前也研究过Prism框架但是一直没有深入理解,现在项目上想把一个Winform的桌面应用程序改造成WPF程序,同时我希望程序是可测试可维护架构良好的,Prism的这些设计理念正好符合我的需求, ...

  8. 读Hadoop3.2源码,深入了解java调用HDFS的常用操作和HDFS原理

    本文将通过一个演示工程来快速上手java调用HDFS的常见操作.接下来以创建文件为例,通过阅读HDFS的源码,一步步展开HDFS相关原理.理论知识的说明. 说明:本文档基于最新版本Hadoop3.2. ...

  9. css网页重置样式表(多版本)

    Eric reset.css html, body, div, span, applet, object, iframe, h1, h2, h3, h4, h5, h6, p, blockquote, ...

  10. C# 基础知识系列- 6 Lambda表达式和Linq简单介绍

    前言 C#的lambda和Linq可以说是一大亮点,C#的Lambda无处不在,Linq在数据查询上也有着举足轻重的地位. 那么什么是Linq呢,Linq是 Language Intergrated ...