5-6 Elasticsearch
Elasticsearch概述
什么是Elasticsearch
elastic:富有弹性的
search:搜索
在计算机开发界简称ES
这个软件不是SpringCloud的组件,甚至其他语言都可以使用它
是一个java开发的软件,所以启动需要java环境变量
功能是从大量数据中根据指定的关键字搜索出匹配的结果
这样的软件有一个名称全文搜索引擎
使用它的方式是访问它提供的控制器方法,它开发了多种控制器方法
访问不同方法实现对数据的增删改查
ES也是将数据保存在硬盘上的
常见面试题ES的实现结构
java有一套名为Lucene的API
是搜索引擎的核心支持,Elasticsearch在Lucene的基础上开发出了一个功能全面的开箱即用的全文搜索引擎
市面上ES的竞品有
Solr/MongoDB
为什么使用Elasticsearch
因为我们之前学习的所有关系型数据库都有一个严重的性能缺陷
mysql\mariaDB\oracle\DB2等
就是前模糊的模糊查询不能使用索引
select * from spu where spu_name like '%鼠标%'
测试证明一张千万级别的数据库表进行模糊查询需要20秒以上
当今需求"三高"的需求下,不能接受这样的性能
我们使用ES来优化后同样的查询我们能将效率提高100倍
将大型的查询也能控制在毫秒级别
Elasticsearch查询原理
如果不使用ES让数据库查询,没有索引加持的模糊查询就是全表搜索性能差
但是Elasticsearch可以利用添加数据库完成对数据的分词倒排索引形成索引库
在查询时直接查询索引库,获得符合查询条件的数据信息
续 Elasticsearch
关于数据库的索引
所谓索引其实就是数据库中数据的目录
目的是能够提高查询的效率
数据库索引分类
- 聚集索引
- 非聚集索引
聚集索引就是数据库保存数据的物理顺序,一般都是id,所以按物理顺序查询也就是按id查询效率非常高
如果再定义其他索引,就是非聚集索引了
如果数据表中有一个姓名列,我们为姓名列创建索引
例如有"张三"这个姓名,添加索引后,查询的话效率会明显提升
但是如果不创建索引,去查询张三,就只能逐行检索姓名列是否为张三,查询效率低
常见面试题:索引的使用规则和注意事项
- 索引会占用数据库空间
- 对数据进行增删改操作,可能会引起索引的更新,效率会低
- 操作数据库时先添加数据,再创建索引
- 不要对数据样本少的列添加索引
- 每次查询从数据库中查询结果越多,索引的效果越低
- 使用where字句查询时,将具有索引的列放在第一个条件
经过我们对索引的简单了解,我们需要知道索引的基本概念和使用
所有关系型数据库都有一个缺陷,就是模糊查询时(查询条件前模糊),是不能利用索引进行查询的
一定会引起全表搜索,查询效率非常低
Elasticsearch的启动
官方下载链接
https://www.elastic.co/cn/downloads/past-releases#elasticsearch
课程中使用7.6.2版本
压缩包280M左右,复制到没有中文,没有空格的目录下解压
双击elasticsearch.bat运行
运行之后可能看到下面界面
这个界面不能关闭,一旦关闭ES就停止了
我们启动ES双击这个bat文件即可,当然也可以设置Idea的shell script
验证ES是否在运行
浏览器输入地址:localhost:9200看到如下内容即可
mac系统启动
tar -xvf elasticsearch-7.6.2-darwin-x86_64.tar.gz
cd elasticsearch-7.6.2/bin
./elasticsearch
linux:
tar -xvf elasticsearch-7.6.2-linux-x86_64.tar.gz
cd elasticsearch-7.6.2/bin
./elasticsearch
ES基本使用
ES启动完成后,我们要学习如何操作它
我们已经讲过,操作ES是对es发送请求
我们创建一个子项目search,在这个子项目中创建一个专门发送各种类型请求的文件来操作ES
创建search项目也要父子相认
然后子项目pom文件如下
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<parent>
<groupId>cn.tedu</groupId>
<artifactId>csmall</artifactId>
<version>0.0.1-SNAPSHOT</version>
</parent>
<groupId>cn.tedu</groupId>
<artifactId>search</artifactId>
<version>0.0.1-SNAPSHOT</version>
<name>search</name>
<description>Demo project for Spring Boot</description>
<dependencies>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter</artifactId>
</dependency>
</dependencies>
</project>
下面创建这个能够发送各种请求的文件
文件类型叫HTTP Request文件
行业中有人将它称之为http client(http客户端)
创建完毕之后,我们向ES发送一个最简单的请求
获得的结果和之前浏览器响应结果一致,表示当前http client文件正常运行
### 注释和分隔符,每次编写请求前,都要先编写3个#
GET http://localhost:9200
### ES分词测试 analyze(分析)
POST http://localhost:9200/_analyze
Content-Type: application/json
{
"text": "罗技激光无线游戏鼠标",
"analyzer": "standard"
}
我们代码中编写的"analyzer": "standard"是默认分词器
如果不写出这行,也时默认这个分词器得
这个分词器只能对英文等西文字符(有空格的),进行分词
但是中文分词不能按空格分
下面我们要安装中文分词插件,实现中文分词效果
我们使用开源的分词词库IK实现中文分词
安装插件之后要重启ES才能生效
关闭ES窗口之后再启动ES即可
ES启动之后,将中文分词器插件设置完成,在运行分词
{
"text": "罗技激光无线游戏鼠标",
"analyzer": "ik_smart"
}
再次运行分词测试,应该看到正常的中文分词效果
ik分词插件的使用
我们安装的ik实际上不只一个分词器
实际上除了ik_smart之外还有ik_max_word
### ES分词测试 analyze(分析)
POST http://localhost:9200/_analyze
Content-Type: application/json
{
"text": "北京顺利举办了冬季奥林匹克运动会",
"analyzer": "ik_smart"
}
### ES分词测试 analyze(分析)
POST http://localhost:9200/_analyze
Content-Type: application/json
{
"text": "北京顺利举办了冬季奥林匹克运动会",
"analyzer": "ik_max_word"
}
上面的运行会有不同的分词效果
总体来说区别如下
ik_smart
- 优点:特征是粗略快速的将文字进行分词,占用空间小,查询速度快
- 缺点:分词的颗粒度大,可能跳过一些分词,导致查询结果不全面
ik_max_word
- 优点:特征是详细的文字片段进行分词,查询时查全率高,不容易遗漏数据
- 缺点:因为分词太过详细,导致有一些无用分词,占用空间较大,查询速度慢
使用ES操作数据
我们先了解一下ES保存数据的结构
- ES启动后,可以创建多个index(索引),index相当于数据库中表的概念
- 一个index可以创建保存多个document(文档),一个document相当于表中的一行数据
- 一个document中可以有多个属性和对应的值,相当于一行数据中字段和字段的值
项目node文件夹下共享了ES文档,命令都在里面,可以测试
Spring Boot操作 Elasticsearch
Spring Data简介
原生状态下,我们使用JDBC连接数据库,因为代码过于繁琐,所以改为使用Mybatis框架
在ES的原生状态下,我们java代码需要使用socket访问ES,但是也是过于繁琐,我们可以使用SpringData框架简化
Spring Data是Spring提供的一套连接各种第三方数据源的框架集
我们需要使用的是其中连接ES的Spring Data Elasticseatrch
官方网站:https://spring.io/projects/spring-data
官网中列出了它可以操作的数据源列表
每个列表中都包含一些使用的介绍
要想实现Spring Boot操作ES添加依赖后,按照要求编写代码即可
添加依赖
在上面章节中,我们创建的search模块中添加依赖如下
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<parent>
<groupId>cn.tedu</groupId>
<artifactId>csmall</artifactId>
<version>0.0.1-SNAPSHOT</version>
</parent>
<groupId>cn.tedu</groupId>
<artifactId>search</artifactId>
<version>0.0.1-SNAPSHOT</version>
<name>search</name>
<description>Demo project for Spring Boot</description>
<dependencies>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter</artifactId>
</dependency>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-test</artifactId>
</dependency>
<!-- Spring Data Elasticsearch依赖 -->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-data-elasticsearch</artifactId>
</dependency>
</dependencies>
</project>
application.properties添加配置
# 设置连接ES的ip地址和端口号
spring.elasticsearch.rest.uris=http://localhost:9200
# 为了观察运行状态信息,将日志输出门槛设置为debug
logging.level.cn.tedu.search=debug
logging.level.org.elasticsearch.client.RestClient=debug
下面开始具体操作演示
创建一个操作ES的数据类
和数据库一样
我们操作ES时也需要一个类似实体类的数据类,作为操作ES的数据载体
search项目创建entity包
在包中创建Item(商品)类
@Data
@Accessors(chain = true) // 生成和链式赋值的set方法
@AllArgsConstructor // 自动生成包含全部参数的构造方法
@NoArgsConstructor // 自动生成无参构造方法
// SpringData要求我们在"实体类"中使用特定注解标记
// @Document注解标记当前类和ES关联
// indexName指定索引名称,我们这里叫items,当操作这个索引时,如果索引不存在,会自动创建
@Document(indexName = "items")
public class Item implements Serializable {
// SpingData标记这个字段为当前类主键
@Id
private Long id;
// SpringData使用@Field标记文档中属性的类型和各种特征
@Field(type = FieldType.Text,
analyzer = "ik_max_word",
searchAnalyzer = "ik_max_word")
private String title; //商品名称
@Field(type = FieldType.Keyword)
private String category; //分类
@Field(type = FieldType.Keyword)
private String brand; //品牌
@Field(type = FieldType.Double)
private Double price; //价格
// 图片地址不会称为搜索条件,所以设置index=false
// 效果是imgPath字段不会生成索引库,节省空间
@Field(type = FieldType.Keyword,index = false)
private String imgPath; //图片地址
// images/hjdsf-ahsa-qwezx-jashjdas.png
// Text和Keyword都是字符串类型,只是Text会分词,而Keyword不会!
}
创建操作ES的持久层
我们使用SpringData连接操作ES
需要使用SpringData框架对持久层的命名规则
创建repository包,在包中创建接口ItemRepository
代码如下
// Spring 家族下持久层名称都叫repository
@Repository
public interface ItemRepository extends ElasticsearchRepository<Item,Long> {
// 当前接口继承ElasticsearchRepository父接口后
// 会自动在类中生成基本的增删改查方法,直接可以使用
// 它自动识别或自动生成的规则,是我们定义的两个泛型ElasticsearchRepository<[实体类名],[主键类型]>
}
测试操作ES
打开test测试类进行测试
@SpringBootTest
class SearchApplicationTests {
// 注入SpringData操作Es的持久层对象
@Autowired
private ItemRepository itemRepository;
// 单增
@Test
void addOne() {
// 实例化Item对象,赋值并新增到ES
Item item=new Item()
.setId(1L)
.setTitle("罗技激光无线游戏鼠标")
.setCategory("鼠标")
.setBrand("罗技")
.setPrice(128.0)
.setImgPath("/1.jpg");
// 利用自动生成的方法将item新增到ES,索引不存在会自动创建
itemRepository.save(item);
System.out.println("ok");
}
// 按id查询
@Test
void getOne(){
// SpringData框架自带的按id查询的方法
// Optional是一个类似包装类的概念,查询的结果封装到了这个类型中
Optional<Item> optional=itemRepository.findById(1L);
// 需要使用查询内容时使用optional.get()即可
System.out.println(optional.get());
}
// 批量增
@Test
void addList(){
// 实例化一个List集合
List<Item> list=new ArrayList<>();
// 将要新增的Item对象保存到这个List中
list.add(new Item(2L,"罗技激光有线办公鼠标","鼠标",
"罗技",89.0,"/2.jpg"));
list.add(new Item(3L,"雷蛇机械无线游戏键盘","键盘",
"雷蛇",299.0,"/3.jpg"));
list.add(new Item(4L,"微软有线静音办公鼠标","鼠标",
"微软",208.0,"/4.jpg"));
list.add(new Item(5L,"罗技有线机械背光键盘","键盘",
"罗技",266.0,"/5.jpg"));
// 下面使用SpringData提供的方法执行批量新增
itemRepository.saveAll(list);
System.out.println("ok");
}
// 全查
@Test
void getAll(){
// 利用SpringData的方法从ES中查询所有数据
Iterable<Item> items=itemRepository.findAll();
// for(Item item: items){
// System.out.println(item);
// }
items.forEach(item -> System.out.println(item));
}
}
SpringData自定义查询
SpringData框架提供基本增删改查方法
但是如果有具体的针对性的查询逻辑,一定还是需要我们自己编写代码
例如实现类似数据库中的模糊查询
单条件查询
我们的查询需求是查询title属性中包含"游戏"这个分词的商品信息
参考模糊查询代码
select * from item where title like '%游戏%'
我们使用ES查询,本质上运行的就是我们在es.http文档中编写的查询语句
但是SpringData框架下,编写查询语句更加简单
我们在ItemRepository接口中添加如下代码
// SpringData自定义查询
// 遵循SpringData框架规定的格式的前提下,编写方法名会自动生成查询逻辑
// query: 表示当前方法是一个查询功能,类似sql中的select
// Item\Items: 表示查询结果的实体类,带s的返回集合
// By:标识开始设置条件,类似sql的where
// Title: 要查询的字段名称
// Matches: 是要执行的查询操作,这里是分词查询,类似sql的like
Iterable<Item> queryItemsByTitleMatches(String title);
再测试类中进行测试
//单条件自定义查询
@Test
void queryOne(){
// 查询 ES中title字段包含"游戏"分词的数据
Iterable<Item> items=itemRepository.queryItemsByTitleMatches("游戏");
items.forEach(item -> System.out.println(item));
}
上面代码运行时底层运行的查询语句为:
### 单条件搜索
POST http://localhost:9200/items/_search
Content-Type: application/json
{
"query": {"match": { "title": "游戏" }}
}
多条件查询
在相对复杂的查询逻辑下
经常使用多个条件来定位查询需要的数据
这样就需要逻辑运算符"and"/"or"
ItemRepository接口中添加多条件的查询方法
// 多条件查询
// 两个或多个条件之间直接编写And或Or表示查询逻辑
// 参数名称实际上没有要求必须和字段名称匹配,底层代码是按照参数顺序赋值的
Iterable<Item> queryItemsByTitleMatchesAndBrandMatches(String title,String brand);
上面的查询添加了品牌作为条件
逻辑关系是and(与)
测试代码如下
// 多条件自定义查询
@Test
void queryTwo(){
Iterable<Item> items=itemRepository
.queryItemsByTitleMatchesAndBrandMatches("游戏","雷蛇");
items.forEach(item -> System.out.println(item));
}
底层运行的请求
### 多字段搜索
POST http://localhost:9200/items/_search
Content-Type: application/json
{
"query": {
"bool": {
"must": [
{ "match": { "title": "游戏"}},
{ "match": { "brand": "雷蛇"}}
]
}
}
}
当查询条件关系为And时,查询语句关键字为must
当查询条件关系为Or时,查询语句关键字为should
5-6 Elasticsearch的更多相关文章
- Elasticsearch之java的基本操作一
摘要 接触ElasticSearch已经有一段了.在这期间,遇到很多问题,但在最后自己的不断探索下解决了这些问题.看到网上或多或少的都有一些介绍ElasticSearch相关知识的文档,但个人觉得 ...
- Elasticsearch 5.0 中term 查询和match 查询的认识
Elasticsearch 5.0 关于term query和match query的认识 一.基本情况 前言:term query和match query牵扯的东西比较多,例如分词器.mapping ...
- 以bank account 数据为例,认识elasticsearch query 和 filter
Elasticsearch 查询语言(Query DSL)认识(一) 一.基本认识 查询子句的行为取决于 query context filter context 也就是执行的是查询(query)还是 ...
- Ubuntu 14.04中Elasticsearch集群配置
Ubuntu 14.04中Elasticsearch集群配置 前言:本文可用于elasticsearch集群搭建参考.细分为elasticsearch.yml配置和系统配置 达到的目的:各台机器配置成 ...
- ElasticSearch 5学习(10)——结构化查询(包括新特性)
之前我们所有的查询都属于命令行查询,但是不利于复杂的查询,而且一般在项目开发中不使用命令行查询方式,只有在调试测试时使用简单命令行查询,但是,如果想要善用搜索,我们必须使用请求体查询(request ...
- ElasticSearch 5学习(9)——映射和分析(string类型废弃)
在ElasticSearch中,存入文档的内容类似于传统数据每个字段一样,都会有一个指定的属性,为了能够把日期字段处理成日期,把数字字段处理成数字,把字符串字段处理成字符串值,Elasticsearc ...
- .net Elasticsearch 学习入门笔记
一. es安装相关1.elasticsearch安装 运行http://localhost:9200/2.head插件3.bigdesk插件安装(安装细节百度:windows elasticsear ...
- 自己写的数据交换工具——从Oracle到Elasticsearch
先说说需求的背景,由于业务数据都在Oracle数据库中,想要对它进行数据的分析会非常非常慢,用传统的数据仓库-->数据集市这种方式,集市层表会非常大,查询的时候如果再做一些group的操作,一个 ...
- 如何在Elasticsearch中安装中文分词器(IK+pinyin)
如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题--中文词语被分成了一个一个的汉字,当用Kibana作图的时候,按照term来分组,结果一个汉字被分成了一组. ...
- jar hell & elasticsearch ik 版本问题
想给es 安装一个ik 的插件, 我的es 是 2.4.0, 下载了一个版本是 1.9.5, [2016-10-09 16:56:26,248][INFO ][node ] [node-2] init ...
随机推荐
- CentOS 8迁移Rocky Linux 8手记
前言 由于CentOS 8的支持已经到期了,.NET 6也不支持了,然后也无法升级,导致使用起来已经非常不便,无奈只有迁移服务器这个选项了. 选择发行版本一直是一个比较头疼的问题,首先我不是专门运维的 ...
- CentOS 下 MySQL 8.0 安装部署,超详细!
点击上方"开源Linux",选择"设为星标" 回复"学习"获取独家整理的学习资料! Mysql8.0安装 (YUM方式) 首先删除系统默认或 ...
- 『现学现忘』Git基础 — 21、git diff命令
目录 1.git diff 命令说明 2.比较工作区与暂存区中文件的差别 3.比较暂存区与本地库中文件的差别 4.总结git diff命令常见用法 5.总结 1.git diff 命令说明 在comm ...
- a commponent required a bean of type XXXXXX that could not be found-2022新项目
一.问题由来 目前刚入职一家新公司不久,公司的新项目采用DDD驱动领域设计来进行开发,架构这一块使用的是阿里巴巴开源的最新框架COLA4.0的架构. 主要是这个框架里面的分层设计.主要分为四层:ada ...
- drools中query的使用
一.背景 我们知道在drools中是存在工作内存的,我们的Fact对象会加入到工作内存中,同时我们自己也可以在drl文件中使用insert/modify/update/delete等方法,修改工作内存 ...
- python基础数据类型1
python基础数据类型1 part1: ''' ''': 三个单引号用于换行的字符串 字符串可以相加(拼接)相乘(重复) 在Python中没有一个专门的语法代表常量,程序员约定俗成用变量名全部大写代 ...
- 纯CSS如何禁止用户复制网页的内容?
大家好,我是半夏,一个刚刚开始写文的沙雕程序员.如果喜欢我的文章,可以关注 点赞 加我微信:frontendpicker,一起学习交流前端,成为更优秀的工程师-关注公众号:搞前端的半夏,了解更多前端知 ...
- 第06组 Beta冲刺 (4/5)
目录 1.1 基本情况 1.2 冲刺概况汇报 1.郝雷明 2. 方梓涵 3.曾丽莉 4.鲍凌函 5. 董翔云 6.黄少丹 7.杜筱 8.詹鑫冰 9.曹兰英 10.吴沅静 1.3 冲刺成果展示 1.1 ...
- uni-simple-router
目录 uni-simple-router 一.快速上手 扩一:webpack插件之DefinePlugin 扩二:uni-read-pages 如何获取pages.json中的路由 二.H5模式 2. ...
- Jmeter接口参数化<自动化>(csv文件)管理测试用例以及断言
1.创建相关线程组(不解释) 2.创建相应的请求(在请求中设置变量) 下面截图中①②③④⑤⑥⑦皆可以设置为变量 3.新建CSV文件 将请求中设置的变量为明确了解每个字段的含义(皆可以将变量填写到列表的 ...