首页  思维导图  详情



 



Elasticsearch知识大纲

2021-10-06 16:18:05   1  举报





AI智能生成

Elasticsearch全部知识点

搜索引擎

ElasticSearch

中间件

Lucene

elasticsearch

模板推荐

作者其他创作

大纲/内容

机制

搜索

URI Search

/search

集群上所有索引

/index1/search

指定某索引

/inde1,index2/search

多个索引

/index*/_search

通配符方式

格式

q指定查询语句

指定字段查询

q=title:2012

q=2012&df:title

泛查询

q=2012

df默认字段不指定则查询全字段

sort排序 from size分页

profile：true用来查看如何被执行

以上进行分析

term query

(beautiful mind)

title:(beautiful mind)

phrase query

"beautiful mind"

AND 且顺序不能变

title:"beautiful mind"

布尔操作

AND/OR/NOT

范围查询

q=year:>=1980

通配符

q=title:b*

...还有几种

示例

Request Body Search

基本示例

"_source":["name"]

只返回某个字段

脚本字段

子主题

Match

match中放具体的字段和值    上面一种是OR  下面才是AND

match phrase

短语搜索  相当于must并且顺序一直

Query String

Simple Query String 

term&全文本查询辨析

term查询中term中是最小的查询单位

term查询不会对查询的内容进行分词

也会进行相关度算分

即使对term做keyword查询

比如你索引一个iPhone

用term查询iPhone

查不到

没给查询的内容iPhone分词

即转小写

用trem查询iphone

查得到

命中了索引iphone

Trem Query

Range Query

Exists Query

Prefix Query

Wildcard Query

通过constant score转为filter

term查询很多时候不需要算分的

查子字段keyword

查keyword 就是精确匹配

不算分  提升性能

filter也可以用到缓存

全文本查询

Match Query

Match Phrase Query

Query String  Query

相关性

Information Retrieval

Precision查准率

尽可能返回较少的无关文档

Recall查全率

尽量返回较多的相关文档

Ranking 

是否能够按照相关度进行排序

算分

算分的本质是排序

把最高分最具相关性的返回给用户

TF(term frequency)

搜索词出现的次数除以文档的总词数

停用词可以忽略

检索词在所有文档中出现的频率

IDF

简单就是log(全部文档数/检索词出现过的文档总数)

越少占比约大

es5开始

默认算法为BM 25

explain:true

查看如何算分

boosting

打分相关度提升

0-1

相对降低

负分

结构化搜索

数字日期布尔值都是结构化数据

一些文本也是结构化数据

可以用term来搜索

不需要算分的话就利用constant score

对于多值的匹配

constant score是包含匹配而不是精确的相同匹配

需要对多值字段维护一个count  计数其size 借助boolquery才可以

filter不算分性能好

index template

模板仅在一个索引被新创建的时候，才会产生作用

修改模板不会影响已经创建的索引

可以指定多个索引模板

这些设置会被merge在一起？

指定order 控制merge的过程

一个索引被创建时的设置顺序 1、最先使用es默认的settings mappings 2、order从低到高使用覆盖 3、用户定义的覆盖

PUT _template/tmplate_name

GET _template/template_name

dynamic template

根据es识别的数据类型结合字段名称动态设定字段类型

举例

所有字符串设置成keyword类型或者关闭keyword字段

is开头设置成boolean

long_开头设置成long类型

PUT my_index {   "mappings": {     "dynamic_templates": [             {         "strings_as_boolean": {           "match_mapping_type":   "string",           "match":"is*",           "mapping": {             "type": "boolean"           }         }       },       {         "strings_as_keywords": {           "match_mapping_type":   "string",           "mapping": {             "type": "keyword"           }         }       }     ]   } }

PUT my_index {   "mappings": {     "dynamic_templates": [       {         "full_name": {           "path_match":   "name.*",           "path_unmatch": "*.middle",           "mapping": {             "type":       "text",             "copy_to":    "full_name"           }         }       }     ]   } }

分片生命周期

数据结构

index buffer

文档最初被写入到内存的位置

此时是搜索不到的

segment

index buffer写入到segment后就可以被查到

transcation log

落盘的文件，顺序写

每次在写index buffer的时候同样会落盘到trans log上

它这个落盘也不是实时落

5s落一次所以默认还是可能丢5s数据