elasticsearch索引index之merge底层机制的合并讲解

 更新时间:2022年04月22日 10:41:07   作者:zziawan  
这篇文章主要为大家介绍了elasticsearch索引index之merge底层机制的合并,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

merge是lucene的底层机制,merge过程会将index中的segment进行合并,生成更大的segment,提高搜索效率。

segment是lucene索引的一种存储结构,每个segment都是一部分数据的完整索引,它是lucene每次flush或merge时候形成。

每次flush就是将内存中的索引写出一个独立segment的过程。所以随着数据的不断增加,会形成越来越多的segment。

因为segment是不可变的,删除操作不会改变segment内部数据,只是会在另外的地方记录某些数据删除,这样可能会导致segment中存在大量无用数据。

搜索时,每个segment都需要一个reader来读取里面的数据,大量的segment会严重影响搜索效率。

而merge过程,会将小的segment写到一起形成一个大的segment,减少其数量。同时重写过程会抛弃那些已经删除的数据。因此segment的merge是有利于查询效率的。

elasticsearch的merge其实就是lucene的merge机制。merge过程是lucene有一个后台线程,它会根据merge策略来决定是否进行merge,一旦merge的条件满足,就会启动后台merge。

merge策略分为两种,这也是大多数大数据框架所采用的,segment的大小和segment中doc的数量。

以这两个标准为基础实现了三种merge策略:TieredMergePolicy、LogDocMergePolicy 及LogByteSizeMergePolicy。

elasticsearch这一部分就是对这三种合并策略的封装,并提供了对于的配置。

它的实现方式如下所示:

底层mergeprovider实现了对三种合并策略的初始化和配置,并通过getMergePolicy()方法对外提供。

这三种合并策略中LogDocMergePolicy是根据doc数量进行合并,其它两种都是根据segment的大小,只是TieredMergePolicy合并过程是分层进行,它会把小于某一值的所有segment合并成一个大的segment,然后再一次进行。

以上是合并策略,除了合并策略还有一个要说的就是合并线程。前面说过,merge是通过独立线程完成的,lucene对于线程策略也有两种,一种是顺序,另外一种就是并发。

顺序合并策略会阻止索引的进行,因此多数情况先不会使用,而并发合并则是和index过程同时进行,这样不会影响索引和搜索。

elasticsearch同样通过provider的形式提供这两种合并线程配置。

merge能够通过减少segment数量来提高搜索速度。但是merge的过程会对索引吞吐量及搜索速度有一定的影响,因此需要配置适当的合并策略参数。对于资源不足的环境,最好禁止自动merge,选择空闲时段手动进行merge。

以上就是elasticsearch索引index之merge底层机制的合并讲解的详细内容,更多关于elasticsearch索引index merge合并的资料请关注脚本之家其它相关文章!

相关文章

  • 教你JVM怎么使用native memory

    教你JVM怎么使用native memory

    这篇文章主要为大家介绍了JVM怎么使用native memory原理详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-04-04
  • 解决idea从git拉取代码需要输入token的问题

    解决idea从git拉取代码需要输入token的问题

    这篇文章主要介绍了解决idea从git拉取代码需要输入token的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-07-07
  • git 入门教程之本地仓库和远程仓库的本质介绍

    git 入门教程之本地仓库和远程仓库的本质介绍

    本地仓库和远程仓库在本质上没有太大区别,只不过一个是本地电脑,一个是远程电脑.这篇文章主要介绍了git 入门教程之本地和远程仓库的本质介绍,需要的朋友可以参考下
    2020-08-08
  • Mac如何给应用单独设置语言

    Mac如何给应用单独设置语言

    这篇文章主要介绍了Mac如何给应用单独设置语言,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-10-10
  • IntelliJ IDEA2020新增禅模式和LightEdit模式

    IntelliJ IDEA2020新增禅模式和LightEdit模式

    这篇文章主要介绍了IntelliJ IDEA2020新增禅模式和LightEdit模式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-03-03
  • vscode配置leetcode插件并解决无法登录问题(图文详解)

    vscode配置leetcode插件并解决无法登录问题(图文详解)

    这篇文章主要介绍了vscode配置leetcode插件并解决无法登录问题,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-06-06
  • BERT vs GPT自然语言处理中的关键差异详解

    BERT vs GPT自然语言处理中的关键差异详解

    这篇文章主要为大家介绍了BERT vs GPT自然语言处理中的关键差异详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-01-01
  • git与svn的区别及优缺点说明

    git与svn的区别及优缺点说明

    Git和SVN都是版本控制系统,用于代码管理,SVN是集中式的,需要联网并且中央服务器存在单点故障的风险,Git是分布式的,每个终端都是一个完整的仓库,不依赖中央服务器,提高了工作的灵活性和安全性,SVN易于管理权限,但必须联网工作且更新提交可能面临冲突
    2024-10-10
  • vs2022使用git同步报错以及解决每次推送要输入密码问题

    vs2022使用git同步报错以及解决每次推送要输入密码问题

    本文主要介绍了vs2022使用git同步报错以及解决每次推送要输入密码问题,文中通过图文示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-10-10
  • Git commit --amend 修改提交信息操作

    Git commit --amend 修改提交信息操作

    这篇文章主要介绍了Git commit --amend 修改提交信息操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-09-09

最新评论