浅谈JAVA字符串匹配算法indexOf函数的实现方法

 更新时间:2020年07月14日 15:57:52   作者:黄林晴  
这篇文章主要介绍了浅谈字符串匹配算法indexOf函数的实现方法,indexOf函数我们可以查找一个字符串(模式串)是否在另一个字符串(主串)出现过。对此感兴趣的可以来了解一下

前言

相信每个学习过Java的人都使用过indexOf函数,indexOf函数我们可以查找一个字符串(模式串)是否在另一个字符串(主串)出现过,返回结果表示出现位置的下标,如果返回-1,表示模式串在主串中不存在,那么,你可曾想过这些查找函数又是如何实现的呢?

从indexOf源码看起

首先我们先来看一下indexOf的源码,indexOf的使用方式比较多,这是我们以一个形参的为例。

static String mainString = "Hello my name is HuangLinqing";
static String patternString = "HuangLinqing";
 
public static void main(String[] args) {
 System.out.printf(mainString.indexOf(patternString, 0) + "");
}

运行上面代码的结果,返回的结果是17,说明模式串在主串中存在,并且第一次出现的位置下标是17

indexOf方法最终会走到下面方法中,源码如下所示:

/**
 * Code shared by String and StringBuffer to do searches. The
 * source is the character array being searched, and the target
 * is the string being searched for.
 *
 * @param source the characters being searched.
 * @param sourceOffset offset of the source string.
 * @param sourceCount count of the source string.
 * @param target the characters being searched for.
 * @param targetOffset offset of the target string.
 * @param targetCount count of the target string.
 * @param fromIndex the index to begin searching from.
 */
static int indexOf(char[] source, int sourceOffset, int sourceCount,
 char[] target, int targetOffset, int targetCount,
 int fromIndex) {
 if (fromIndex >= sourceCount) {
 return (targetCount == 0 ? sourceCount : -1);
 }
 if (fromIndex < 0) {
 fromIndex = 0;
 }
 if (targetCount == 0) {
 return fromIndex;
 }
 char first = target[targetOffset];
 int max = sourceOffset + (sourceCount - targetCount);
 for (int i = sourceOffset + fromIndex; i <= max; i++) {
 /* Look for first character. */
 if (source[i] != first) {
  while (++i <= max && source[i] != first);
 }
 /* Found first character, now look at the rest of v2 */
 if (i <= max) {
  int j = i + 1;
  int end = j + targetCount - 1;
  for (int k = targetOffset + 1; j < end && source[j]
   == target[k]; j++, k++);
  if (j == end) {
  /* Found whole string. */
  return i - sourceOffset;
  }
 }
 }
 return -1;
}

代码行数不多,接下来我们来分析一下,上面的代码,fromIndex默认是0,target是模式串,targetCount是模式串的大小,source是主串,sourceCount是主串的大小

if (fromIndex >= sourceCount) {
 return (targetCount == 0 ? sourceCount : -1);
}
if (fromIndex < 0) {
 fromIndex = 0;
}
if (targetCount == 0) {
 return fromIndex;
}

如果开始查找的位置大于主串的大小,如果模式串是空串就返回主串的大小,否则返回-1,如果模式串的大小等于0就是开始查找的位置,这几行代码很好理解,就不举例子了,主要是下面的代码:

char first = target[targetOffset];
int max = sourceOffset + (sourceCount - targetCount);
 
for (int i = sourceOffset + fromIndex; i <= max; i++) {
 /* Look for first character. */
 if (source[i] != first) {
 while (++i <= max && source[i] != first);
 }
 /* Found first character, now look at the rest of v2 */
 if (i <= max) {
 int j = i + 1;
 int end = j + targetCount - 1;
 for (int k = targetOffset + 1; j < end && source[j]
  == target[k]; j++, k++);
 if (j == end) {
  /* Found whole string. */
  return i - sourceOffset;
 }
 }
}

indexOf底层使用的方法是典型的BF算法,我们先来简单介绍BF算法,再回过头来理解上面的代码就比较容易了

BF与RK算法

BF算法

BF算法就是Brute Force,暴力匹配算法,也成为朴素匹配算法,主串的大小是sourceSize,模式串的大小是targetSize,因为我们要在主串中查找模式串,所以sourceZize > targetSize,所以从主串下标为0开始,连续查找targetSize个字符,再从下标为1开始后,一直到,下标为sourceSize - targetSize ,举个简单的例子在ABCDEFG中查找EF:

上图依次表示从i为0,到i为4时的依次比较,从图中我们也可以看出,BF算法是比较耗时的,因为比较的次数较多,但是实际比较的时候主串和模式串都不会太长,所以这种比较的方法更容易使用。

现在我们回过头看看indexOf的下半部分源码,我相信其实不用解释了。

RK算法

RK算法其实就是对BF算法的升级,还是以上面的图为例,在ABCDEFG中查找EF的时候,比如下标为0的时候,我们去比较A和E的值,不相等就不继续往下比较了,但是比如我们现在查找CDF是否在主串中存在,我们要从C已知比较大E发现第三位不相等,这样当模式串前一部分等于主串,只有最后一位不相等的时候,比较的次数太多了,效率比较低,所以我们可以采用哈希计算来比较,哈希计算 后面我会补充一篇。

我们要将模式串和sourceSize - targetSize + 1 个字符串相比,我们可以先将sourceSize - targetSize + 1个模式串进行哈希计算。与哈希计算后的模式串相比较,如果相等则存在,对于哈希冲突在一般实现中概率比较低,不放心的话我们可以在哈希值相等时候再比较一次原字符串确保准确,哈希的冲突概率也和哈希算法的本身设计有关。这样的话,我们首先计算AB的哈希值 与 模式串的相比较,然后计算BC的哈希值与模式串相比较,直到比较出相等的返回下标即可。

到此这篇关于浅谈字符串匹配算法从indexOf函数的实现方法的文章就介绍到这了,更多相关字符串匹配算法从indexOf函数的实现方法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Java调用新浪api通过Ip查询地区

    Java调用新浪api通过Ip查询地区

    这篇文章主要介绍了Java调用新浪接口通过Ip查询地区,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-05-05
  • Java中this和super关键字的使用详解

    Java中this和super关键字的使用详解

    super 代表父类的存储空间标识(可以理解为父亲的引用)。 this代表当前对象的引用(谁调用就代表谁)。本文将通过简单的示例介绍二者的使用与区别,需要的可以了解一下
    2022-10-10
  • Spring自定义配置Schema可扩展(一)

    Spring自定义配置Schema可扩展(一)

    本教程主要介绍如何扩展Spring的xml配置,让Spring能够识别我们自定义的Schema和Annotation,,需要的朋友可以参考下
    2016-01-01
  • Java方法重载的使用实战案例

    Java方法重载的使用实战案例

    这篇文章主要介绍了Java方法重载的使用,结合具体实例形式分析了java方法重载的基本使用技巧与相关操作注意事项,需要的朋友可以参考下
    2019-09-09
  • 详解如何在项目中应用SpringSecurity权限控制

    详解如何在项目中应用SpringSecurity权限控制

    本文主要介绍了如何在项目中应用SpringSecurity权限控制,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-06-06
  • 基于Java实现修改图片分辨率示例代码

    基于Java实现修改图片分辨率示例代码

    这篇文章主要介绍了一个可以修改图片分辨率的java工具类,文中的示例代码讲解详细,对学习JAVA有一定的帮助,感兴趣的小伙伴快来跟随小编一起学习吧
    2021-12-12
  • java中instanceof 关键字作用和实际用途详解

    java中instanceof 关键字作用和实际用途详解

    这篇文章主要介绍了java中instanceof 关键字作用和实际用途,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-04-04
  • Mybatis 动态表名+Map参数传递+批量操作详解

    Mybatis 动态表名+Map参数传递+批量操作详解

    这篇文章主要介绍了Mybatis 动态表名+Map参数传递+批量操作详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-12-12
  • 一文带你厉害Java设计模式中的模板方法

    一文带你厉害Java设计模式中的模板方法

    模板方法定义了一个算法的步骤,并允许子类为一个或多个步骤提供实现。这篇文章就来带大家了解一下Java模板方法的概念与实现,感兴趣的小伙伴可以跟随小编一起学习一下
    2023-01-01
  • Spring Security 核心过滤器链讲解

    Spring Security 核心过滤器链讲解

    这篇文章主要介绍了Spring Security 核心过滤器链,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-12-12

最新评论