Java使用正则表达式匹配获取链接地址的方法示例

 更新时间:2017年08月16日 09:54:54   作者:fancylovejava  
这篇文章主要介绍了Java使用正则表达式匹配获取链接地址的方法,简单分析了java正则匹配常用方法及获取网址链接的相关操作技巧,需要的朋友可以参考下

本文实例讲述了Java使用正则表达式匹配获取链接地址的方法。分享给大家供大家参考,具体如下:

获取页面中字符串的url地址我们都会使用正则表达式来匹配获取了,下面我来给大家总结几个匹配获取链接地址示例。

1、正则表达式中Matcher中find()方法的应用。

2、String对象中的 replaceAll(String regex,String replacement) 方法的使用。通过这个方法去除了不必要的字符串,从而得到了需要的网址和链接文字

例1.超简单的

String content = "<a href="URL" rel="external nofollow" >";
String pattern= "href="([^" rel="external nofollow" ]*)"";
Pattern p = Pattern.compile(pattern, 2 | Pattern.DOTALL);
Matcher m = p.matcher(content);
if(m.find()) {
   System.out.println("url="+m.group(1));
}

例2.上面只能获取带有双“号的a标题中的url,下面我们加以改进可以获取任何状态下的a标题url

package com.gong.example;
import Java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Simple {
 public static void main(String[] args){
 String input="<a style=" " href = "https://www.jb51.net" target="_blank" >www.jb51.net</a>" +
 "<a href = 'http://www.163.com' target='_blank' >www.163.com</a> " +
 "<a href=http://www.yahoo.com target=_blank >www.yahoo.com</a>";
 String patternString = "\s*(?i)href\s*=\s*("([^"]*")|'[^']*'|([^'">\s]+))"; //href
 Pattern pattern = Pattern.compile(patternString,
  Pattern.CASE_INSENSITIVE);
 Matcher matcher = pattern.matcher(input);
 while (matcher.find()) {
  String link=matcher.group();
  System.out.println(link);
  link=link.replaceAll("href\s*=\s*(['|"]*)", "");
  System.out.println("--"+link);
  link=link.replaceAll("['|"]", "");
  System.out.println("---"+link);
 }
 }
}

例3.我们还可以利用它进行升级获取 获取网址和链接文字哦。

/*
   功能说明:分析字符串s,提取s里面的超链接和链接文字
*/
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegTest
{
  public static void main(String[] args)
  {
    //String s="<p id=km>&nbsp;<a href=http://down.yourweb.com>空间</a>&nbsp;|&nbsp;<a ";
    String s="</p><p style=height:14px><a href=http://mb.yourweb.com>企业推广</a> | <a href=http://code.yourweb.com>搜索风云榜</a> | <a href=/home.html>关于百度</a> | <a href=http://www.yourweb.com>About Baidu</a></p><p id=b>&copy;2008 Baidu <a href=http://www.yourweb.com>使用百度前必读</a> <a href=http://www.miibeian.gov.cn target=_blank>京ICP证03xxxx号</a> <a href=https://www.jb51.net><img src=/get_pic/2013/11/22/20131122031447947.gif></a></p></center></body></html><!--543ff95f18f36b11-->";
     String regex="<a.*?/a>";
    //String regex = "<a.*>(.*)</a>";
    Pattern pt=Pattern.compile(regex);
    Matcher mt=pt.matcher(s);
    while(mt.find())
    {
       System.out.println(mt.group());
       System.out.println();
       String s2=">.*?</a>";//标题部分
       String s3="href=.*?>";
       Pattern pt2=Pattern.compile(s2);
       Matcher mt2=pt2.matcher(mt.group());
       while(mt2.find())
       {
        System.out.println("标题:"+mt2.group().replaceAll(">|</a>",""));
       }
       Pattern pt3=Pattern.compile(s3);
       Matcher mt3=pt3.matcher(mt.group());
       while(mt3.find())
       {
        System.out.println("网址:"+mt3.group().replaceAll("href=|>",""));
       }
    }
  }
}

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg

更多关于java算法相关内容感兴趣的读者可查看本站专题:《Java正则表达式技巧大全》、《Java数据结构与算法教程》、《Java操作DOM节点技巧总结》、《Java文件与目录操作技巧汇总》和《Java缓存操作技巧汇总

希望本文所述对大家java程序设计有所帮助。

相关文章

  • Java获取精确到秒的时间戳方法

    Java获取精确到秒的时间戳方法

    这篇文章主要为大家详细介绍了Java获取精确到秒的时间戳方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-12-12
  • Idea2023创建springboot不能选择java8的解决方法(最新推荐)

    Idea2023创建springboot不能选择java8的解决方法(最新推荐)

    在idea2023版本创建springboot的过程中,选择java版本时发现没有java8版本,只有java17和java20,遇到这样的问题如何解决呢,下面小编给大家分享Idea2023创建springboot不能选择java8的解决方法,感兴趣的朋友一起看看吧
    2024-01-01
  • Spring Cache+Redis缓存数据的实现示例

    Spring Cache+Redis缓存数据的实现示例

    本文主要介绍了Spring Cache+Redis缓存数据,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-01-01
  • Java实现简单树结构

    Java实现简单树结构

    这篇文章主要为大家详细介绍了Java实现简单树结构的相关资料,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-01-01
  • spring-cloud-stream结合kafka使用详解

    spring-cloud-stream结合kafka使用详解

    这篇文章主要介绍了spring-cloud-stream结合kafka使用详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-08-08
  • SpringBoot后端接收参数优化代码示例(统一处理前端参数)

    SpringBoot后端接收参数优化代码示例(统一处理前端参数)

    使用Spring Boot开发API的时候,读取请求参数是服务端编码中最基本的一项操作,下面这篇文章主要给大家介绍了关于SpringBoot后端接收参数优化(统一处理前端参数)的相关资料,需要的朋友可以参考下
    2024-07-07
  • Spring中的策略模式简单实现与使用分析

    Spring中的策略模式简单实现与使用分析

    这篇文章主要介绍了Spring中的策略模式简单实现与使用分析,去初始化时除了 initMultipartResolver(上传文件)没有获取 Properties defaultStrategies;默认策略,其他的八大件都会使用到策略模式,需要的朋友可以参考下
    2024-01-01
  • IDEA中的yml文件与properties互相转换

    IDEA中的yml文件与properties互相转换

    这篇文章主要介绍了IDEA中的yml文件与properties互相转换方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-10-10
  • java Socket简易聊天工具

    java Socket简易聊天工具

    这篇文章主要为大家详细介绍了java Socket简易聊天工具,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2016-10-10
  • Mybatis配置映射文件中parameterType的用法讲解

    Mybatis配置映射文件中parameterType的用法讲解

    这篇文章主要介绍了Mybatis配置映射文件中parameterType的用法,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-09-09

最新评论