正则表达式学习经验分析第2/2页
更新时间:2008年05月30日 19:57:03 作者:
正则表达式用来指定字符串模式。当你需要定位匹配某种模式的字符串时就可以使用正则表达式。例如,我们下面的一个例程就是在一个HTML文件中通过查找字符串模式<a href="...">来定位所有的超链接。
例12-9提示输入一个模式和一个欲匹配的字符串。它将输出输入的字符串是否匹配模式。如果输入匹配包含分组的模式,程序将会使用圆括号来打印分组边界,如((11):(59))am
Example 12-9. RegexTest.java
1. import java.util.*;
2. import java.util.regex.*;
3.
4. /**
5. This program tests regular expression matching.
6. Enter a pattern and strings to match, or hit Cancel
7. to exit. If the pattern contains groups, the group
8. boundaries are displayed in the match.
9. */
10. public class RegExTest
11. {
12. public static void main(String[] args)
13. {
14. Scanner in = new Scanner(System.in);
15. System.out.println("Enter pattern: ");
16. String patternString = in.nextLine();
17.
18. Pattern pattern = null;
19. try
20. {
21. pattern = Pattern.compile(patternString);
22. }
23. catch (PatternSyntaxException e)
24. {
25. System.out.println("Pattern syntax error");
26. System.exit(1);
27. }
28.
29. while (true)
30. {
31. System.out.println("Enter string to match: ");
32. String input = in.nextLine();
33. if (input == null || input.equals("")) return;
34. Matcher matcher = pattern.matcher(input);
35. if (matcher.matches())
36. {
37. System.out.println("Match");
38. int g = matcher.groupCount();
39. if (g > 0)
40. {
41. for (int i = 0; i < input.length(); i++)
42. {
43. for (int j = 1; j <= g; j++)
44. if (i == matcher.start(j))
45. System.out.print('(');
46. System.out.print(input.charAt(i));
47. for (int j = 1; j <= g; j++)
48. if (i + 1 == matcher.end(j))
49. System.out.print(')');
50. }
51. System.out.println();
52. }
53. }
54. else
55. System.out.println("No match");
56. }
57. }
58. }
通常地,你不希望匹配整个输入到某个正则表达式,而是希望在输入中找出一个或多个匹配的子字符串。使用Matcher类的find方法来寻找下一个匹配。如果它返回True,再使用start和end方法找出匹配的范围。
while (matcher.find())
{
int start = matcher.start();
int end = matcher.end();
String match = input.substring(start, end);
. . .
}
例12-10用到了这种机制。它在一个网页中定位所有的超文本引用并打印它们。为运行程序,在命令行提供一个URL,比如
java HrefMatch http://www.horstmann.com
Example 12-10. HrefMatch.java
1. import java.io.*;
2. import java.net.*;
3. import java.util.regex.*;
4.
5. /**
6. This program displays all URLs in a web page by
7. matching a regular expression that describes the
8. <a href=...> HTML tag. Start the program as
9. java HrefMatch URL
10. */
11. public class HrefMatch
12. {
13. public static void main(String[] args)
14. {
15. try
16. {
17. // get URL string from command line or use default
18. String urlString;
19. if (args.length > 0) urlString = args[0];
20. else urlString = "http://java.sun.com";
21.
22. // open reader for URL
23. InputStreamReader in = new InputStreamReader(new URL(urlString).openStream());
24.
25. // read contents into string buffer
26. StringBuilder input = new StringBuilder();
27. int ch;
28. while ((ch = in.read()) != -1) input.append((char) ch);
29.
30. // search for all occurrences of pattern
31. String patternString = "<a\\s+href\\s*=\\s*(\"[^\"]*\"|[^\\s>])\\s*>";
32. Pattern pattern = Pattern.compile(patternString, Pattern.CASE_INSENSITIVE);
33. Matcher matcher = pattern.matcher(input);
34.
35. while (matcher.find())
36. {
37. int start = matcher.start();
38. int end = matcher.end();
39. String match = input.substring(start, end);
40. System.out.println(match);
41. }
42. }
43. catch (IOException e)
44. {
45. e.printStackTrace();
46. }
47. catch (PatternSyntaxException e)
48. {
49. e.printStackTrace();
50. }
51. }
52. }
Matcher类的replaceAll方法用一个替换字符串代替出现的所有正则表达式的匹配。比如,下列指令用#替换所有数字序列
Pattern pattern = Pattern.compile("[0-9]+");
Matcher matcher = pattern.matcher(input);
String output = matcher.replaceAll("#");
替换字符串可以包含模式中的分组引用:$n被第n个分组替换。替换文本中出现$时,使用\$来包含它。
replaceFirst方法只替换模式的第一次出现。
最后讲一点,Pattern类有一个split方法,它类似于字符串tokenizer。它使用正则表达式匹配作边界,将输入分离成字符串数组。比如,下面的指令将输入分离成记号(token),
Pattern pattern = Pattern.compile("\\s*\\p{Punct}\\s*");
String[] tokens = pattern.split(input);
类
--------------------------------------------------------------------------------
java.util.regex.Pattern 1.4
--------------------------------------------------------------------------------
方法
static Pattern compile(String expression)
static Pattern compile(String expression, int flags)
编译正则表达式字符串到pattern对象用以匹配的快速处理
参数:
expression 正则表达式
flags 下列标志中的一个或多个 CASE_INSENSITIVE, UNICODE_CASE, MULTILINE, UNIX_LINES, DOTALL, and CANON_EQ
Matcher matcher(CharSequence input)
返回一个matcher对象,它可以用来在一个输入中定位模式匹配
String[] split(CharSequence input)
String[] split(CharSequence input, int limit)
将输入字符串分离成记号,并由pattern来指定分隔符的形式。返回记号数组。分隔符并不是记号的一部分。
参数:
input 分离成记号的字符串
limit 生成的最大字符串数。
--------------------------------------------------------------------------------
类
--------------------------------------------------------------------------------
java.util.regex.Matcher 1.4
--------------------------------------------------------------------------------
方法
--------------------------------------------------------------------------------
boolean matches()
返回输入是否与模式匹配
boolean lookingAt()
如果输入的起始匹配模式则返回True
boolean find()
boolean find(int start)
尝试查找下一个匹配,并在找到匹配时返回True
参数:
start 开始搜索的索引
int start()
int end()
返回当前匹配的起始位置和结尾后位置
String group()
返回当前匹配
int groupCount()
返回输入模式中的分组数
int start(int groupIndex)
int end(int groupIndex)
返回一个给定分组当前匹配中的起始位置和结尾后位置
参数:
groupIndex分组索引(从1开始),0表示整个匹配
String group(int groupIndex)
返回匹配一个给定分组的字符串
参数:
groupIndex
分组索引(从1开始),0表示整个匹配
String replaceAll(String replacement)
String replaceFirst(String replacement)
返回从matcher输入得到的字符串,但已经用替换表达式替换所有或第一个匹配
参数:
replacement 替换字符串
Matcher reset()
Matcher reset(CharSequence input)
复位mather状态。
相关文章
pycharm使用正则表达式批量添加print括号完美从python2迁移到python3
这篇文章主要介绍了pycharm中使用正则表达式批量添加print括号,完美从python2迁移到python3的方法,本文图文并茂给大家介绍的非常详细,具有一定的参考借鉴价值 ,需要的朋友可以参考下2019-08-08正则表达式提取网址、标题、图片等一例(.Net Asp Javascript/Js)的实现
用各种语言实现的提取内容中的网址,标题,图片等功能代码,对于大家掌握正则的共用性有很大的帮助。2008-11-11正则表达式替换table表格中的样式与空标记(保留rowspan与colspan)
最近几天的劳动成果,用正则表达式去除表格中的样式与class方便后台编辑的操作,在编写过程中不断进步,后续将不定时更新,需要的朋友可以参考下2020-04-04
最新评论