BlogJava-semovy-文章分类-正则表达式

正则表达式语法

semovy — Wed, 28 May 2008 02:13:00 GMT

Regular Mode & Behavior

名称			英文	字符/格式	描述
简单模式	元字符		Meta Character	{　}　[　]　(　)　\　/　^　$　*　+　.　,　?　\|　:　=　!　-	元字符是正则表达式语法的一部分。任何时候要在正则表达式中使用这些元字符，都必须对它们进行转义，即其前加上反斜线。另外，在某些编程语言中，反斜线“\”通常用来进行转义操作，那么此时使用元字符时，就要进行双重转义，即先转义反斜线再转义元字符。
	特殊字符		Special Character	\t　\n　\r　\f　\a　\e　\c`X`　\B　\V　\0	通常是一些不可见的格式控制符号，使用时也应该注意双重转义。
	字符类	简单类	Simple Class	[`...`]	指定要包含的字符。
		负向类	Negation Class	[^`...`]	指定要排除的字符。
		范围类	Range Class	[`...`-`...`]	指定要包含的字符有序序列。
		负向范围类	Negative Range Class	[^`...`-`...`]	指定要排除的字符有序序列。
		组合类	Combination Class		由几种字符类组合而成的字符类（内部类之间不能有空格）。组合类中允许出现简单类、负向类、范围类、预定义类。
		联合类	Union Class
		交叉类	Intersection Class
		预定义类	Predefined Class	.　\d　\D　\s　\S　\w　\W　\x`XX`　\`XXX`　\u`XXXX`	某些反复用到的模式被预先定义，可以方便地指定复杂的模式，也使模式的匹配变得更简单。
	量词	量词	Quantifier		用于指定某个特定模式出现的次数。当指定某个模式应当出现的次数时，可以指定硬性数量或指定软性数量。量词使用在某个模式的后面，用以限定该模式在字符串中出现的次数。
		贪婪(简单)量词	Greedy Quantifier	?　*　+　{`n`}　{`n`,`m`}　{`n`,}	先看整个的字符串是不是一个匹配。如果没有发现匹配，它去掉最后字符串中的最后一个字符，并再次尝试。如果还是没有发现匹配，那么再次去掉最后一字符，这个过程会一直重复直到发现一个匹配或者或者字符串不剩任何字符。
		惰性量词	Inert Quantifier	??　*?　+?　{`n`}?　{`n`,`m`}?　{`n`,}?	先看字符串中第一个字符是不是一个匹配。如果单独这一个字符还不够，就读入下一个字符，组成两个字符的字符串。如果还是没有发现匹配，惰性量词继续从字符串中添加字符直到发现一个匹配或者整个字符串都检查过也没有匹配。当发现一个匹配后，忽略前面已经匹配的字符串，接着从字符串的下一个字符开始进行新的匹配检查。惰性量词和贪婪量词的工作方式恰好相反。
		支配性量词	Dominant Quantifier	?+　*+　++　{`n`}+　{`n`,`m`}+　{`n`,}+	尝试匹配整个字符串。如果整个字符串不能产生匹配，不做进一步尝试。
复杂模式	分组	(捕获性)分组	Capture Group	(`...`)	通过一系列圆括号包围一系列字符、字符类以及量词来使用。它可以处理特定的字符或字符序列的重复问题。通过混合使用字符、字符类和量词，可以实现一些相当复杂的分组，同时也不介意将分组放在分组间。
		反向引用	Back-Reference		每个捕获性分组在使用后都被存放在一个特殊的地方以备将来使用，这些存储在分组中的特殊值，叫做“反向引用”。反向引用是按照从左到右遇到的左圆括号字符的顺序进行创建和编号的。在正则表达式中，反向引用可以从构造函数、转义 \`n`、$`n` 等形式中获取。
		非捕获性分组	No-Capture Group	(?:`...`)	只有捕获性分组才能创建反向引用，非捕获性分组无法创建。在较长的正则表达式中，存储反向引用会降低匹配速度。通过使用非捕获性分组，仍然可以拥有与匹配字符串序列同样的能力，而无需存储结果的开销。非捕获性分组不能使用任何形式的反向引用。
	候选		Candidate	`...`\|`...`	候选项可以是任意多个，在两两模式之间加上竖线，用于匹配可能的模式。
	前瞻	前瞻	Look-Ahead		它告诉正则表达式运算器向前看一些字符而不移动其位置。前瞻会使用到圆括号，但这不是分组，分组是不会考虑前瞻的存在（无论是正向还是负向）。若在分组中使用前瞻，无论是正向还是负向，都可以使用分组的反向引用，但该反向引用中并不包含前瞻模式串。
		正向前瞻	Forward Look-Ahead	(?=`...`)	检查的是接下来出现的是不是某个允许的特定字符集。
		负向前瞻	Negation Look-Ahead	(?!`...`)	检查的是接下来出现的是不是不应该出现的特定字符集。
	后瞻		Look-Behind		匹配 `b` 当且仅当它前面没有 `a`。
	边界		Boundary	^　$　\b　\B	用于正则表达式中以表示模式的位置。
	多行模式		Multiline	`m`　（设置多行模式为 True）	只要在正则表达式中设置多行模式为 True 即可。它会让 $ 边界匹配换行符 \n 以及字符串真正的结尾。多行模式会让 ^ 边界匹配换行符之后的位置。

Classic Regular Application

	名称	变量	正则表达式
基础模式	英文字母	Character	^[A-Za-z]+$
	英文大写字母	Lower-Char	^[A-Z]+$
	英文小写字母	Upper-Char	^[a-z]+$
	字母和数字	Char-Int	^[A-Za-z0-9]+$
	整数	Integer	^-?\d+$
	正整数	SL-Int	^[0-9][1-9][0-9]$
	非正整数	NOT-SL-Int	^((-\d+)\|(0+))$
	负整数	NT-Int	^-[0-9][1-9][0-9]$
	非负整数	NOT-NT-Int	^\d+$
	浮点数	Float-Num	^(-?\d+)(\.\d+)?$
	正浮点数	SL-Float	^(([0-9]+\.[0-9][1-9][0-9])\|([0-9][1-9][0-9]\.[0-9]+)\|([0-9][1-9][0-9]))$
	非正浮点数	NOT-SL-Float	^((-\d+(\.\d+)?)\|(0+(\.0+)?))$
	负浮点数	NT-Float	^(-(([0-9]+\.[0-9][1-9][0-9])\|([0-9][1-9][0-9]\.[0-9]+)\|([0-9][1-9][0-9])))$
	非负浮点数	NOT-NT-Float	^\d+(\.\d+)?$
	双字节字符(包括中文)	D-Byte-Char	[^\x00-\xff]
	空行	Blank-Line	\n\s*\r
实际应用	电子邮件	E-mail	^([a-z0-9])(([\-.]\|[_]+)?([a-z0-9]+))(@)([a-z0-9])((([-]+)?([a-z0-9]+))?)((.[a-z]{2,3})?(.[a-z]{2,6}))$
	网址	URL	^((https\|http\|ftp\|rtsp\|mms)://)(([0-9a-z_!~’().&=+$%-]+: )?[0-9a-z_!~’().&=+$%-]+@)?(([0-9]{1,3}\.){3}[0-9]{1,3}\|([0-9a-z_!~’()-]+\.)([0-9a-z][0-9a-z-]{0,61})?[0-9a-z]\.[a-z]{2,6})(:[0-9]{1,4})?((/?)\|(/[0-9a-z_!~*’().;?:@&=+$,%#-]+)+/?)$
	IP 地址	IP	^([01]?\d\d?\|2[0-4]\d\|25[0-5])\.([01]?\d\d?\|2[0-4]\d\|25[0-5])\.([01]?\d\d?\|2[0-4]\d\|25[0-5])\.([01]?\d\d?\|2[0-4]\d\|25[0-5])$
	身份证	ID-Card	^\d{15}\|\d{18}$
	电话号码	Phone	^\d+$
	邮政编码	Zip-Code	^[1-9]\d{5}(?!\d)$
	金额	Money	^\d+\.\d{2}$
	帐号	Account	^\w{6,15}$
	密码	Password	^\w{6,15}$
	中文	Chinese	[\u4e00-\u9fa5]

Conception & History

概念	正则表达式 Regular Expression（regexp，regex，regxp），正规表达式，正规表示式，常规表达式，“模式”。
概念	正则表达式是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。
历史	最初的正则表达式出现于理论计算机科学的自动控制理论和形式语言理论中。
	在这些领域中有对计算（自动控制）的模型和对形式语言描述与分类的研究。
	1940 年代，Warren McCulloch 与 Walter Pitts 将神经系统中的神经元描述成小而简单的自动控制元。
	稍后，数学家 Stephen Kleene 利用称之为正则集合的数学符号来描述此模型。
	Ken Thompson 将此符号系统引入编辑器 QED，然后是 Unix 上的编辑器 ed，并最终引入 grep。
	自此，正则表达式被广泛地使用于各种 Unix 或者类似 Unix 的工具，例如 Perl。

Quantifier

贪婪(简单)量词	惰性量词	支配性量词	描述
?	??	?+	零次或一次出现
*	*?	*+	零次或多次出现
+	+?	++	一次或多次出现
{`n`}	{`n`}?	{`n`}+	恰好 `n` 次出现
{`n`,`m`}	{`n`,`m`}?	{`n`,`m`}+	至少 `n` 次至多 `m` 次出现
{`n`,}	{`n`,}?	{`n`,}+	至少 `n` 次出现

Meta Character

字符	描述	字符	描述
{}	花括号	-	减号
[]	方括号	.	点号
()	圆括号	,	逗号
\	反斜线	?	问号
/	正斜线	\|	竖线
^	箭头符号	:	冒号
$	美圆符号	=	等号
*	星号	!	感叹号
+	加号

Boundary

字符	描述
^	行开头
$	行结尾
\b	单词的边界
\B	非单词的边界

Predefined Class

代码	等同于	匹配
.	[^\n\r]	除了换行和回车之外的任意字符
\d	[0-9]	数字字符
\D	[^0-9]	非数字字符
\s	[ \t\n\x0B\f\r]	空白字符
\S	[^ \t\n\x0B\f\r]	非空白字符
\w	[a-zA-Z_0-9]	单词字符（所有字母、数字和下划线）
\W	[^a-zA-Z_0-9]	非单词字符
\x`XX`		十六进制 ASCII 码字符
\`XXX`		八进制 ASCII 码字符
\u`XXXX`		十六进制 Unicode 码字符

Special Character

字符	描述
\t	制表符
\n	换行符
\r	回车符
\f	换页符
\a	alert 字符
\e	escape 字符
\c`X`	与 `X` 相对应的控制字符
\b	回退字符
\v	垂直制表符
\0	空字符

Regular Precedence Level

字符	描述	优先级
\	转义	1
()　(?:)　(?=)　[]	分组	2
*　+　?　{`n`}　{`n`,`m`}　{`n`,}	量词	3
^　$　\`anymetacharacter`	位置和顺序	4
\|	候选	5
注：从左至右求值。

^[1-9]\d{5}(?!\d)$邮编

^(($\d{3}$)|(\d{3}\-))?($0\d{2,3}$|0\d{2,3}-)?[1-9]\d{6,7}$电话

^(([0\+]\d{2,3})?(0\d{2,3}))?(\d{7,8})(-(\d{3,}))?$ //电话

^(($\d{3}$)|(\d{3}\-))?13\d{9}|15[89]\d{8}$手机

^(((13[0-9]{1})|150|151|152|153|155|156|157|158|159)+\d{8})$ 手机

semovy 2008-05-28 10:13 发表评论

Java正则表达式入门

semovy — Wed, 19 Mar 2008 09:12:00 GMT

众所周知，在程序开发中，难免会遇到需要匹配、查找、替换、判断字符串的情况发生，而这些情况有时又比较复杂，如果用纯编码方式解决，往往会浪费程序员的时间及精力。因此，学习及使用正则表达式，便成了解决这一矛盾的主要手段。
大家都知道，正则表达式是一种可以用于模式匹配和替换的规范，一个正则表达式就是由普通的字符（例如字符a到z）以及特殊字符（元字符）组成的文字模式，它用以描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。
自从jdk1.4推出java.util.regex包，就为我们提供了很好的JAVA正则表达式应用平台。

因为正则表达式是一个很庞杂的体系，所以我仅例举些入门的概念，更多的请参阅相关书籍及自行摸索。

\\ 反斜杠
\t 间隔 ('\u0009')
\n 换行 ('\u000A')
\r 回车 ('\u000D')
\d 数字等价于[0-9]
\D 非数字等价于[^0-9]
\s 空白符号 [\t\n\x0B\f\r]
\S 非空白符号 [^\t\n\x0B\f\r]
\w 单独字符 [a-zA-Z_0-9]
\W 非单独字符 [^a-zA-Z_0-9]
\f 换页符
\e Escape
\b 一个单词的边界
\B 一个非单词的边界
\G 前一个匹配的结束

^为限制开头
^java     条件限制为以Java为开头字符
$为限制结尾
java$     条件限制为以java为结尾字符
.为限制一个任意字符
java..     条件限制为java后除换行外任意两个字符

加入特定限制条件「[]」
[a-z]     条件限制在小写a to z范围中一个字符
[A-Z]     条件限制在大写A to Z范围中一个字符
[a-zA-Z] 条件限制在小写a to z或大写A to Z范围中一个字符
[0-9]     条件限制在小写0 to 9范围中一个字符
[0-9a-z] 条件限制在小写0 to 9或a to z范围中一个字符
[0-9[a-z]] 条件限制在小写0 to 9或a to z范围中一个字符(交集)

[]中加入^后加再次限制条件「[^]」
[^a-z]     条件限制在非小写a to z范围中一个字符
[^A-Z]     条件限制在非大写A to Z范围中一个字符
[^a-zA-Z] 条件限制在非小写a to z或大写A to Z范围中一个字符
[^0-9]     条件限制在非小写0 to 9范围中一个字符
[^0-9a-z] 条件限制在非小写0 to 9或a to z范围中一个字符
[^0-9[a-z]] 条件限制在非小写0 to 9或a to z范围中一个字符(交集)

在限制条件为特定字符出现0次以上时，可以使用「*」
J*     0个以上J
.*     0个以上任意字符
J.*D     J与D之间0个以上任意字符

在限制条件为特定字符出现1次以上时，可以使用「+」
J+     1个以上J
.+     1个以上任意字符
J.+D     J与D之间1个以上任意字符

在限制条件为特定字符出现有0或1次以上时，可以使用「?」
JA?     J或者JA出现

限制为连续出现指定次数字符「{a}」
J{2}     JJ
J{3}     JJJ
文字a个以上，并且「{a,}」
J{3,}     JJJ,JJJJ,JJJJJ,???(3次以上J并存)
文字个以上，b个以下「{a,b}」
J{3,5}     JJJ或JJJJ或JJJJJ
两者取一「|」
J|A     J或A
Java|Hello     Java或Hello

「()」中规定一个组合类型
比如，我查询index中间的数据，可写作(.+?)

在使用Pattern.compile函数时，可以加入控制正则表达式的匹配行为的参数：
Pattern Pattern.compile(String regex, int flag)

flag的取值范围如下：
Pattern.CANON_EQ     当且仅当两个字符的"正规分解(canonical decomposition)"都完全相同的情况下，才认定匹配。比如用了这个标志之后，表达式"a\u030A"会匹配"?"。默认情况下，不考虑"规范相等性(canonical equivalence)"。
Pattern.CASE_INSENSITIVE(?i)     默认情况下，大小写不明感的匹配只适用于US-ASCII字符集。这个标志能让表达式忽略大小写进行匹配。要想对Unicode字符进行大小不明感的匹配，只要将UNICODE_CASE与这个标志合起来就行了。
Pattern.COMMENTS(?x)     在这种模式下，匹配时会忽略(正则表达式里的)空格字符(译者注：不是指表达式里的"\\s"，而是指表达式里的空格，tab，回车之类)。注释从#开始，一直到这行结束。可以通过嵌入式的标志来启用Unix行模式。
Pattern.DOTALL(?s)     在这种模式下，表达式'.'可以匹配任意字符，包括表示一行的结束符。默认情况下，表达式'.'不匹配行的结束符。
Pattern.MULTILINE
(?m)     在这种模式下，'^'和'$'分别匹配一行的开始和结束。此外，'^'仍然匹配字符串的开始，'$'也匹配字符串的结束。默认情况下，这两个表达式仅仅匹配字符串的开始和结束。
Pattern.UNICODE_CASE
(?u)     在这个模式下，如果你还启用了CASE_INSENSITIVE标志，那么它会对Unicode字符进行大小写不明感的匹配。默认情况下，大小写不敏感的匹配只适用于US-ASCII字符集。
Pattern.UNIX_LINES(?d)     在这个模式下，只有'\n'才被认作一行的中止，并且与'.'，'^'，以及'$'进行匹配。

抛开空泛的概念，下面写出几个简单的Java正则用例：

◆比如，在字符串包含验证时

//查找以Java开头,任意结尾的字符串
Pattern pattern = Pattern.compile("^Java.*");
Matcher matcher = pattern.matcher("Java不是人");
boolean b= matcher.matches();
//当条件满足时，将返回true，否则返回false
System.out.println(b);

◆以多条件分割字符串时
Pattern pattern = Pattern.compile("[, |]+");
String[] strs = pattern.split("Java Hello World Java,Hello,,World|Sun");
for (int i=0;i     System.out.println(strs[i]);
}

◆文字替换（首次出现字符）
Pattern pattern = Pattern.compile("正则表达式");
Matcher matcher = pattern.matcher("正则表达式 Hello World,正则表达式 Hello World");
//替换第一个符合正则的数据
System.out.println(matcher.replaceFirst("Java"));

◆文字替换（全部）
Pattern pattern = Pattern.compile("正则表达式");
Matcher matcher = pattern.matcher("正则表达式 Hello World,正则表达式 Hello World");
//替换第一个符合正则的数据
System.out.println(matcher.replaceAll("Java"));

◆文字替换（置换字符）
Pattern pattern = Pattern.compile("正则表达式");
Matcher matcher = pattern.matcher("正则表达式 Hello World,正则表达式 Hello World ");
StringBuffer sbr = new StringBuffer();
while (matcher.find()) {
    matcher.appendReplacement(sbr, "Java");
}
matcher.appendTail(sbr);
System.out.println(sbr.toString());

◆验证是否为邮箱地址

String str="ceponline@yahoo.com.cn";
Pattern pattern = Pattern.compile("[\\w\\.\\-]+@([\\w\\-]+\\.)+[\\w\\-]+",Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher(str);
System.out.println(matcher.matches());

◆去除html标记
Pattern pattern = Pattern.compile("<.+?>", Pattern.DOTALL);
Matcher matcher = pattern.matcher("主页");
String string = matcher.replaceAll("");
System.out.println(string);

◆查找html中对应条件字符串
Pattern pattern = Pattern.compile("href=\"(.+?)\"");
Matcher matcher = pattern.matcher("主页");
if(matcher.find())
System.out.println(matcher.group(1));
}

◆截取http://地址
//截取url
Pattern pattern = Pattern.compile("(http://|https://){1}[\\w\\.\\-/:]+");
Matcher matcher = pattern.matcher("dsdsdsfdf");
StringBuffer buffer = new StringBuffer();
while(matcher.find()){
    buffer.append(matcher.group());
    buffer.append("\r\n");
System.out.println(buffer.toString());
}

◆替换指定{}中文字

String str = "Java目前的发展史是由{0}年-{1}年";
String[][] object={new String[]{"\\{0\\}","1995"},new String[]{"\\{1\\}","2007"}};
System.out.println(replace(str,object));

public static String replace(final String sourceString,Object[] object) {
            String temp=sourceString;
            for(int i=0;i                       String[] result=(String[])object[i];
               Pattern    pattern = Pattern.compile(result[0]);
               Matcher matcher = pattern.matcher(temp);
               temp=matcher.replaceAll(result[1]);
            }
            return temp;
}

◆以正则条件查询指定目录下文件

//用于缓存文件列表
        private ArrayList files = new ArrayList();
        //用于承载文件路径
        private String _path;
        //用于承载未合并的正则公式
        private String _regexp;

        class MyFileFilter implements FileFilter {

            /**
               * 匹配文件名称
               */
            public boolean accept(File file) {
                try {
                  Pattern pattern = Pattern.compile(_regexp);
                  Matcher match = pattern.matcher(file.getName());
                  return match.matches();
                } catch (Exception e) {
                  return true;
                }
            }
            }

        /**
        * 解析输入流
        * @param inputs
        */
        FilesAnalyze (String path,String regexp){
            getFileName(path,regexp);
        }

        /**
        * 分析文件名并加入files
        * @param input
        */
        private void getFileName(String path,String regexp) {
            //目录
              _path=path;
              _regexp=regexp;
            File directory = new File(_path);
            File[] filesFile = directory.listFiles(new MyFileFilter());
            if (filesFile == null) return;
            for (int j = 0; j < filesFile.length; j++) {
                files.add(filesFile[j]);
            }
            return;
            }

        /**
         * 显示输出信息
         * @param out
         */
        public void print (PrintStream out) {
            Iterator elements = files.iterator();
            while (elements.hasNext()) {
                File file=(File) elements.next();
                    out.println(file.getPath());
            }
        }

        public static void output(String path,String regexp) {

            FilesAnalyze fileGroup1 = new FilesAnalyze(path,regexp);
            fileGroup1.print(System.out);
        }

        public static void main (String[] args) {
            output("C:\\","[A-z|.]*");
        }

Java正则的功用还有很多，事实上只要是字符处理，就没有正则做不到的事情存在。（当然，正则解释时较耗时间就是了|||……）

semovy 2008-03-19 17:12 发表评论

Java正则表达式详解[转]

semovy — Fri, 31 Aug 2007 08:22:00 GMT

如果你曾经用过Perl或任何其他内建正则表达式支持的语言，你一定知道用正则表达式处理文本和匹配模式是多么简单。如果你不熟悉这个术语，那么“正则表达式”（Regular Expression）就是一个字符构成的串，它定义了一个用来搜索匹配字符串的模式。

许多语言，包括Perl、PHP、Python、JavaScript和JScript，都支持用正则表达式处理文本，一些文本编辑器用正则表达式实现高级“搜索-替换”功能。那么Java又怎样呢？本文写作时，一个包含了用正则表达式进行文本处理的Java规范需求（Specification Request）已经得到认可，你可以期待在JDK的下一版本中看到它。

然而，如果现在就需要使用正则表达式，又该怎么办呢？你可以从Apache.org下载源代码开放的Jakarta-ORO库。本文接下来的内容先简要地介绍正则表达式的入门知识，然后以Jakarta-ORO API为例介绍如何使用正则表达式。

一、正则表达式基础知识

我们先从简单的开始。假设你要搜索一个包含字符“cat”的字符串，搜索用的正则表达式就是“cat”。如果搜索对大小写不敏感，单词“catalog”、“Catherine”、“sophisticated”都可以匹配。也就是说：

1.1 句点符号

假设你在玩英文拼字游戏，想要找出三个字母的单词，而且这些单词必须以“t”字母开头，以“n”字母结束。另外，假设有一本英文字典，你可以用正则表达式搜索它的全部内容。要构造出这个正则表达式，你可以使用一个通配符——句点符号“.”。这样，完整的表达式就是“t.n”，它匹配“tan”、“ten”、“tin”和“ton”，还匹配“t#n”、“tpn”甚至“t n”，还有其他许多无意义的组合。这是因为句点符号匹配所有字符，包括空格、Tab字符甚至换行符：

1.2 方括号符号

为了解决句点符号匹配范围过于广泛这一问题，你可以在方括号（“[]”）里面指定看来有意义的字符。此时，只有方括号里面指定的字符才参与匹配。也就是说，正则表达式“t[aeio]n”只匹配“tan”、“Ten”、“tin”和“ton”。但“Toon”不匹配，因为在方括号之内你只能匹配单个字符：

1.3 “或”符号

如果除了上面匹配的所有单词之外，你还想要匹配“toon”，那么，你可以使用“|”操作符。“|”操作符的基本意义就是“或”运算。要匹配“toon”，使用“t(a|e|i|o|oo)n”正则表达式。这里不能使用方扩号，因为方括号只允许匹配单个字符；这里必须使用圆括号“()”。圆括号还可以用来分组，具体请参见后面介绍。

1.4 表示匹配次数的符号

表一显示了表示匹配次数的符号，这些符号用来确定紧靠该符号左边的符号出现的次数：

假设我们要在文本文件中搜索美国的社会安全号码。这个号码的格式是999-99-9999。用来匹配它的正则表达式如图一所示。在正则表达式中，连字符（“-”）有着特殊的意义，它表示一个范围，比如从0到9。因此，匹配社会安全号码中的连字符号时，它的前面要加上一个转义字符“\”。

图一：匹配所有123-12-1234形式的社会安全号码

假设进行搜索的时候，你希望连字符号可以出现，也可以不出现——即，999-99-9999和999999999都属于正确的格式。这时，你可以在连字符号后面加上“？”数量限定符号，如图二所示：

图二：匹配所有123-12-1234和123121234形式的社会安全号码

下面我们再来看另外一个例子。美国汽车牌照的一种格式是四个数字加上二个字母。它的正则表达式前面是数字部分“[0-9]{4}”，再加上字母部分“[A-Z]{2}”。图三显示了完整的正则表达式。

图三：匹配典型的美国汽车牌照号码，如8836KV

1.5 “否”符号

“^”符号称为“否”符号。如果用在方括号内，“^”表示不想要匹配的字符。例如，图四的正则表达式匹配所有单词，但以“X”字母开头的单词除外。

图四：匹配所有单词，但“X”开头的除外

1.6 圆括号和空白符号

假设要从格式为“June 26, 1951”的生日日期中提取出月份部分，用来匹配该日期的正则表达式可以如图五所示：

图五：匹配所有Moth DD,YYYY格式的日期

新出现的“\s”符号是空白符号，匹配所有的空白字符，包括Tab字符。如果字符串正确匹配，接下来如何提取出月份部分呢？只需在月份周围加上一个圆括号创建一个组，然后用ORO API（本文后面详细讨论）提取出它的值。修改后的正则表达式如图六所示：

图六：匹配所有Month DD,YYYY格式的日期，定义月份值为第一个组

1.7 其它符号

为简便起见，你可以使用一些为常见正则表达式创建的快捷符号。如表二所示：

表二：常用符号

例如，在前面社会安全号码的例子中，所有出现“[0-9]”的地方我们都可以使用“\d”。修改后的正则表达式如图七所示：

图七：匹配所有123-12-1234格式的社会安全号码

二、Jakarta-ORO库

有许多源代码开放的正则表达式库可供Java程序员使用，而且它们中的许多支持Perl 5兼容的正则表达式语法。我在这里选用的是Jakarta-ORO正则表达式库，它是最全面的正则表达式API之一，而且它与Perl 5正则表达式完全兼容。另外，它也是优化得最好的API之一。

Jakarta-ORO库以前叫做OROMatcher，Daniel Savarese大方地把它赠送给了Jakarta Project。你可以按照本文最后参考资源的说明下载它。

我首先将简要介绍使用Jakarta-ORO库时你必须创建和访问的对象，然后介绍如何使用Jakarta-ORO API。

▲ PatternCompiler对象

首先，创建一个Perl5Compiler类的实例，并把它赋值给PatternCompiler接口对象。Perl5Compiler是PatternCompiler接口的一个实现，允许你把正则表达式编译成用来匹配的Pattern对象。

▲ Pattern对象

要把正则表达式编译成Pattern对象，调用compiler对象的compile()方法，并在调用参数中指定正则表达式。例如，你可以按照下面这种方式编译正则表达式“t[aeio]n”：

默认情况下，编译器创建一个大小写敏感的模式（pattern）。因此，上面代码编译得到的模式只匹配“tin”、“tan”、 “ten”和“ton”，但不匹配“Tin”和“taN”。要创建一个大小写不敏感的模式，你应该在调用编译器的时候指定一个额外的参数：

创建好Pattern对象之后，你就可以通过PatternMatcher类用该Pattern对象进行模式匹配。

▲ PatternMatcher对象

PatternMatcher对象根据Pattern对象和字符串进行匹配检查。你要实例化一个Perl5Matcher类并把结果赋值给PatternMatcher接口。Perl5Matcher类是PatternMatcher接口的一个实现，它根据Perl 5正则表达式语法进行模式匹配：

使用PatternMatcher对象，你可以用多个方法进行匹配操作，这些方法的第一个参数都是需要根据正则表达式进行匹配的字符串：

· boolean matches(String input, Pattern pattern)：当输入字符串和正则表达式要精确匹配时使用。换句话说，正则表达式必须完整地描述输入字符串。

· boolean matchesPrefix(String input, Pattern pattern)：当正则表达式匹配输入字符串起始部分时使用。

· boolean contains(String input, Pattern pattern)：当正则表达式要匹配输入字符串的一部分时使用（即，它必须是一个子串）。

另外，在上面三个方法调用中，你还可以用PatternMatcherInput对象作为参数替代String对象；这时，你可以从字符串中最后一次匹配的位置开始继续进行匹配。当字符串可能有多个子串匹配给定的正则表达式时，用PatternMatcherInput对象作为参数就很有用了。用PatternMatcherInput对象作为参数替代String时，上述三个方法的语法如下：

· boolean matches(PatternMatcherInput input, Pattern pattern)

· boolean matchesPrefix(PatternMatcherInput input, Pattern pattern)

· boolean contains(PatternMatcherInput input, Pattern pattern)

三、应用实例

下面我们来看看Jakarta-ORO库的一些应用实例。

3.1 日志文件处理

任务：分析一个Web服务器日志文件，确定每一个用户花在网站上的时间。在典型的BEA WebLogic日志文件中，日志记录的格式如下：

分析这个日志记录，可以发现，要从这个日志文件提取的内容有两项：IP地址和页面访问时间。你可以用分组符号（圆括号）从日志记录提取出IP地址和时间标记。

首先我们来看看IP地址。IP地址有4个字节构成，每一个字节的值在0到255之间，各个字节通过一个句点分隔。因此，IP地址中的每一个字节有至少一个、最多三个数字。图八显示了为IP地址编写的正则表达式：

图八：匹配IP地址

IP地址中的句点字符必须进行转义处理（前面加上“\”），因为IP地址中的句点具有它本来的含义，而不是采用正则表达式语法中的特殊含义。句点在正则表达式中的特殊含义本文前面已经介绍。

日志记录的时间部分由一对方括号包围。你可以按照如下思路提取出方括号里面的所有内容：首先搜索起始方括号字符（“[”），提取出所有不超过结束方括号字符（“]”）的内容，向前寻找直至找到结束方括号字符。图九显示了这部分的正则表达式。

图九：匹配至少一个字符，直至找到“]”

现在，把上述两个正则表达式加上分组符号（圆括号）后合并成单个表达式，这样就可以从日志记录提取出IP地址和时间。注意，为了匹配“- -”（但不提取它），正则表达式中间加入了“\s-\s-\s”。完整的正则表达式如图十所示。

图十：匹配IP地址和时间标记

现在正则表达式已经编写完毕，接下来可以编写使用正则表达式库的Java代码了。

为使用Jakarta-ORO库，首先创建正则表达式字符串和待分析的日志记录字符串：

这里使用的正则表达式与图十的正则表达式差不多完全相同，但有一点例外：在Java中，你必须对每一个向前的斜杠（“\”）进行转义处理。图十不是Java的表示形式，所以我们要在每个“\”前面加上一个“\”以免出现编译错误。遗憾的是，转义处理过程很容易出现错误，所以应该小心谨慎。你可以首先输入未经转义处理的正则表达式，然后从左到右依次把每一个“\”替换成“\\”。如果要复检，你可以试着把它输出到屏幕上。

初始化字符串之后，实例化PatternCompiler对象，用PatternCompiler编译正则表达式创建一个Pattern对象：

现在，创建PatternMatcher对象，调用PatternMatcher接口的contain()方法检查匹配情况：

接下来，利用PatternMatcher接口返回的MatchResult对象，输出匹配的组。由于logEntry字符串包含匹配的内容，你可以看到类如下面的输出：

3.2 HTML处理实例一

下面一个任务是分析HTML页面内FONT标记的所有属性。HTML页面内典型的FONT标记如下所示：

程序将按照如下形式，输出每一个FONT标记的属性：

在这种情况下，我建议你使用两个正则表达式。第一个如图十一所示，它从字体标记提取出“"face="Arial, Serif" size="+2" color="red"”。

图十一：匹配FONT标记的所有属性

第二个正则表达式如图十二所示，它把各个属性分割成名字-值对。

图十二：匹配单个属性，并把它分割成名字-值对

分割结果为：

现在我们来看看完成这个任务的Java代码。首先创建两个正则表达式字符串，用Perl5Compiler把它们编译成Pattern对象。编译正则表达式的时候，指定Perl5Compiler.CASE_INSENSITIVE_MASK选项，使得匹配操作不区分大小写。

接下来，创建一个执行匹配操作的Perl5Matcher对象。

假设有一个String类型的变量html，它代表了HTML文件中的一行内容。如果html字符串包含FONT标记，匹配器将返回true。此时，你可以用匹配器对象返回的MatchResult对象获得第一个组，它包含了FONT的所有属性：

接下来创建一个PatternMatcherInput对象。这个对象允许你从最后一次匹配的位置开始继续进行匹配操作，因此，它很适合于提取FONT标记内属性的名字-值对。创建PatternMatcherInput对象，以参数形式传入待匹配的字符串。然后，用匹配器实例提取出每一个FONT的属性。这通过指定PatternMatcherInput对象（而不是字符串对象）为参数，反复地调用PatternMatcher对象的contains()方法完成。PatternMatcherInput对象之中的每一次迭代将把它内部的指针向前移动，下一次检测将从前一次匹配位置的后面开始。

本例的输出结果如下：

3.3 HTML处理实例二

下面我们来看看另一个处理HTML的例子。这一次，我们假定Web服务器从widgets.acme.com移到了newserver.acme.com。现在你要修改一些页面中的链接：

执行这个搜索的正则表达式如图十三所示：

图十三：匹配修改前的链接

如果能够匹配这个正则表达式，你可以用下面的内容替换图十三的链接：

注意#字符的后面加上了$1。Perl正则表达式语法用$1、$2等表示已经匹配且提取出来的组。图十三的表达式把所有作为一个组匹配和提取出来的内容附加到链接的后面。

现在，返回Java。就象前面我们所做的那样，你必须创建测试字符串，创建把正则表达式编译到Pattern对象所必需的对象，以及创建一个PatternMatcher对象：

接下来，用com.oroinc.text.regex包Util类的substitute()静态方法进行替换，输出结果字符串：

Util.substitute()方法的语法如下：

这个调用的前两个参数是以前创建的PatternMatcher和Pattern对象。第三个参数是一个Substiution对象，它决定了替换操作如何进行。本例使用的是Perl5Substitution对象，它能够进行Perl5风格的替换。第四个参数是想要进行替换操作的字符串，最后一个参数允许指定是否替换模式的所有匹配子串（Util.SUBSTITUTE_ALL），或只替换指定的次数。

【结束语】在这篇文章中，我为你介绍了正则表达式的强大功能。只要正确运用，正则表达式能够在字符串提取和文本修改中起到很大的作用。另外，我还介绍了如何在Java程序中通过Jakarta-ORO库利用正则表达式。至于最终采用老式的字符串处理方式（使用StringTokenizer，charAt，和substring），还是采用正则表达式，这就有待你自己决定了。

semovy 2007-08-31 16:22 发表评论

概念及其作用

semovy — Wed, 14 Mar 2007 03:31:00 GMT

概念及其作用

           正则表达式的英文是regular expression,正则表达式，就是用某种模式去匹配一类字符串的一个公式。
           正则表达式具有如下作用：
            1）测试字符串的某种模式。eg. 检验在某个字符串中是否存在一个电话号码和一个身份证号码；
            2）替换文本。eg. 在文本中使用一个正则表达式来标识特定文字，将其替换成其他文字；
            3）根据指定的模式从字符串中提取一个子字符串。

2. 元字符及描述

*元字符*		描述

`.`		匹配任何单个字符。例如正则表达式`r.t`匹配这些字符串：rat、rut、r t，但是不匹配root。
`$`		匹配行结束符。例如正则表达式`weasel$` 能够匹配字符串"He's a weasel"的末尾，但是不能匹配字符串"They are a bunch of weasels."。
^		匹配一行的开始。例如正则表达式`^When in`能够匹配字符串"When in the course of human events"的开始，但是不能匹配"What and When in the"。
*``**		匹配0或多个正好在它之前的那个字符。例如"zo*"可以匹配"z"和"zoo"等。
`\`		这是引用符，用来将这里列出的这些元字符当作普通的字符来进行匹配。例如正则表达式`\$`被用来匹配美元符号，而不是行尾，类似的，正则表达式`\.`用来匹配点字符，而不是任何字符的通配符。
`[ ]` `[c 1 -c 2 ]` `[^c 1 -c 2 ]`		匹配括号中的任何一个字符。例如正则表达式`r[aou]t`匹配rat、rot和rut，但是不匹配ret。可以在括号中使用连字符-来指定字符的区间，例如正则表达式`[0-9]`可以匹配任何数字字符；还可以制定多个区间，例如正则表达式`[A-Za-z]`可以匹配任何大小写字母。另一个重要的用法是“排除”，要想匹配除了指定区间之外的字符——也就是所谓的补集——在左边的括号和第一个字符之间使用^字符，例如正则表达式`[^269A-Z]` 将匹配除了2、6、9和所有大写字母之外的任何字符。
`\< \>`		匹配词（word）的开始（\<）和结束（\>）。例如正则表达式`\`能够匹配字符串"for the wise"中的"the"，但是不能匹配字符串"otherwise"中的"the"。注意：这个元字符不是所有的软件都支持的。
``		将 $ 和 $ 之间的表达式定义为“组”（group），并且将匹配这个表达式的字符保存到一个临时区域（一个正则表达式中最多可以保存9个），它们可以用 `\1` 到`\9` 的符号来引用。
`\|`		将两个匹配条件进行逻辑“或”（Or）运算。例如正则表达式`(him\|her)` 匹配"it belongs to him"和"it belongs to her"，但是不能匹配"it belongs to them."。注意：这个元字符不是所有的软件都支持的。
`+`		匹配1或多个正好在它之前的那个字符。例如正则表达式`9+`匹配9、99、999等。注意：这个元字符不是所有的软件都支持的。
`?`		匹配0或1个正好在它之前的那个字符。例如，abc?能匹配abc和ab，注意：这个元字符不是所有的软件都支持的。
`\{` i `\}` `\{` i `,` j `\}`		匹配指定数目的字符，这些字符是在它之前的表达式定义的。例如正则表达式`A[0-9]\{3\}` 能够匹配字符"A"后面跟着正好3个数字字符的串，例如A123、A348等，但是不匹配A1234。而正则表达式`[0-9]\{4,6\}` 匹配连续的任意4个、5个或者6个数字字符。注意：这个元字符不是所有的软件都支持的。

    3.   RegExp对象的属性和方法
         1）简述
             该对象用来完成有关正则表达式的操作和功能；每一条正则表达式模式对应一个RegExp实例，创建RegExp对象的方式如下：
             显式构造函数：new ReExp("pattern"[,"flags"]);
             隐式构造函数（此方法比较常用），采用纯文本方式：/pattern/[flags].
             其中pattern部分为要使用的正则表达式模式文本，是必须的，flags部分设置正则表达式的标志信息，为可选项。flags可以是如下标记的组合：
            g是全局标志。若设置了这个标志，对某个文本执行搜索和替换操作时，将对文本所有匹配的部分起作用，否则，则仅搜索和替换最早匹配的内容;

            i是忽略大小写标志;
            m是多行标志.
            eg.

< script language = " javascript " >

script >

         输出结果如下:
           regex: /amigo/
           找到指定字符串amigo
           找到指定字符串amigo
        注意: 由于JavaScript字符串中"\"是一个转义字符,因此显式构造函数创建RegExp实例对象时,应将原是政则表达式的"\"用"\\"替换.
        eg.

< script language = " javascript " >

script >

       输出结果如下:
        regex1: /\d{3}/
        regex2: /\d{3}/
        由于正则表达式模式文本中的转义字符也是"\",如果正则表达式中要匹配原义字符"\",在正则表达式模式文本中要以"\\"表示,当显式的方式来表示时,要用"\\\\"来表示原义字符"\".
      2).    属性
          1) index: 当前表达式模式首次匹配内容的开始位置,从0开始计数, 初始值为-1;
          2) input:   返回当前所作用的字符串;
          3)lastIndex:   是当前表达式模式首次匹配内容中最后一个字符的下一个位置;
          4)lastMatch:   是当前表达式模式的最后一个匹配字符串;
          5)lastParen:   是当前表达式模式中最后的子匹配所匹配的子字符串;
          6)leftContext:   当前表达式模式最后一个匹配字符串左边的所有内容;
          7)rightContext:  当前表达式模式最后一个匹配字符串右边的所有内容;
          上面所说的属性为其静态属性,下面是其实例属性:
          1) global:   返回标志g的状态;
          2) ignoreCase:   返回标志i的状态;
          3) multiLine: 返回标志m的状态;
          4) source: 返回创建RegExp对象实例时指定的表达式文本字符串.
      3) 方法
            test方法

            exe方法: 语法格式为exex(str).该方法使用创建RegExp对象实例时所指定的表达式模式对一个字符串进行搜索.
            compile方法: 语法格式为compile("pattern"[,"flags"]),该方法可以更换RegExp对象实例所使用的表达式模式,并将新的表达式编译为内部格式,从而使以后的匹配过程执行更快.
            综合举例:

< script language = " javascript " >

script >

         输出结果如下:
          source: (\d{8})amigo(\d{4})
         RegExp.index: 0
         RegExp.lastIndex: 17
         RegExp.lastParen: 1121
         RegExp.leftContext:
         RegExp.rightContext;  happy
         attr.index: 0
         attr.lastIndex: 17
    4.   常用验证收集
         1) 匹配中文字符的正则表达式： [\u4e00-\u9fa5]

2) 匹配双字节字符(包括汉字在内)：[^\x00-\xff]

3) 匹配空白行的正则表达式：\n\s*\r

4) 匹配HTML标记的正则表达式：<(\S*?)[^>]*>.*?|<.*? />
评注：上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力

5) 匹配首尾空白字符的正则表达式：^\s*|\s*$
评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式

6) 匹配Email地址的正则表达式：\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*

7) 匹配网址URL的正则表达式：[a-zA-z]+://[^\s]*
评注：上面这个基本可以满足需求

8) 匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$

9) 匹配国内电话号码：\d{3}-\d{8}|\d{4}-\d{7}
评注：匹配形式如 0511-4405222 或 021-87888822

10) 匹配腾讯QQ号：[1-9][0-9]{4,}
评注：腾讯QQ号从10000开始

11) 匹配中国邮政编码：[1-9]\d{5}(?!\d) (注: 中国邮政编码为6位数字)

12) 匹配身份证：\d{15}|\d{18} (注: 中国的身份证为15位或18位)

13) 匹配ip地址：\d+\.\d+\.\d+\.\d+

         14) 匹配特定数字：
            ^[1-9]\d*$　　 //匹配正整数
            ^-[1-9]\d*$ 　 //匹配负整数
            ^-?[1-9]\d*$　　 //匹配整数
            ^[1-9]\d*|0$　 //匹配非负整数（正整数 + 0）
            ^-[1-9]\d*|0$　　 //匹配非正整数（负整数 + 0）
            ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$　　 //匹配正浮点数
            ^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$　 //匹配负浮点数
            ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$　 //匹配浮点数
            ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$　　 //匹配非负浮点数（正浮点数 + 0）
            ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$　　//匹配非正浮点数（负浮点数 + 0）
            评注：处理大量数据时有用，具体应用时注意修正

         15) 匹配特定字符串：
            ^[A-Za-z]+$　　//匹配由26个英文字母组成的字符串
            ^[A-Z]+$　　//匹配由26个英文字母的大写组成的字符串
            ^ [a-z]+$　　//匹配由26个英文字母的小写组成的字符串
            ^[A-Za-z0-9]+$　　//匹配由数字和26个英文字母组成的字符串
            ^\w+$　　//匹配由数字、26个英文字母或者下划线组成的字符串
            评注：最基本也是最常用的一些表达式

semovy 2007-03-14 11:31 发表评论