別被下面那些復雜的表達式嚇倒,只要跟著我一步一步來,你會發現正則表達式其實并沒有你想像中的那么困難。當然,如果你看完了這篇教程之后,發現自己明白了很多,卻又幾乎什么都記不得,那也是很正常的——我認為,沒接觸過正則表達式的人在看完這篇教程后,能把提到過的語法記住80%以上的可能性為零。這里只是讓你明白基本的原理,以后你還需要多練習,多使用,才能熟練掌握正則表達式。
除了作為入門教程之外,本文還試圖成為可以在日常工作中使用的正則表達式語法參考手冊。就作者本人的經歷來說,這個目標還是完成得不錯的——你看,我自己也沒能把所有的東西記下來,不是嗎?
清除格式 文本格式約定:專業術語 元字符/語法格式 正則表達式 正則表達式中的一部分(用于分析) 對其進行匹配的源字符串 對正則表達式或其中一部分的說明
隱藏邊注 文右邊有一些注釋,主要是用來提供一些相關信息,或者給沒有程序員背景的讀者解釋一些基本概念,通常可以忽略。
學習正則表達式的最好方法是從例子開始,理解例子之后再自己對例子進行修改,實驗。下面給出了不少簡單的例子,并對它們作了詳細的說明。
假設你在一篇英文小說里查找hi,你可以使用正則表達式hi。
這幾乎是最簡單的正則表達式了,它可以精確匹配這樣的字符串:由兩個字符組成,前一個字符是h,后一個是i。通常,處理正則表達式的工具會提供一個忽略大小寫的選項,如果選中了這個選項,它可以匹配hi,HI,Hi,hI這四種情況中的任意一種。
不幸的是,很多單詞里包含hi這兩個連續的字符,比如him,history,high等等。用hi來查找的話,這里邊的hi也會被找出來。如果要精確地查找hi這個單詞的話,我們應該使用hi。
是正則表達式規定的一個特殊代碼(好吧,某些人叫它元字符,metacharacter),代表著單詞的開頭或結尾,也就是單詞的分界處。雖然通常英文的單詞是由空格,標點符號或者換行來分隔的,但是并不匹配這些單詞分隔字符中的任何一個,它只匹配一個位置。
假如你要找的是hi后面不遠處跟著一個Lucy,你應該用hi.*Lucy。
這里,.是另一個元字符,匹配除了換行符以外的任意字符。*同樣是元字符,不過它代表的不是字符,也不是位置,而是數量——它指定*前邊的內容可以連續重復出現任意次以使整個表達式得到匹配。因此,.*連在一起就意味著任意數量的不包含換行的字符。現在hi.*Lucy的意思就很明顯了:先是一個單詞hi,然后是任意個任意字符(但不能是換行),最后是Lucy這個單詞。
如果同時使用其它元字符,我們就能構造出功能更強大的正則表達式。比如下面這個例子:
0dd-dddddddd匹配這樣的字符串:以0開頭,然后是兩個數字,然后是一個連字號“-”,最后是8個數字(也就是中國的電話號碼。當然,這個例子只能匹配區號為3位的情形)。
這里的d是個新的元字符,匹配一位數字(0,或1,或2,或……)。-不是元字符,只匹配它本身——連字符或者減號。
為了避免那么多煩人的重復,我們也可以這樣寫這個表達式:0d{2}-d{8}。 這里d后面的{2}({8})的意思是前面d必須連續重復匹配2次(8次)。
元字符
現在你已經知道幾個很有用的元字符了,如,.,*,還有d.正則表達式里還有更多的元字符,比如s匹配任意的空白符,包括空格,制表符(Tab),換行符,中文全角空格等。w匹配字母或數字或下劃線或漢字等。
下面來看看更多的例子:
aw*匹配以字母a開頭的單詞——先是某個單詞開始處(),然后是字母a,然后是任意數量的字母或數字(w*),最后是單詞結束處()。
d+匹配1個或更多連續的數字。這里的+是和*類似的元字符,不同的是*匹配重復任意次(可能是0次),而+則匹配重復1次或更多次。
w{6} 匹配剛好6個字母/數字的單詞。
表1.常用的元字符代碼說明.匹配除換行符以外的任意字符w匹配字母或數字或下劃線或漢字s匹配任意的空白符d匹配數字匹配單詞的開始或結束^匹配字符串的開始$匹配字符串的結束
元字符^(和數字6在同一個鍵位上的符號)和$都匹配一個位置,這和有點類似。^匹配你要用來查找的字符串的開頭,$匹配結尾。這兩個代碼在驗證輸入的內容時非常有用,比如一個網站如果要求你填寫的QQ號必須為5位到12位數字時,可以使用:^d{5,12}$。
這里的{5,12}和前面介紹過的{2}是類似的,只不過{2}匹配只能不多不少重復2次,{5,12}則是重復的次數不能少于5次,不能多于12次,否則都不匹配。
因為使用了^和$,所以輸入的整個字符串都要用來和d{5,12}來匹配,也就是說整個輸入必須是5到12個數字,因此如果輸入的QQ號能匹配這個正則表達式的話,那就符合要求了。
和忽略大小寫的選項類似,有些正則表達式處理工具還有一個處理多行的選項。如果選中了這個選項,^和$的意義就變成了匹配行的開始處和結束處。
字符轉義如果你想查找元字符本身的話,比如你查找.,或者*,就出現了問題:你沒辦法指定它們,因為它們會被解釋成別的意思。這時你就得使用來取消這些字符的特殊意義。因此,你應該使用.和*。當然,要查找本身,你也得用.
例如:unibetter.com匹配unibetter.com,C:Windows匹配C:Windows。
重復你已經看過了前面的*,+,{2},{5,12}這幾個匹配重復的方式了。下面是正則表達式中所有的限定符(指定數量的代碼,例如*,{5,12}等):
表2.常用的限定符代碼/語法說明*重復零次或更多次+重復一次或更多次?重復零次或一次{n}重復n次{n,}重復n次或更多次{n,m}重復n到m次
下面是一些使用重復的例子:
Windowsd+匹配Windows后面跟1個或更多數字
^w+匹配一行的第一個單詞(或整個字符串的第一個單詞,具體匹配哪個意思得看選項設置)