正則表達式貪婪匹配模式,對于初學者,往往也很容易出錯。有時候需要匹配一個段代碼內容,發(fā)現(xiàn)匹配與想要不一致。發(fā)現(xiàn)原來,跟貪婪模式有關系。如下,我們看下例子:
什么是貪婪模式
字符串有: “<h3>abd</h3><h3>bcd</h3>”,我們想匹配<h3>…</h3>內容,正則表達式如下:
1、h3開頭與結尾,”<h3>待添加</h3>” <h3></h3>都作為普通字符
2、中間可以出現(xiàn)任意字符,個數(shù)可以是0個或者多個,正則表達式可以用:.* ,“.”代表任意字符,默認模式不匹配換行,”*” 重復前面字符0個或者多個。
3、最終我們考慮結果將是:”<h3>.*</h3>” ,也可以是:”<h3>.{0,}</h3>” {}代表,重復前面指定個數(shù)字符,以下用到是,正則表達式調試工具截圖,軟件可以看:正則表達式工具推薦(學習工具、測試工具)
2種結果都一樣,這是我們不希望得到的,我們希望從左邊開始,第一個出現(xiàn)</h3>,就開始匹配。以上這種模式,是貪婪模式,也是正則表達式默認以這個方法匹配。表示重復字符,操作符,默認都是貪婪模式,如:.*,.+,.{1,},.{0,} 都會匹配最大長度字符。正則表達式元字符,量詞默認首先最大匹配字符串,這些量詞有:+,*,?,{m,n} 。一開始匹配,就直接匹配到最長字符串。
什么是懶惰模式
既然上面幾種,表示字符重復個數(shù),元字符默認都是貪婪模式。如果,我們需要最小長度匹配,也就是懶惰模式,怎么樣寫正則表達式呢?其實,正則表達式里面通用方法是,在表示重復字符元字符,后面加多一個”?”字符即可。上面正則表達式可以寫成:”<h3>.*?</h3>”,或者”<h3>.{0,}?</h3>” 都可以。
懶惰模式,就匹配到我們需要字符串了。
總結:正則表達式,表示字符串重復個數(shù)元字符,’?,+,*,{}’ 默認都會選擇貪婪模式,會最大長度匹配字符串,而要切換到懶惰模式,就只是在該元字符,后面加多一個”?” 即可切換到非貪婪模式(懶惰模式)。