久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

    <p id="vfaef"><kbd id="vfaef"></kbd></p>

    
    
    <pre id="vfaef"><u id="vfaef"></u></pre>

      <thead id="vfaef"><input id="vfaef"></input></thead>

    1. 站長(zhǎng)資訊網(wǎng)
      最全最豐富的資訊網(wǎng)站

      小議正則表達(dá)式效率 貪婪、非貪婪與回溯

      先掃盲一下什么是正則表達(dá)式的貪婪,什么是非貪婪?或者說(shuō)什么是匹配優(yōu)先量詞,什么是忽略?xún)?yōu)先量詞?
      好吧,我也不知道概念是什么,來(lái)舉個(gè)例子吧。
      某同學(xué)想過(guò)濾之間的內(nèi)容,那是這么寫(xiě)正則以及程序的。

      復(fù)制代碼 代碼如下:
      $str = preg_replace(‘%<script>.+?</script>%i’,”,$str);//非貪婪

      看起來(lái),好像沒(méi)什么問(wèn)題,其實(shí)則不然。若

      復(fù)制代碼 代碼如下:
      $str = ‘<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>’;

      那么經(jīng)過(guò)上面的程序處理,其結(jié)果為

      復(fù)制代碼 代碼如下:
      $str = ‘<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>’;
      $str = preg_replace(‘%<script>.+?</script>%i’,”,$str);//非貪婪
      print_r($str);
      //$str 輸出為 <script>alert(document.cookie)</script>

      仍然達(dá)不到他想要的效果。上面的就是非貪婪,也有的叫惰性。其標(biāo)志非貪婪的標(biāo)識(shí)為量數(shù)元字符后面加? ,比如 +?、*?、??(比較特殊,以后的BLOG中,我會(huì)寫(xiě)到)等。即標(biāo)識(shí)非貪婪,如果不寫(xiě)?就是貪婪。比如

      復(fù)制代碼 代碼如下:
      $str = ‘<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>’;
      $str = preg_replace(‘%<script>.+</script>%i’,”,$str);//非貪婪
      print_r($str);
      //$str 輸出為 <script 只有這些了,好像還是不太合適,哈,您知道如何重寫(xiě)那個(gè)正則嗎?

      以上為貪婪,非貪婪的區(qū)別介紹。下面,聊下貪婪、非貪婪引起的回溯問(wèn)題。先看個(gè)小例子。
      正則表達(dá)式為w*(d+),字符串為cfc456n,那么,這個(gè)正則匹配的$1是多少??

      如果您回答是 456,那么,恭喜你,回答錯(cuò)了,其結(jié)果不是456,而是6,您知道為什么嗎?

      CFC4N來(lái)解釋一下,當(dāng)正則引擎用正則w*(d+)去匹配字符串cfc456n時(shí),會(huì)先用w*去匹配字符串cfc456n,首先,w*會(huì)匹配字符串cfc456n的所有字符,然后再交給d+去匹配剩下的字符串,而剩下的沒(méi)了,這時(shí),w*規(guī)則會(huì)不情愿的吐出一個(gè)字符,給d+去匹配,同時(shí),在吐出字符之前,記錄一個(gè)點(diǎn),這個(gè)點(diǎn),就是用于回溯的點(diǎn),然后d+去匹配n,發(fā)現(xiàn)并不能匹配成功,會(huì)再次要求w*再吐出一個(gè)字符,w*會(huì)先再次記錄一個(gè)回溯的點(diǎn),再吐出一個(gè)字符。這時(shí),w* 匹配的結(jié)果只有cfc45了,已經(jīng)吐出6n了,d+再去匹配6,發(fā)現(xiàn)匹配成功,則會(huì)通知引擎,匹配成功了,就直接顯示出來(lái)了。所以,(d+)的結(jié)果是6,而不是456。

      當(dāng)上面的正則表達(dá)式改為 w*?(d+)(注意,此處為非貪婪),字符串仍然為cfc456n,那么,這時(shí)候,正則匹配的$1是多少??
      甲同學(xué)回答:結(jié)果是 456。
      嗯,是的,正確,是456,CFC4N弱弱的問(wèn)下,為什么是456 呢?
      我在來(lái)解釋一下 為什么是456
      正則表達(dá)式有條規(guī)則,是量詞優(yōu)先匹配,所以w*?會(huì)先去匹配字符串cfc456,由于w*?是非貪婪,正則引擎會(huì)用表達(dá)式w+?每次僅匹配一個(gè)字符串,然后再將控制權(quán)交給后面的d+去匹配下一個(gè)字符,同時(shí),記錄一個(gè)點(diǎn),用于在匹配不成功的時(shí)候,返回這里,再次匹配,也就是回溯點(diǎn)。由于w后面是量詞是*,*表示0到無(wú)數(shù)次,所以,首先是0次,也就是w*?匹配個(gè)空,記錄回溯點(diǎn),將控制權(quán)交給d+,d+去匹配cfc456n的第一個(gè)字符c,然后,匹配失敗,于是乎,接著講控制權(quán)交給w*?去匹配cfc456n的c,w*?匹配c成功,由于是非貪婪,所以,他每次只匹配一個(gè)字符,記錄回溯點(diǎn),然后再將控制權(quán)交給d+匹配f,接著,d+匹配f再失敗,再把控制權(quán)給w*?,w*?再匹配c,記錄回溯點(diǎn)(這時(shí)w*?匹配結(jié)果是cfc了),再把控制權(quán)給d+,d+去匹配4,匹配成功,然后,由于量詞是+,就是1到無(wú)數(shù)次,所以,接著往后匹配,再匹配5,成功,再接著,再匹配6,成功,再接著,繼續(xù)匹配操作,下一個(gè)字符是n,匹配失敗,這時(shí),d+會(huì)吧控制權(quán)交出去。由于d+后面已經(jīng)沒(méi)有正則表達(dá)式了,所以,整個(gè)正則表達(dá)式宣告匹配完成,其結(jié)果就是 cfc456, 其中第一組結(jié)果是456。親愛(ài)的同學(xué),您明白剛剛的題目的結(jié)果,為什么是456了嗎?

      好了,您是否從上面的例子了解了貪婪,非貪婪的匹配原理了?那您是否明白您在什么時(shí)候需要使用貪婪,非貪婪去處理您的字符串了?
      鳥(niǎo)哥的文章里講到針對(duì)
      表達(dá)式、程序?yàn)?

      復(fù)制代碼 代碼如下:
      $reg = “/<script>.*?</script>/is”;
      $str = “<script>********</script>”; //長(zhǎng)度大于100014
      $ret = preg_repalce($reg, “”, $str); //返回NULL

      其原因就是回溯太多了,直到造成耗盡??臻g爆棧。

      再來(lái)看個(gè)例子。
      字符串

      復(fù)制代碼 代碼如下:
      $str = ‘<script>123456</script>’;

      正則表達(dá)式為

      復(fù)制代碼 代碼如下:
      $strRegex1 = ‘%<script>.+</script>%’;
      $strRegex2 = ‘%<script>.+?</script>%’;
      $strRegex3 = ‘%<script>(?:(?!</script>).)+</script>%’;

      這三個(gè)正則,分別會(huì)造成幾次回溯呢??

      答案見(jiàn)下篇 PHP正則表達(dá)式的效率:回溯與固化分組

      贊(0)
      分享到: 更多 (0)
      網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)