久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

    <p id="vfaef"><kbd id="vfaef"></kbd></p>

    
    
    <pre id="vfaef"><u id="vfaef"></u></pre>

      <thead id="vfaef"><input id="vfaef"></input></thead>

    1. 站長資訊網(wǎng)
      最全最豐富的資訊網(wǎng)站

      深度分析正則(pcre)最大回溯/遞歸限制

      今天,Tank問了一個問題, 對于如下的正則:

      復(fù)制代碼 代碼如下:
      /<script>.*?</script>/i

      當(dāng)要匹配的字符串長度大于100014的時候, 就不會得出正確結(jié)果:

      復(fù)制代碼 代碼如下:
      $reg = “/<script>.*?</script>/is”;
      $str = “<script>********</script>”; //長度大于100014
      $ret = preg_replace($reg, “”, $str); //返回NULL

      難道正則對匹配的串有長度限制?
      不是, 當(dāng)然不是, 原因是這樣的, 在PHP的pcre擴展中, 提供了倆個設(shè)置項.

      復(fù)制代碼 代碼如下:
      pcre.backtrack_limit //最大回溯數(shù)
      pcre.recursion_limit //最大嵌套數(shù)

      默認(rèn)的backtarck_limit是100000(10萬).
      這個問題, 就和設(shè)置項backtrack_limit有關(guān)系. 現(xiàn)在要弄清這個問題的原因, 關(guān)鍵就是什么是”回溯”.
      這個正則, 使用非貪婪模式, 非貪婪模式匹配原理簡單來說是, 在可配也可不配的情況下, 優(yōu)先不匹配. 記錄備選狀態(tài), 并將匹配控制交給正則表達式的下一個匹配字符, 當(dāng)之后的匹配失敗的時候, 再溯, 進行匹配.
      舉個例子:

      復(fù)制代碼 代碼如下:
      源字符串: aaab
      正則: .*?

      匹配過程開始的時候, “.*?”首先取得匹配控制權(quán), 因為是非貪婪模式, 所以優(yōu)先不匹配, 將匹配控制交給下一個匹配字符”b”, “b”在源字符串位置1匹配失敗(“a”), 于是回溯, 將匹配控制交回給”.*?”, 這個時候, “.*?”匹配一個字符”a”, 并再次將控制權(quán)交給”b”, 如此反復(fù), 最終得到匹配結(jié)果, 這個過程中一共發(fā)生了3次回溯.
      現(xiàn)在我們來看看文章開頭的例子, 默認(rèn)的backtrack_limit是100000, 而源字符串的開頭是9個字符, 一共是99997個字符.
      另外, 因為match函數(shù)自身的邏輯, 在文章開頭的例子下, 會導(dǎo)致回溯計數(shù)增3(有興趣的可以參看pcrelib/pcre_exec.c中match函數(shù)邏輯部分), 所以在匹配到”“之前, pcre中的回溯計數(shù)剛好是100000,于是就正常匹配, 退出.
      而, 只要在增加一個字符, 就會導(dǎo)致回溯計數(shù)大于100000, 從而導(dǎo)致匹配失敗退出.
      在PHP 5.2以后, 提供了:

      復(fù)制代碼 代碼如下:
      int preg_last_error ( void )
      Returns the error code of the last PCRE regex execution.

      我們應(yīng)該經(jīng)常檢查這個函數(shù)的返回值, 當(dāng)不為零的時候說明上一個正則函數(shù)出錯, 特別的對于文章的例子, 出錯返回(PREG_BACKTRACK_LIMIT_ERROR)
      最后, 在順便說一句, 非貪婪模式導(dǎo)致太多回溯, 必然會有一些性能問題, 適當(dāng)?shù)脑搶懴抡齽t, 是可以避免這個問題的. 比如將文章開頭例子中的正則修改為:

      復(fù)制代碼 代碼如下:
      /<script>[^<]*</script>/i

      就不會導(dǎo)致這么多的回溯了~
      而recursion_limit限制了最大的正則嵌套層數(shù), 如果這個值, 設(shè)置的太大, 可能會造成耗盡棧空間爆棧. 默認(rèn)的100000似乎有點太大了…
      就比如對于一個長度為10000的字符串, 如下這個看似”簡”的單正則:

      復(fù)制代碼 代碼如下:
      //默認(rèn)recursion_limit為100000
      $reg = /(.+?)+/is;
      $str = str_pad(“laruence”, 10000, “a”); //長度為1萬
      $ret = preg_repalce($reg, “”, $str);

      會導(dǎo)致core, 這是因為嵌套太多, 導(dǎo)致爆棧.
      當(dāng)然, 你可以通過修改棧的大小來暫時的解決這個問題, 比如修改??臻g為20M以后, 上面的代碼就能正常運行, 但這肯定不是最完美的解法. 根本之道, 還是優(yōu)化正則.
      最后: 正則雖易, 用好卻難.. 尤其在做大數(shù)據(jù)量的文本處理的時候, 如果正則設(shè)計不慎, 很容易導(dǎo)致深度嵌套, 另外考慮到性能, 還是建議能用字符串處理盡量使用字符串處理代替.

      贊(0)
      分享到: 更多 (0)
      網(wǎng)站地圖   滬ICP備18035694號-2    滬公網(wǎng)安備31011702889846號