1、需求
我們想要按照特定的文本模式進(jìn)行匹配或查找。
2、解決方案
如果想要匹配的只是簡單的文字,那么通常只需要用基本的字符串方法就可以了,比如str.find()、str.endswith()、str.startswith()或類似函數(shù)。
示例:
text='mark ,帥哥,18,183 帥,mark' print(text=='mark') print(text.startswith('mark')) print(text.startswith('mark')) print(text.find('帥哥'))
結(jié)果:
False
True
True
6
如果更為復(fù)雜的匹配則需要使用正則表達(dá)式以及re模塊。為了說明使用正則表達(dá)式的基本流程,假設(shè)我們想匹配以數(shù)字形式構(gòu)成的日期,比如”11/27/2018″。示例如下:
import re text1='11/27/2018' text2='Nov 27, 2018' if re.match(r'd+/d+/d+',text1): print('符合模型:數(shù)字/數(shù)字/數(shù)字') else: print('不符合模型:數(shù)字/數(shù)字/數(shù)字') if re.match(r'd+/d+/d+',text2): print('符合模型:數(shù)字/數(shù)字/數(shù)字') else: print('不符合模型:數(shù)字/數(shù)字/數(shù)字')
運行結(jié)果:
符合模型:數(shù)字/數(shù)字/數(shù)字
不符合模型:數(shù)字/數(shù)字/數(shù)字
如果打算針對同一模型做多次匹配,那么通常會先將正則表達(dá)式模式預(yù)編譯成一個模式對象。
例如:
import re text1='11/27/2018' text2='Nov 27, 2018' datepat=re.compile(r'd+/d+/d+') if datepat.match(text1): print('符合模型:數(shù)字/數(shù)字/數(shù)字') else: print('不符合模型:數(shù)字/數(shù)字/數(shù)字') if datepat.match(text2): print('符合模型:數(shù)字/數(shù)字/數(shù)字') else: print('不符合模型:數(shù)字/數(shù)字/數(shù)字')
結(jié)果:
符合模型:數(shù)字/數(shù)字/數(shù)字
不符合模型:數(shù)字/數(shù)字/數(shù)字
match()方法總是嘗試在字符串的開頭找到匹配項。如果想針對整個文本搜索出所有的匹配項,那么就應(yīng)該使用findall()方法,例如:
import re text='今天是 11/27/2018,昨天是11/26/2018' datepat=re.compile(r'd+/d+/d+') print(datepat.findall(text))
運行結(jié)果:
[’11/27/2018′, ’11/26/2018′]
當(dāng)定義正則表達(dá)式時,我們常會將部分模式用括號包起來的方式引入捕獲組,捕獲組通常簡化后續(xù)對匹配文本的處理,因為每個組的內(nèi)容都可以單獨提取出來。findall()方
法搜索整個文本并找出所有的匹配項然后將它們以列表的形式返回。如果想以迭代的方式找出匹配項,可以使用finditer()
方法。
例如:
import re #加入捕獲組 datepat=re.compile(r'(d+)+/(d+)+/(d+)') m=datepat.match('11/27/2018') print(m.group(0)) print(m.group(1)) print(m.group(2)) print(m.group(3)) print(m.groups()) month,day,year=m.groups() print(month) print(day) print(year) print('*'*20) text='今天是 11/27/2018,昨天是11/26/2018' for month,day,year in datepat.findall(text): print('{}-{}-{}'.format(year,month,day)) print('*'*20) for m in datepat.finditer(text): print(m.groups())
結(jié)果:
11/27/2018
11
27
2018
(’11’, ’27’, ‘2018’)
11
27
2018
********************
2018-11-27
2018-11-26
********************
(’11’, ’27’, ‘2018’)
(’11’, ’26’, ‘2018’)
3、分析
本節(jié)主要介紹了re模塊對文本匹配和搜索的基本功能,首先用re.compile()
對模式進(jìn)行編譯,然后使用想match()、findall()、finditer()
這樣的方法做匹配和搜索。
當(dāng)指定模式時我們通常會使用原始字符串,例如:
r'(d+)/(d+)/(d+)'
這樣的字符串不會對反斜字符轉(zhuǎn)義,這在正則表達(dá)式中非常有用。否則,我們需要用雙反斜杠線來標(biāo)識一個單獨的”,例如:
請注意match()方法只會檢查字符的開頭,有可能出現(xiàn)的匹配的結(jié)果并不是你想要的,例如:
import re #加入捕獲組 datepat=re.compile(r'(d+)+/(d+)+/(d+)') m=datepat.match('11/27/2018xxxx') print(m)
結(jié)果:
<re.Match object; span=(0, 10), match='11/27/2018'>
如果想要精確匹配,可以加一個結(jié)束標(biāo)記:$
import re #加入捕獲組 datepat=re.compile(r'(d+)+/(d+)+/(d+)$') m1=datepat.match('11/27/2018xxxx') m2=datepat.match('11/27/2018') print(m1) print(m2)
結(jié)果:
None
<re.Match object; span=(0, 10), match=’11/27/2018′>
如果只是執(zhí)行簡單的文本匹配和搜索操作,可以省略編譯步驟。
如果打算執(zhí)行很多匹配或查找操作的話,通常需要先將模式編譯然后重復(fù)使用。模塊級的函數(shù)會對最近編譯過的模式做緩存處理,并且比較省步驟。
總結(jié)
以上所述是小編給大家介紹的正則表達(dá)式之文本模式的匹配和查找,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復(fù)大家的。在此也非常感謝大家對網(wǎng)站的支持!
如果你覺得本文對你有幫助,歡迎轉(zhuǎn)載,煩請注明出處,謝謝!