您當前位置：首頁 > php開源 > php教程 > python 貪婪非貪婪匹配

python 貪婪非貪婪匹配

來源：程序員人生發布時間：2015-03-10 08:25:29 閱讀次數：3093次

python re模塊還是需要重新學習。
python readline 和 readlines(), readline() , read() 3者之間的區分，之前1直都不清楚，現在弄清楚是怎樣回事了。
readlines() 可以1起顯示出全部文件，這個也是迭代顯示的，需要追行顯示，迭代器的指針會被消耗的。

python 中的正則是匹配換行之外的所有的字符。.* 是匹配不了所有的字符的。在某些情況下，我的結論是正確的，但是在某些情況下，我的結論又是毛病的。剛才遇到的問題，現在終究知道是怎樣回事了，原來是貪婪匹配和非貪婪匹配的問題，對這類情況，我也是相對遲鈍了。
save.html 是我隨意抓來的1個html，我要從這個html中抓出所有的 javascript代碼段。

def getcss():

    fh = open('save.html')
    html =fh.read()

    #js_pattern = re.compile(r'<script .*?">');
    ans = re.findall(r'<script .*?>.*?</script>',html,re.S)

    src_pattern = re.compile(r'^"http.*"');
    for i in ans:
        #ret = re.findall(src_pattern,i)
        print i

通過上面的程序，我得到了下面的結果。源文件是1個html，格式1般，這些代碼段是分行的，我的目的是找出所有的代碼段。下面做1個簡單的解釋。在嘗試的進程中，我試了好幾種正則表達式，下面講1下我遇到的問題。
這里寫圖片描述
實現是跨行匹配的問題，.*是沒法匹配的，所以如果標簽散布在不同的行，那末如何匹配中間的內容呢。為了解決跨行匹配的問題，找到了這個解決方案,可以用([dD]*)或([wW]*) 或([sS]*) 來代替。
然后又遇到了問題，我的正則總是會匹配太多的內容，最后發現，我的匹配模式是依照最多內容匹配的。默許的匹配模式是貪婪匹配，所以如果用了.*的話，總會匹配更多的內容。所以找到了這個參考。python貪婪匹配看到了貪婪匹配和非貪婪匹配的核心在1個?上，re.S標記是多行匹配的關鍵，類似的標記還有re.M標記，這個是1行的標記。re.M：^$標志將會匹配每行，默許^和$只會匹配第1行,文章里有幾個例子還是很不錯的，值得仔細研究1下,建議自己履行1下這些代碼，看下結果，如果這些都很清楚，那末正則掌握的還算不錯。

re.findall(r"a(d+?)", "a23b")
re.findall(r"a(d+)", "a23b")
re.findall(r"a(d+)b.+a(d+)b", "a23b
a34b")
re.findall(r"a(d+)b.+a(d+)b", "a23b
a34b", re.S)

最后，實現了上面我提出的需求，主要利用了跨行匹配和非貪婪匹配。

生活不易，碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生

------分隔線----------------------------

上一篇 FFmpeg源代碼簡單分析：av_find_decoder()和av_find_encoder()

下一篇 Storm基本原理

分享到:

------分隔線----------------------------

為碼而活

積分：4237

15粉絲

7關注

欄目熱點

多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

python 貪婪 非貪婪 匹配

python 貪婪非貪婪匹配