盤點(diǎn)一個(gè)Python網(wǎng)絡(luò)爬蟲+正則表達(dá)式處理案例
回復(fù)“書籍”即可獲贈(zèng)Python從入門到進(jìn)階共10本電子書
大家好,我是Python進(jìn)階者。
一、前言
前幾天在Python白銀交流群【鑫】問(wèn)了一個(gè)Python網(wǎng)絡(luò)爬蟲的問(wèn)題,提問(wèn)截圖如下:

下面是他的代碼:
import requests
import re
url = "https://movie.douban.com/top250"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36"
}
resp = requests.get(url, headers=headers)
resp.encoding = "utf-8"
pageSource = resp.text
print(pageSource) #re.S可以讓正則的。匹配換行符
obj = re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</sp'
r'an>.*? <p class="">.*?導(dǎo)演:(?P<dao>.*?) <br>'
r'(?P<year>.*?) ', re.S)
result = obj.finditer(pageSource)
for item in result:
print(item.group("name"))
print(item.group("dao"))
print(item.group("year"))
二、實(shí)現(xiàn)過(guò)程
這里【瑜亮老師】指出問(wèn)題,如下所示:

事實(shí)上還是那個(gè)正則表達(dá)式寫的有問(wèn)題。

跟著視頻來(lái)敲,有時(shí)候視頻太老了,或者對(duì)應(yīng)的網(wǎng)頁(yè)結(jié)構(gòu)改版了,導(dǎo)致原有的代碼并不能夠適配,導(dǎo)致出錯(cuò)。

修改之后可以得到正確的結(jié)果了。
三、總結(jié)
大家好,我是Python進(jìn)階者。這篇文章主要盤點(diǎn)了一個(gè)Python網(wǎng)絡(luò)爬蟲+正則表達(dá)式處理的問(wèn)題,文中針對(duì)該問(wèn)題,給出了具體的解析和代碼實(shí)現(xiàn),幫助粉絲順利解決了問(wèn)題。
最后感謝粉絲【鑫】提問(wèn),感謝【瑜亮老師】給出的思路和代碼解析,感謝【dcpeng】、【???】等人參與學(xué)習(xí)交流。
大家在學(xué)習(xí)過(guò)程中如果有遇到問(wèn)題,歡迎隨時(shí)聯(lián)系我解決(我的微信:pdcfighting),應(yīng)粉絲要求,我創(chuàng)建了一些高質(zhì)量的Python付費(fèi)學(xué)習(xí)交流群,歡迎大家加入我的Python學(xué)習(xí)交流群!

小伙伴們,快快用實(shí)踐一下吧!如果在學(xué)習(xí)過(guò)程中,有遇到任何問(wèn)題,歡迎加我好友,我拉你進(jìn)Python學(xué)習(xí)交流群共同探討學(xué)習(xí)。
------------------- End -------------------
往期精彩文章推薦:

歡迎大家點(diǎn)贊,留言,轉(zhuǎn)發(fā),轉(zhuǎn)載,感謝大家的相伴與支持
想加入Python學(xué)習(xí)群請(qǐng)?jiān)诤笈_(tái)回復(fù)【入群】
萬(wàn)水千山總是情,點(diǎn)個(gè)【在看】行不行
/今日留言主題/
隨便說(shuō)一兩句吧~~
