[開(kāi)放源代碼] 爬取微博用戶(hù)所有文章的爬蟲(chóng)
? 點(diǎn)擊上方?月小水長(zhǎng)?并?設(shè)為星標(biāo),第一時(shí)間接收干貨推送
在微博上發(fā)布的內(nèi)容有的短文本+圖片(也就是微博),還有視頻,文章等形式,爬取用戶(hù)微博可以使用之前的源代碼文章:一個(gè)爬取用戶(hù)所有微博的爬蟲(chóng),還能斷網(wǎng)續(xù)爬那種
本次分享的是如何爬取用戶(hù)的所有文章。有文章標(biāo)題,id,內(nèi)容,發(fā)布時(shí)間,閱讀數(shù),評(píng)論數(shù),點(diǎn)贊數(shù),圖片鏈接等字段或信息,并開(kāi)放源代碼。

下面以【共青團(tuán)中央】微博為 target,抓取該賬號(hào)發(fā)布的所有文章,大部分都是深度好文,值得保存起來(lái)細(xì)細(xì)品讀。

https://weibo.com/u/3937348351?tabtype=articlehttps://weibo.com/ajax/statuses/mymblog在 Filter 框輸入 mymlog 就能過(guò)濾出此類(lèi)請(qǐng)求,然后在請(qǐng)求上右鍵 ?Copy?as cURL(bash),方便自動(dòng)轉(zhuǎn)換成爬蟲(chóng)代碼,具體可以參見(jiàn)不寫(xiě)一行,自動(dòng)生成爬蟲(chóng)代碼,自動(dòng)生成的代碼如下
import requestsheaders = {'authority': 'weibo.com','sec-ch-ua': '"Chromium";v="94", "Google Chrome";v="94", ";Not A Brand";v="99"','x-xsrf-token': 'M5-ZNBqYi4YtNkfZ8nh_Oz_0','traceparent': '00-348dc482c55e89d8cded23aaa7d56105-8f3e5ce7e78653bc-00','sec-ch-ua-mobile': '?0','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36','accept': 'application/json, text/plain, */*','x-requested-with': 'XMLHttpRequest','sec-ch-ua-platform': '"Windows"','sec-fetch-site': 'same-origin','sec-fetch-mode': 'cors','sec-fetch-dest': 'empty','referer': 'https://weibo.com/u/3937348351?tabtype=article','accept-language': 'zh-CN,zh;q=0.9,en-CN;q=0.8,en;q=0.7,es-MX;q=0.6,es;q=0.5',????'cookie':?'看不見(jiàn)我',}params = (('uid', '3937348351'),('page', '2'),('feature', '10'),)response?=?requests.get('https://weibo.com/ajax/statuses/mymblog',?headers=headers,?params=params)
我們第一步要做的事情是將 params 改成如下的字典形式
params = {'uid': '1516153080','page': '1','feature': '10',}
評(píng)論
圖片
表情
