中斷可繼續(xù),10w+,無 cookie 微博評論抓取網站上線
點擊上方 月小水長 并 設為星標,第一時間接收干貨推送
補齊無 cookie 爬蟲系列的最后一塊拼圖:無 cookie 評論爬蟲今日上線。雖然是 無 cookie 系列,但是它和無 cookie 話題等相比,限制更少,更為強大。欲知強在何處,且聽我一一道來。

無 cookie
不需要 cookie或者說對于使用者來說,感受不到 cookie 的存在,即可 run,這是最基本的特征。
評論上限可達 10w+
此處抓取的評論不是同步從 weibo.com 抓取的,因此同一條微博的,抓取的結果和 weibo.com 看到的評論有時差,筆者覺得無傷大雅。
和微博話題只能最近幾十頁的數(shù)據相比,無 cookie 評論的上限大概在 10w+ 這個量級,實測最多抓到 30w。能抓到 10w+,不是說網頁上顯示有 10w 條就能抓到 10w 條,
一來博主可能精選評論,二來微博會過濾,評論的數(shù)量顯示只會往多了顯示;除開這些原因,顯示 100w+ 評論大概率能抓到 10w+。
字段豐富
抓取保存的 csv 文件包括評論時間、評論文本、評論 ID、評論點贊數(shù)等評論本身信息和評論用戶名、評論用戶關注數(shù)、粉絲數(shù)、性別、所在地、是否認證等評論用戶信息。
可以從上次中斷的繼續(xù)抓取
字面意思,比如這次抓到 1w 條停了,下次可以繼續(xù)上次停的地方繼續(xù)抓取,這是自動配置的,使用者不用設置即可自動繼續(xù)。一次抓取結束可以下載當前的結果文件。
共享數(shù)據集
其他人抓取好一個微博 30w 的評論數(shù)據集,如果你有同樣的需求,輸入微博 id 后,無需抓取,可以直接下載。微博 id 可以是純數(shù)字 id,也可以是數(shù)字字母混合 id,它會自動轉化成純數(shù)字 id。最后的結果文件也是按照 {數(shù)字id}.csv 這樣的格式命名的。
使用指南
網站全量開啟 https 安全訪問,地址為:
https://weibo-comment-crawl.buyixiao.xyz/網站對所有人開放,但執(zhí)行抓取需要密鑰,密鑰獲取地址
https://afdian.net/p/4c1ad92aeaf311ec971752540025c377為了服務器和網站的持續(xù)穩(wěn)健運行,密鑰設置為付費獲取,一旦泄露隨時可能更新。本網站適合長期有大量評論抓取需求或者特定字段要求的讀者使用,如果至是一次性使用,建議使用 新增 ip 屬地,抓得更多,微博超級評論爬蟲大更新。它是有 cookie 的,抓到的評論基本和 weibo.com 看到的保持一致。
