1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        爬蟲實戰(zhàn)|2.5w+張4k高清壁紙爬取~

        共 1213字,需瀏覽 3分鐘

         ·

        2024-03-30 19:00


        ??點擊關(guān)注|設(shè)為星標|干貨速遞??


        大家好,我是小菜鳥~


        最近在網(wǎng)上發(fā)現(xiàn)了一些非常適合猛男的壁紙,然后就用爬蟲程序給爬取了下來。而且獨樂樂不如眾樂樂,大家一起分享快樂的同時,也可以學到一定的知識~

        01

        頁面分析



        331c620d1ddcf2445da2cb27657614bc.webp


        首先我們按F12打開開發(fā)者模式,對name里面的網(wǎng)頁進行觀察,發(fā)現(xiàn)我們要的圖片URL存在源網(wǎng)頁中,如圖:

        dd1d437cdea9688abae67b18cf9df8a7.webp

        但是,我們發(fā)現(xiàn)這個圖片的URL并不完整,我們來觀察一下完整的URL,看看兩者之間有何聯(lián)系,如圖:

        7f492089e9117dbaecd87d9dce7e2b44.webp

        我們發(fā)現(xiàn),圖片的URL就是https://pic.netbian.com+src里面內(nèi)容。

        好,我們現(xiàn)在找到了數(shù)據(jù)之間的規(guī)律,我們現(xiàn)在就要開始提取數(shù)據(jù)了。


        02

        數(shù)據(jù)采集


        我們結(jié)合之前的頁面分析,發(fā)現(xiàn)選用正則表達式對圖片的URL和名字進行提取最為方便,代碼如下:

                  url = f'https://pic.netbian.com/index_{page}.html'
        r = requests.get(url)
        r.encoding = r.apparent_encoding
        hrefs = re.findall('<img src="(.*?jpg)"',r.text)
        names = re.findall('<b>(.*?)</b>',r.text)

        讓我們來看看提取的數(shù)據(jù):

        2a63640e54704d20396d319901214f21.webp

        效果很好,沒有什么問題,那我們就可以開始著手準備存儲圖片了。


        03

        數(shù)據(jù)存儲


        數(shù)據(jù)存儲的方式在之前的文章已經(jīng)講的很清楚了,這里我們不在詳細介紹,只提供一下圖片存儲的思路:圖片是以二進制數(shù)據(jù)的方式存儲的,我們只需將其以二進制的方式存儲到txt文件中即可。代碼如下:

                  pic_url = 'https://pic.netbian.com' + hrefs[i]
        pic = requests.get(pic_url)
        with open(f'{names[i]}.jpg', 'ab') as f:
        f.write(pic.content)

        讓我們來看看效果圖:

        f8be084b4bd6da4dada299dc5208b924.webp


        04

        小結(jié)


        1. 本文詳細的介紹了如何獲取高清4k壁紙圖,請讀者仔細閱讀,并加以操作。

        2. requests庫提供了content用以提取圖片二進制數(shù)據(jù)

        3. 在存儲二進制文件時需要在存儲方式后面加個b,如‘a(chǎn)b’。

        4. 本文僅供學習參考,不做它用

        5. 后臺回復(fù)[壁紙]即可獲得源代碼。


        推薦閱讀



        爬蟲實戰(zhàn)|百度貼吧圖片爬取~

        2021-12-05

        e62ab1ca377c6f8279e42d72482e5cf9.webp


        ??點擊關(guān)注|設(shè)為星標|干貨速遞??

        瀏覽 29
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            欧美精品一级二级A片 | 国产美女逼 | 日韩欧美超碰在线 | 推特裸体gay猛交gay | 天天干天天操天天摸 | 日本婷婷免费久久毛片 | 又紧又嫩又爽无遮挡免费 | 成视人A片产无码免费视频看A片 | 久久性爱影视 | 赵总极品寻花最新章节更新 |