1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        電影荒嗎?教你爬取豆瓣電影top250

        共 2977字,需瀏覽 6分鐘

         ·

        2020-12-29 18:59




        點(diǎn)擊上方藍(lán)字關(guān)注我們





        點(diǎn)擊上方“印象python”,選擇“星標(biāo)”公眾號(hào)
        重磅干貨,第一時(shí)間送達(dá)!

        爬蟲目標(biāo)

        爬取豆瓣電影top250,獲取的信息有電影名稱、簡(jiǎn)介、導(dǎo)演、評(píng)分、觀看人數(shù)和電影語(yǔ)錄等信息。

        項(xiàng)目準(zhǔn)備

        軟件:Pycharm

        第三方庫(kù):requests,parsel,pandas,lxml,os

        網(wǎng)站地址:https://movie.douban.com/top250?start=


        網(wǎng)站分析

        網(wǎng)站首頁(yè)如下:


        1.首先判斷其是動(dòng)態(tài)加載還是靜態(tài)加載。


        打開(kāi)瀏覽器設(shè)置,關(guān)閉javascript。刷新頁(yè)面沒(méi)有任何影響即可理解為靜態(tài)加載

        2.F12打開(kāi)瀏覽器開(kāi)發(fā)者模式,找到電影信息源碼所在位置。
        如圖一部電影的完整信息都存在于一個(gè)li標(biāo)簽之內(nèi)。所以我們想要獲取電影詳情首先就要獲取到li標(biāo)簽??梢园l(fā)現(xiàn)該頁(yè)面25部電影信息所在的li標(biāo)簽都在一個(gè)class='grid_view'的ol標(biāo)簽之內(nèi)。所以我們可以通過(guò)此屬性獲取到25部電影所在的li。


        反爬分析

        為了防止在爬蟲過(guò)程中反爬而抓取不到數(shù)據(jù),我們一般只需加上user-agent和refer即可


        鏈接分析

        第一頁(yè):https://movie.douban.com/top250?start=第二頁(yè):https://movie.douban.com/top250?start=25&filter=第三頁(yè):https://movie.douban.com/top250?start=50&filter=

        可以發(fā)現(xiàn),每頁(yè)的電影信息會(huì)隨著網(wǎng)站鏈接末尾數(shù)字變化而變化。


        代碼實(shí)現(xiàn)

        1.獲取網(wǎng)頁(yè)源碼信息


        2.源碼信息成功獲取到之后接下來(lái)就要通過(guò)我們上面分析來(lái)定位li標(biāo)簽的位置

        打印結(jié)果為25代表獲取到了25個(gè)li標(biāo)簽,也就是說(shuō)在當(dāng)前頁(yè)面有25部電影。這和頁(yè)面展示的也是一模一樣的

        3.獲取電影詳情

        25部電影信息打印如下:

        可以看到已經(jīng)成功獲取到我們所要信息了。


        數(shù)據(jù)保存

        數(shù)據(jù)保存我們需要用到pandas,首先我們導(dǎo)入

        import pandas as pd

        現(xiàn)在第一頁(yè)的數(shù)據(jù)已經(jīng)成功保存到本地csv文件中了,接下來(lái)就是10頁(yè)的問(wèn)題了,很簡(jiǎn)單。只需加上一個(gè)循環(huán)即可。在此就不多贅述了。有興趣的小伙伴可參考源碼一探究竟。


        效果展示


        csv文件如下:


        圖片文件如下:


        想要學(xué)習(xí)或者對(duì)源碼有興趣的小伙伴掃碼回復(fù)'電影'即可



        掃描二維碼

        獲取更多精彩

        python學(xué)前班



        回復(fù)下方 「關(guān)鍵詞」,獲取優(yōu)質(zhì)資源


        回復(fù)關(guān)鍵詞 「linux」,即可獲取 185 頁(yè) Linux 工具快速教程手冊(cè)和154頁(yè)的Linux筆記。


        回復(fù)關(guān)鍵詞 「Python進(jìn)階」,即可獲取 106 頁(yè) Python 進(jìn)階文檔 PDF


        回復(fù)關(guān)鍵詞 「Python面試題」,即可獲取最新 100道 面試題 PDF


        回復(fù)關(guān)鍵詞 「python數(shù)據(jù)分析」,即可獲取47頁(yè)python數(shù)據(jù)分析與自然語(yǔ)言處理的 PDF


        回復(fù)關(guān)鍵詞 「python爬蟲」,滿滿五份PPT爬蟲教程和70多個(gè)案例


        回復(fù)關(guān)鍵詞 「Python最強(qiáng)基礎(chǔ)學(xué)習(xí)文檔」,即可獲取 168 頁(yè) Python 最強(qiáng)基礎(chǔ)學(xué)習(xí)文檔 PDF,讓你快速入門Python

        推薦我的微信號(hào)

        來(lái)圍觀我的朋友圈,我的經(jīng)驗(yàn)分享,技術(shù)更新,不定期送書,坑位有限,速速掃碼添加!
        備注:開(kāi)發(fā)方向_昵稱_城市,另送你10本Python電子書。

        點(diǎn)個(gè)在看你最好看

        瀏覽 77
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            色影视亚洲 | 五月天激情小说视频 | chinesepronhdvideos麻豆 | 三级毛片网站 | 99久久精品国产99久久久久久红桃 | 国产一级性爱 | 国产A级毛片久久久久久 | 五月天一区二区 | 亚洲午夜精品久久久久久APP | 拔擦拔擦x8x8华人免费 |