1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        盤點(diǎn)一個selenium網(wǎng)絡(luò)爬蟲問題

        共 2560字,需瀏覽 6分鐘

         ·

        2024-06-29 09:00

        點(diǎn)擊上方“Python爬蟲與數(shù)據(jù)挖掘”,進(jìn)行關(guān)注

        回復(fù)“書籍”即可獲贈Python從入門到進(jìn)階共10本電子書

        紅豆生南國,春來發(fā)幾枝。

        大家好,我是Python進(jìn)階者。

        一、前言

        前幾天在Python最強(qiáng)王者交流群【G.】問了一個Python網(wǎng)絡(luò)爬蟲的問題,問題如下:各位大佬好,我這遇到一個問題,用selenium爬網(wǎng)頁的時候,切換頁面后網(wǎng)頁有時會出現(xiàn)10條數(shù)據(jù),有時會出現(xiàn)6條數(shù)據(jù),出現(xiàn)6條數(shù)據(jù)時顯示的數(shù)據(jù)都是已經(jīng)爬取過的數(shù)據(jù),該怎么解決呢?

        這里【鄭煜哲·Xiaopang】問到:切換頁面指的是?switch window?還是get?

        粉絲回答:從1切換到2,應(yīng)該是get。

        【鄭煜哲·Xiaopang】:代碼看看,你是不是漏參數(shù)了

        二、實(shí)現(xiàn)過程

        這里【瑜亮老師】給了個思路如下:這個網(wǎng)站為啥要用selenium?requests不香么?

        【G.】:因?yàn)椴还庖谰幪柡兔Q,還要點(diǎn)進(jìn)去把全文下載下來

        【鄭煜哲·Xiaopang??】:我掃了一眼,還有iframe。盲猜是邏輯有bug,臥槽,怎么寫的這么復(fù)雜。我懷疑是這樣的,第一頁的bar是這種,然后第二頁的bar就多了兩個元素,震驚了。

        【G.】:初學(xué)者

        【瑜亮老師??】:其實(shí)也不用selenium,這個id在搜索結(jié)果頁面就有,翻頁用。

        【鄭煜哲·Xiaopang】:嗯,可以不用的,直接用pageno=參數(shù)就行了。sel適合入門。

        【G.】:哦哦那我試試requests

        【鄭煜哲·Xiaopang】:同目測大概率你pagebar的處理邏輯有問題

        【G.】:不太清楚哎,那兒的處理邏輯感覺沒啥問題。這個網(wǎng)頁本身我自己在手動點(diǎn)的時候有時候也會出現(xiàn)這種情況

        【瑜亮老師】:@G.?使用requests3步請求就可以下載pdf 1.請求搜索結(jié)果頁,用pageNo參數(shù)獲取翻頁,正則拿到頁面所有pid 2.用pid請求gbDetailed頁面,正則拿到pdf下載地址file_path,截取后獲得file_name 3.拼接pdf_url,請求后with open保存成pdf。

        我試過了,非常順暢。唯一需要注意的就是,某些gbDetailed頁面中并沒有pdf,需要加個if判斷一下。

        【G.】:@德善堂小兒推拿-瑜亮老師?有些標(biāo)準(zhǔn)第三步保存成pdf點(diǎn)那個在線預(yù)覽之后有驗(yàn)證碼怎么辦呢

        【瑜亮老師】:requests也不用點(diǎn)啊

        【G.】:那怎么拿到pdf的下載地址啊

        【瑜亮老師】:你看頁面源碼中是否有

        【G.】:哦哦好

        順利地解決了粉絲的問題。

        如果你也有類似這種Python相關(guān)的小問題,歡迎隨時來交流群學(xué)習(xí)交流哦,有問必答!

        三、總結(jié)

        大家好,我是Python進(jìn)階者。這篇文章主要盤點(diǎn)了一個Python網(wǎng)絡(luò)爬蟲的問題,文中針對該問題,給出了具體的解析和代碼實(shí)現(xiàn),幫助粉絲順利解決了問題。

        最后感謝粉絲【G.】提出的問題,感謝【鄭煜哲·Xiaopang】、【瑜亮老師】給出的思路,感謝【莫生氣】等人參與學(xué)習(xí)交流。

        【提問補(bǔ)充】溫馨提示,大家在群里提問的時候??梢宰⒁庀旅鎺c(diǎn):如果涉及到大文件數(shù)據(jù),可以數(shù)據(jù)脫敏后,發(fā)點(diǎn)demo數(shù)據(jù)來(小文件的意思),然后貼點(diǎn)代碼(可以復(fù)制的那種),記得發(fā)報(bào)錯截圖(截全)。代碼不多的話,直接發(fā)代碼文字即可,代碼超過50行這樣的話,發(fā)個.py文件就行。

        大家在學(xué)習(xí)過程中如果有遇到問題,歡迎隨時聯(lián)系我解決(我的微信:pdcfighting1),應(yīng)粉絲要求,我創(chuàng)建了一些高質(zhì)量的Python付費(fèi)學(xué)習(xí)交流群和付費(fèi)接單群,歡迎大家加入我的Python學(xué)習(xí)交流群和接單群!

        小伙伴們,快快用實(shí)踐一下吧!如果在學(xué)習(xí)過程中,有遇到任何問題,歡迎加我好友,我拉你進(jìn)Python學(xué)習(xí)交流群共同探討學(xué)習(xí)。

        ------------------- End -------------------

        往期精彩文章推薦:

        歡迎大家點(diǎn)贊,留言,轉(zhuǎn)發(fā),轉(zhuǎn)載,感謝大家的相伴與支持

        想加入Python學(xué)習(xí)群請?jiān)诤笈_回復(fù)【入群

        萬水千山總是情,點(diǎn)個【在看】行不行

        /今日留言主題/

        隨便說一兩句吧~~

        瀏覽 80
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評論
        圖片
        表情
        推薦
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            色老汉AV一区二区三区 | 小说大尺度 | 印度精品av三级 狠狠色狠狠色综合日日92 | 麻豆国产网站入口 | 人人操操人人 | 欧美成人国产精品一区二区 | 搜查官系列av无删减版 | 色操色 | 毛片在线电影 | 国产玖玖 |