1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        Python 下載的 11 種方式,一種比一種高級!

        共 4774字,需瀏覽 10分鐘

         ·

        2020-11-17 23:38

        公眾號關注杰哥的IT之旅”,
        選擇“星標”,重磅干貨,第一時間送達!

        在本教程中,你將學習如何使用不同的Python模塊從web下載文件。此外,你將下載常規(guī)文件、web頁面、Amazon S3和其他資源。

        最后,你將學習如何克服可能遇到的各種挑戰(zhàn),例如下載重定向的文件、下載大型文件、完成一個多線程下載以及其他策略。

        1、使用requests

        你可以使用requests模塊從一個URL下載文件。

        考慮以下代碼:

        你只需使用requests模塊的get方法獲取URL,并將結果存儲到一個名為“myfile”的變量中。然后,將這個變量的內(nèi)容寫入文件。

        2、使用wget

        你還可以使用Python的wget模塊從一個URL下載文件。你可以使用pip按以下命令安裝wget模塊:

        考慮以下代碼,我們將使用它下載Python的logo圖像。

        在這段代碼中,URL和路徑(圖像將存儲在其中)被傳遞給wget模塊的download方法。

        3、下載重定向的文件

        在本節(jié)中,你將學習如何使用requests從一個URL下載文件,該URL會被重定向到另一個帶有一個.pdf文件的URL。該URL看起來如下:

        要下載這個pdf文件,請使用以下代碼:

        在這段代碼中,我們第一步指定的是URL。然后,我們使用request模塊的get方法來獲取該URL。在get方法中,我們將allow_redirects設置為True,這將允許URL中的重定向,并且重定向后的內(nèi)容將被分配給變量myfile。

        最后,我們打開一個文件來寫入獲取的內(nèi)容。

        4、分塊下載大文件

        考慮下面的代碼:

        首先,我們像以前一樣使用requests模塊的get方法,但是這一次,我們將把stream屬性設置為True。

        接著,我們在當前工作目錄中創(chuàng)建一個名為PythonBook.pdf的文件,并打開它進行寫入。

        然后,我們指定每次要下載的塊大小。我們已經(jīng)將其設置為1024字節(jié),接著遍歷每個塊,并在文件中寫入這些塊,直到塊結束。

        不漂亮嗎?不要擔心,稍后我們將顯示一個下載過程的進度條。

        5、下載多個文件(并行/批量下載)

        要同時下載多個文件,請導入以下模塊:

        我們導入了os和time模塊來檢查下載文件需要多少時間。ThreadPool模塊允許你使用池運行多個線程或進程。

        讓我們創(chuàng)建一個簡單的函數(shù),將響應分塊發(fā)送到一個文件:

        這個URL是一個二維數(shù)組,它指定了你要下載的頁面的路徑和URL。

        就像在前一節(jié)中所做的那樣,我們將這個URL傳遞給requests.get。最后,我們打開文件(URL中指定的路徑)并寫入頁面內(nèi)容。

        現(xiàn)在,我們可以分別為每個URL調用這個函數(shù),我們也可以同時為所有URL調用這個函數(shù)。讓我們在for循環(huán)中分別為每個URL調用這個函數(shù),注意計時器:

        現(xiàn)在,使用以下代碼行替換for循環(huán):

        運行該腳本。

        6、使用進度條進行下載

        進度條是clint模塊的一個UI組件。輸入以下命令來安裝clint模塊:

        考慮以下代碼:

        在這段代碼中,我們首先導入了requests模塊,然后,我們從clint.textui導入了進度組件。唯一的區(qū)別是在for循環(huán)中。在將內(nèi)容寫入文件時,我們使用了進度條模塊的bar方法。

        7、使用urllib下載網(wǎng)頁

        在本節(jié)中,我們將使用urllib下載一個網(wǎng)頁。

        urllib庫是Python的標準庫,因此你不需要安裝它。

        以下代碼行可以輕松地下載一個網(wǎng)頁:

        在這里指定你想將文件保存為什么以及你想將它存儲在哪里的URL。

        在這段代碼中,我們使用了urlretrieve方法并傳遞了文件的URL,以及保存文件的路徑。文件擴展名將是.html。

        8、通過代理下載

        如果你需要使用代理下載你的文件,你可以使用urllib模塊的ProxyHandler。請看以下代碼:

        在這段代碼中,我們創(chuàng)建了代理對象,并通過調用urllib的build_opener方法來打開該代理,并傳入該代理對象。然后,我們創(chuàng)建請求來獲取頁面。

        此外,你還可以按照官方文檔的介紹來使用requests模塊:

        你只需要導入requests模塊并創(chuàng)建你的代理對象。然后,你就可以獲取文件了。

        9、使用urllib3

        urllib3是urllib模塊的改進版本。你可以使用pip下載并安裝它:

        我們將通過使用urllib3來獲取一個網(wǎng)頁并將它存儲在一個文本文件中。

        導入以下模塊:

        在處理文件時,我們使用了shutil模塊。

        現(xiàn)在,我們像這樣來初始化URL字符串變量:

        然后,我們使用了urllib3的PoolManager ,它會跟蹤必要的連接池。

        創(chuàng)建一個文件:

        最后,我們發(fā)送一個GET請求來獲取該URL并打開一個文件,接著將響應寫入該文件:

        10、使用Boto3從S3下載文件

        要從Amazon S3下載文件,你可以使用Python boto3模塊。

        在開始之前,你需要使用pip安裝awscli模塊:

        對于AWS配置,請運行以下命令:

        現(xiàn)在,按以下命令輸入你的詳細信息:

        要從Amazon S3下載文件,你需要導入boto3和botocore。Boto3是一個Amazon SDK,它允許Python訪問Amazon web服務(如S3)。Botocore提供了與Amazon web服務進行交互的命令行服務。

        Botocore自帶了awscli。要安裝boto3,請運行以下命令:

        現(xiàn)在,導入這兩個模塊:

        在從Amazon下載文件時,我們需要三個參數(shù):

        • Bucket名稱

        • 你需要下載的文件名稱

        • 文件下載之后的名稱

        初始化變量:

        現(xiàn)在,我們初始化一個變量來使用會話的資源。為此,我們將調用boto3的resource()方法并傳入服務,即s3:

        最后,使用download_file方法下載文件并傳入變量:

        11、使用asyncio

        asyncio模塊主要用于處理系統(tǒng)事件。它圍繞一個事件循環(huán)進行工作,該事件循環(huán)會等待事件發(fā)生,然后對該事件作出反應。這個反應可以是調用另一個函數(shù)。這個過程稱為事件處理。asyncio模塊使用協(xié)同程序進行事件處理。

        要使用asyncio事件處理和協(xié)同功能,我們將導入asyncio模塊:

        現(xiàn)在,像這樣定義asyncio協(xié)同方法:

        關鍵字async表示這是一個原生asyncio協(xié)同程序。在協(xié)同程序的內(nèi)部,我們有一個await關鍵字,它會返回一個特定的值。我們也可以使用return關鍵字。

        現(xiàn)在,讓我們使用協(xié)同創(chuàng)建一段代碼來從網(wǎng)站下載一個文件:

        在這段代碼中,我們創(chuàng)建了一個異步協(xié)同函數(shù),它會下載我們的文件并返回一條消息。

        然后,我們使用另一個異步協(xié)同程序調用main_func,它會等待URL并將所有URL組成一個隊列。asyncio的wait函數(shù)會等待協(xié)同程序完成。

        現(xiàn)在,為了啟動協(xié)同程序,我們必須使用asyncio的get_event_loop()方法將協(xié)同程序放入事件循環(huán)中,最后,我們使用asyncio的run_until_complete()方法執(zhí)行該事件循環(huán)。

        希望大家遇到下載需求時可以有所參考!

        原文鏈接:http://dwz.date/cQjK


        如果您覺得這篇文章對您有點用的話,麻煩您為本文來個四連:轉發(fā)分享、點贊、點在看、留言,因為這將是我寫作與分享更多優(yōu)質文章的最強動力!

        本公眾號全部博文已整理成一個目錄,請在公眾號后臺回復「m」獲??!

        推薦閱讀:
        1、原創(chuàng)專輯 | Python 與 數(shù)據(jù)分析
        2、花費一周整理的Python資源,讓我學習效率,事半功倍!
        關注微信公眾號「杰哥的IT之旅」,后臺回復「1024」查看更多內(nèi)容,回復「加群備注:地區(qū)-職業(yè)方向-昵稱 即可加入讀者交流群。

              
                
        點個[在看],是對杰哥最大的支持!
        瀏覽 28
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            97超碰超碰久久福利超碰 | 乖m女贝把腿开大点惩罚鞭打调教 | 三级精品在线观看 | 熟女肥逼 | 国产V亚洲V天堂无码精品 | 中国一级A毛片 | 欧美视频在线第3页导航 | 久久国产乱子伦精品一区二区豆花 | 国内精品久久久久久久星辰影视 | 久久久久免费网站 |