1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        新一代爬蟲利器 Playwright!

        共 5238字,需瀏覽 11分鐘

         ·

        2022-05-31 14:43

        在公眾號后臺回復(fù):JGNB,可獲取杰哥原創(chuàng)的 PDF 手冊。

        大家好,我是杰哥。

        最近,微軟開源了一個項目叫「playwright-python」,作為一個興起項目,出現(xiàn)后受到了大家熱烈的歡迎,那它到底是什么樣的存在呢?今天為你介紹一下這個傳說中的小白神器。

        Playwright 是針對 Python 語言的純自動化工具,它可以通過單個API自動執(zhí)行 Chromium,F(xiàn)irefox 和 WebKit 瀏覽器,連代碼都不用寫,就能實現(xiàn)自動化功能。

        雖然測試工具 selenium 具有完備的文檔,但是其學(xué)習(xí)成本讓一眾小白們望而卻步,對比之下 playwright-python 簡直是小白們的神器。

        Playwright真的適用于Python嗎?答案是肯定的,微軟對于適用于Python的Playwright已準(zhǔn)備就緒。可能會發(fā)生API重大更改。但大概率是這種情況不會發(fā)生,微軟還表示僅在他們知道它可以改善您使用新庫的體驗時,才會可能這樣做。不過微軟也提醒尚不支持特定于供應(yīng)商的API的某些極端情況,例如收集Chromium跟蹤,覆蓋率報告等。

        1、Playwright介紹

        Playwright是一個強(qiáng)大的Python庫,僅用一個API即可自動執(zhí)行Chromium、Firefox、WebKit等主流瀏覽器自動化操作,并同時支持以無頭模式、有頭模式運(yùn)行。

        Playwright提供的自動化技術(shù)是綠色的、功能強(qiáng)大、可靠且快速,支持Linux、Mac以及Windows操作系統(tǒng)。

        還有朋友這么夸:這個項目作為針對 Python 語言純自動化的工具,解放了代碼,實現(xiàn)了自動化功能,我們來看看怎么用它吧。

        2、Playwright使用

        安裝

        Playwright的安裝非常簡單,兩步解決。

        安裝playwright庫
        pip?install?playwright
        安裝瀏覽器驅(qū)動文件(安裝過程稍微有點慢)
        python?-m?playwright?install

        上面兩個pip操作分別安裝:

        • 安裝Playwright依賴庫,需要Python3.7+

        • 安裝Chromium、Firefox、WebKit等瀏覽器的驅(qū)動文件

        錄制

        使用Playwright無需寫一行代碼,我們只需手動操作瀏覽器,它會錄制我們的操作,然后自動生成代碼腳本。

        下面就是錄制的命令codegen,僅僅一行。

        命令行鍵入?--help?可看到所有選項
        python?-m?playwright?codegen

        codegen的用法可以使用--help查看,如果簡單使用就是直接在命令后面加上url鏈接,如果有其他需要可以添加options。

        python?-m?playwright?codegen?--help
        Usage:?index?codegen?[options]?[url]


        open?page?and?generate?code?for?user?actions


        Options:
        ??-o,?--output???saves?the?generated?script?to?a?file
        ??--target????????language?to?use,?one?of?javascript,?python,?python-async,?csharp?(default:?"python")
        ??-h,?--help????????????????display?help?for?command


        Examples:


        ??$?codegen
        ??$?codegen?--target=python
        ??$?-b?webkit?codegen?https://example.com

        options含義:

        • -o:將錄制的腳本保存到一個文件

        • --target:規(guī)定生成腳本的語言,有JS和Python兩種,默認(rèn)為Python

        • -b:指定瀏覽器驅(qū)動

        比如,我要在baidu.com搜索,用chromium驅(qū)動,將結(jié)果保存為my.py的python文件。

        python?-m?playwright?codegen?--target?python?-o?'my.py'?-b?chromium?https://www.baidu.com

        命令行輸入后會自動打開瀏覽器,然后可以看見在瀏覽器上的一舉一動都會被自動翻譯成代碼,如下所示。

        結(jié)束后自動關(guān)閉瀏覽器,保存生成的自動化腳本到py文件。

        from?playwright?import?sync_playwright


        def?run(playwright):
        browser?=?playwright.chromium.launch(headless=False)
        context?=?browser.newContext()

        #?Open?new?page
        page?=?context.newPage()


        page.goto("https://www.baidu.com/")


        page.click("input[name="wd"]")


        page.fill("input[name="wd"]",?"jingdong")


        page.click("text="京東"")

        #?Click?//a[normalize-space(.)='京東JD.COM官網(wǎng)?多快好省?只為品質(zhì)生活']
        with?page.expect_navigation():
        ????with?page.expect_popup()?as?popup_info:
        ????????page.click("http://a[normalize-space(.)='京東JD.COM官網(wǎng)?多快好省?只為品質(zhì)生活']")
        ????page1?=?popup_info.value
        #?---------------------
        context.close()
        browser.close()
        with?sync_playwright()?as?playwright:
        run(playwright

        此外,playwright還提供了同步和異步的API接口,文檔如下。另外:在公眾號:杰哥的IT之旅,后臺回復(fù):JGNB,可獲取杰哥原創(chuàng)的 PDF 手冊。

        同步

        下面示例代碼:依次打開三個瀏覽器,前往baidu搜索,截圖后退出。

        from?playwright?import?sync_playwright
        with?sync_playwright()?as?p:
        for?browser_type?in?[p.chromium,?p.firefox,?p.webkit]:
        ????browser?=?browser_type.launch()
        ????page?=?browser.newPage()
        ????page.goto('https://baidu.com/')
        ????page.screenshot(path=f'example-{browser_type.name}.png')
        ????browser.close()

        異步

        異步操作可結(jié)合asyncio同時進(jìn)行三個瀏覽器操作。

        import?asyncio
        from?playwright?import?async_playwright
        async?def?main():
        async?with?async_playwright()?as?p:
        ????for?browser_type?in?[p.chromium,?p.firefox,?p.webkit]:
        ????????browser?=?await?browser_type.launch()
        ????????page?=?await?browser.newPage()
        ????????await?page.goto('http://baidu.com/')
        ????????await?page.screenshot(path=f'example-{browser_type.name}.png')
        ????????await?browser.close()
        ????????asyncio.get_event_loop().run_until_complete(main())

        移動端

        更厲害的是,playwright還可支持移動端的瀏覽器模擬。下面是官方文檔提供的一段代碼,模擬在給定地理位置上手機(jī)iphone 11 pro上的Safari瀏覽器,首先導(dǎo)航到maps.google.com,然后執(zhí)行定位并截圖。

        from?playwright?import?sync_playwright
        with?sync_playwright()?as?p:
        iphone_11?=?p.devices['iPhone?11?Pro']
        browser?=?p.webkit.launch(headless=False)
        context?=?browser.newContext(
        ????**iphone_11,
        ????locale='en-US',
        ????geolocation={?'longitude':?12.492507,?'latitude':?41.889938?},
        ????permissions=['geolocation']
        )
        page?=?context.newPage()
        page.goto('https://maps.google.com')
        page.click('text="Your?location"')
        page.screenshot(path='colosseum-iphone.png')
        browser.close()

        另外,還可以配合pytest插件一起使用,感興趣可以自己試一下。

        3、總結(jié)

        playwright相比已有的自動化測試工具有很多優(yōu)勢,其中有:

        支持所有瀏覽器的

        • 在Chromium,F(xiàn)irefox和WebKit上進(jìn)行測試。Playwright擁有適用于所有現(xiàn)代瀏覽器的完整API覆蓋,包括Google Chrome和Microsoft Edge(帶有Chromium),Apple Safari(帶有WebKit)和Mozilla Firefox。

        • 跨平臺的WebKit測試。使用Playwright,使用適用于Windows,Linux和macOS的WebKit構(gòu)建,測試您的應(yīng)用程序在Apple Safari中的行為。在本地和CI上進(jìn)行測試。

        • 測試手機(jī)。使用設(shè)備仿真在移動Web瀏覽器中測試您的自適應(yīng)Web應(yīng)用程序。

        • 無報文頭與有報文頭。Playwright支持所有瀏覽器和所有平臺的無頭(無瀏覽器UI)和有頭(有瀏覽器UI)模式。有報文頭模式適用于調(diào)試,而無報文頭適用于CI / cloud執(zhí)行。

        擁有快速可靠的執(zhí)行

        • 自動等待APIs。Playwright交互會自動等待直到元素準(zhǔn)備就緒。這樣可以提高可靠性并簡化測試編寫流程。

        • 無超時自動化。Playwright會接收瀏覽器信號,例如網(wǎng)絡(luò)請求,頁面導(dǎo)航和頁面加載事件,以消除導(dǎo)致睡眠中斷的煩惱。

        • 與瀏覽器上下文保持并行。對于多個并行孤立的瀏覽器上下文可執(zhí)行環(huán)境重復(fù)使用一個單獨的瀏覽器實例。

        • 彈性元素選擇器。Playwright可以依靠面向用戶的字符串(例如文本內(nèi)容和可訪問性標(biāo)簽)來選擇元素。這些字符串比緊耦合到DOM結(jié)構(gòu)的選擇器更具彈性。

        擁有強(qiáng)大的自動化功能

        • 多個域,頁面和框架。Playwright是一種進(jìn)程外自動化驅(qū)動程序,不受頁面內(nèi)JavaScript執(zhí)行范圍的限制,并且可以自動執(zhí)行具有多個頁面的方案。

        • 強(qiáng)大的網(wǎng)絡(luò)控制。Playwright引入上下文范圍的網(wǎng)絡(luò)攔截以便進(jìn)行終止或者模擬網(wǎng)絡(luò)請求。

        • 現(xiàn)代網(wǎng)絡(luò)功能。Playwright通過插入陰的選擇器,地理位置,權(quán)限,Web Worker和其他現(xiàn)代Web API支持Web組件。

        • 涵蓋所有場景的能力。支持文件下載和上傳,進(jìn)程外iframe,原生輸入事件,甚至是深色模式。

        但它也有局限性

        • 舊版Edge和IE11支持。Playwright不支持舊版Microsoft Edge或IE11(棄用通知)。支持新的Microsoft Edge(在Chromium上)。

        • Java語言綁定:Playwright API目前無法在Java或Ruby中使用。這是暫時的限制,因為Playwright旨在支持任何語言的綁定。

        • 在真實的移動設(shè)備上進(jìn)行測試:Playwright使用桌面瀏覽器來模擬移動設(shè)備。

        雖然有一些局限,但現(xiàn)在playwright 已經(jīng)更新到了 1.7.0 版本,隨著一代代的更新,系統(tǒng)也會更為完善,作為一款小白神器,為大家省了那么多事情,我們相信它的未來會越來越好。

        推薦閱讀

        Python爬蟲實戰(zhàn) | 利用多線程爬取 LOL 高清壁紙


        一個能夠屏蔽百度廣告的爬蟲:BaiduSpider


        Python 爬取鏈家成都二手房源信息 asyncio + aiohttp 異步爬蟲實戰(zhàn)

        瀏覽 62
        點贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            A片免费黄色电影网站 | 国产做受 高潮短发巨乳 | 俺去也在线视频 | 女人黄网站| 操女人逼逼视频 | 免费操逼视频在线观看 | 日本熟妇性爱HD | 大肉大捧一进一出视频来了 | 欧美jizz10性欧美 | 国产女十八毛片水真多 |