1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        “查天氣語音播報版

        共 2543字,需瀏覽 6分鐘

         ·

        2021-02-23 14:08


        大家好,歡迎來到 Crossin的編程教室 !

        查天氣”是一個基礎的爬蟲案例,非常適合剛剛學習爬蟲時用來練手。我們編程教室就寫過一系列這樣的教程。(在公眾號“Crossin的編程教室”里回復關鍵字?查天氣?可查看)
        今天我們來分享另一個版本的查天氣,它的一個特色之處是可以通過語音播報查詢到的天氣情況。

        1?預備知識

        此案例實現功能:利用網絡爬蟲,爬取某地的天氣,并打印和語音播報。
        要用到requests庫,lxml庫,pyttsx3庫,沒有的,可以先安裝一下,都可以通過pip安裝:
        pip?install?requests
        pip?install?lxml
        pip?install?pyttsx3
        requests庫是個功能很強大的網絡請求庫,可以實現跟瀏覽器一樣發(fā)送各種HTTP請求來獲取網站的數據。
        lxml庫是處理XML和HTML功能最豐富,最易于使用的庫,通常用lxml庫中的etree使HTML轉化為文檔。
        pyttsx3庫是一個很簡單的播放語音的庫,你給它什么,它就讀什么,當然別在意生硬的語氣。
        基本用法如下:
        import?pyttsx3

        word?=?pyttsx3.init()

        word.say('你好')
        #?關鍵一句,沒有這行代碼,不會播放語音
        word.runAndWait()
        爬蟲是爬取網頁的相關內容,了解HTML能夠幫助你更好的理解網頁的結構、內容等。
        TCP/IP協(xié)議,HTTP協(xié)議這些知識了解一下就可以,能夠讓你了解在網絡請求和網絡傳輸上的基本原理,這次的小案例用不到。

        2 詳細說一說

        2.1 get請求目標網址

        我們首先導入requests庫,然后就用它來獲取目標的網頁,我們請求的是天氣網站中的北京天氣。
        import?requests
        #?向目標url地址發(fā)送請求,返回一個response對象
        req?=?requests.get('https://www.tianqi.com/beijing/')
        #?.text是response對象的網頁html
        print(req.text)
        打印出的結果就是網站上顯示的內容,瀏覽器就是通過這些內容“解析”出來我們看到的結構如下:

        我們請求后的獲得的數據

        注意啦,小伙伴們有很大可能運行之后得不到網頁代碼,而是顯示403,這是什么意思呢?
        403錯誤是一種在網站訪問過程中,常見的錯誤提示,表示資源不可用。服務器理解客戶的請求,但拒絕處理它。
        我們寫的爬蟲一般會默認告訴服務器,自己發(fā)送一個Python爬取請求,而很多的網站都會設置反爬蟲的機制,不允許被爬蟲訪問的。
        所以,我們想讓目標服務器響應,那就把我們的爬蟲進行一下偽裝。此小案例就用常用的更改User-Agent字段進行偽裝。
        改一下之前的代碼,將爬蟲偽裝成瀏覽器請求,這樣就可以進行正常的訪問了。

        import?requests

        headers?=?{'content-type':'application/json',?'User-Agent':'Mozilla/5.0?(Xll;?Ubuntu;?Linux?x86_64;?rv:22.0)?Gecko/20100101?Firefox/22.0'}

        #?向目標url地址發(fā)送請求,返回一個response對象
        req?=?requests.get('https://www.tianqi.com/beijing/',headers=headers)
        #?.text是response對象的網頁html
        print(req.text)
        User-Agent字段怎么來的呢?我們以Chrome瀏覽器為例子,先隨便打開一個網頁,按鍵盤的F12或在空白處點擊鼠標右鍵選擇“檢查”;然后刷新網頁,點擊“Network”再點擊“Doc”,點擊Headers,在信息欄查看Request Headers的User-Agent字段,直接復制,咱們就可以用啦。

        2.2 lxml.etree登場

        我們從網頁請求獲得的數據繁雜,其中只有一部分是我們真正想得到的數據,例如我們從天氣的網站中查看北京的天氣,只有下圖中使我們想要得到的,我們如如何提取呢?這就要用到lxml.etree。

        整個代碼中只有一小部分我們想要的信息,我們發(fā)現想要的天氣、溫度啊都在“class='weather_info'”這一層級下,那這就好辦了。我們在請求的代碼的后面加上:
        html_obj?=?etree.HTML(html)
        html_data?=?html_obj.xpath("http://dl[@class='weather_info']//text()")

        我們print(html_data)一下看看提取是不是我們想要的數據。

        發(fā)現連網頁中換行符啊什么的也都提取出來了,還有,別忘了,提取出來的是列表哦。我們還要做一下處理。
        word?=?"歡迎使用天氣播報助手"

        for?data?in?html_data:
        ????word?+=?data
        處理完我們打印一下看看,嗯,我們想要的都有了。不過還多了一個[切換城市],我們精益求精,最后把這個最后再去掉。

        2.3 把結果說出來

        我們想要的數據都在word變量里啦,現在就讓他讀出來,用pyttsx3這個庫,
        ptt?=?pyttsx3.init()
        ptt.say(word)
        ptt.runAndWait()
        好的,現在都已完成,試試看效果吧!
        (注意:pyttsx3會調用系統(tǒng)的語音功能,如果你發(fā)現讀中文時出錯,去檢查系統(tǒng)設置里是否為中文語音)
        我們一步一步都摸索過來,現在整合在一起,最后播放效果還是不錯的,這是一次很美好的爬蟲之旅,期待下次爬??!
        完整代碼:
        https://gitee.com/crossin/tiny-code/blob/master/weather_voice.py

        如果文章對你有幫助,歡迎轉發(fā)/點贊/收藏~


        作者:雪糕微冷
        來源:Python與算法社區(qū)


        _往期文章推薦_

        手把手教你用python“查天氣”




        瀏覽 55
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            国产一级淫漫网 | 欧美成人免费八AAA片 | 久青草视频在线播放 | 免费黄片av | 国产性在线 | 久久精品老司机 | 青青草国产免费无码欧美 | 操屄视频直播 | 伊人大香蕉75 | jizz久久精品永久免费 |