1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        基于Python的語料庫數(shù)據(jù)處理(一)

        共 1388字,需瀏覽 3分鐘

         ·

        2020-11-07 11:12

        ?是新朋友嗎?記得先點數(shù)據(jù)科學(xué)與人工智能關(guān)注我哦~

        《Python玩語料庫數(shù)據(jù)》專欄·第1篇

        ?| 段洵??

        1032字 | 5?分鐘閱讀


        【數(shù)據(jù)科學(xué)與人工智能】已開通Python語言社群,學(xué)用Python,玩弄數(shù)據(jù),求解問題,以創(chuàng)價值。喜樂入群者,請加微信號shushengya360,掃描文末二維碼,添加為好友,同時附上Python-入群。有朋自遠方來,不亦樂乎,并誠邀入群,以達相互學(xué)習(xí)和進步之美好心愿。
        一起來學(xué)習(xí)用Python進行語料庫數(shù)據(jù)處理吧!

        一、計算二元組的共信息值


        二元組(Bigram)指的是字符串中兩個相鄰的單詞組合。比如在字符串“I love Python programming”中有“I love”、“l(fā)ove Python”、“Python programming”三個二元組。我們可以通過計算二元組的共信息值來判斷該二元組內(nèi)的兩個單詞的共現(xiàn)是否具有顯著意義。二元組共信息值得計算公式如下:

        e1d79c5f18f8b30c2ece5f4491dbbb86.webp

        其中f(x)為x詞在語料庫中出現(xiàn)的頻次,f(y)為y詞在語料庫中出現(xiàn)的頻次,f(x,y)為(x,y)在語料庫中共現(xiàn)的頻次,N為語料庫的庫容。


        接下來舉一個例子加深理解:假設(shè)二元組(there,are)在某庫容為1000000詞的語料庫中共現(xiàn)的頻次為335,there在該語料庫中的頻次為2844,are在該語料庫中出現(xiàn)的頻次為4393,試計算二元組(there,are)的共信息值。

        f73c7fee36b42f5510b89721df387ad6.webp

        通過計算,共信息值約為4.74,說明共現(xiàn)意義顯著。


        二、計算二元組的T值


        除了計算共信息值以外,還可以通過計算T值來判斷該二元組內(nèi)兩個單詞的共現(xiàn)是否具有顯著意義。二元組T值計算公式為:

        61fa1a53b6bcec7039aa2e8ad4d4f540.webp

        其中f(x)為x詞在語料庫中出現(xiàn)的頻次,f(y)為y詞在語料庫中出現(xiàn)的頻次,f(x,y)為(x,y)在語料庫中共現(xiàn)的頻次,N為語料庫的庫容。


        以上一二元組為例加深理解:假設(shè)二元組(there,are)在某庫容為1000000詞的語料庫中共現(xiàn)的頻次為335,there在該語料庫中的頻次為2844,are在該語料庫中出現(xiàn)的頻次為4393,試計算二元組(there,are)的共信息值。

        5bec294b7de0ee437a1af2a1ea216380.webp

        通過計算,T約為17.62,說明共現(xiàn)意義顯著。


        三、頻次轉(zhuǎn)換


        接下來我們來練習(xí)觀測頻次(observed frequency)與相對頻次(relative frequency)或標(biāo)準(zhǔn)化頻次(normalized frequency)的轉(zhuǎn)換。假設(shè)某單詞x在某語料庫中出現(xiàn)了1538次,那么1538就是該單詞在語料庫中的觀測頻次。在匯報數(shù)據(jù)時,通常匯報觀測頻次,但相對頻次或標(biāo)準(zhǔn)化頻次也可匯報,即某單詞在語料庫中每1000詞次或10000詞次出現(xiàn)的頻次。假設(shè)某語料庫的庫容為2156586詞,求單詞x的相對頻次或標(biāo)準(zhǔn)化頻次。

        09143fad02e763c441fb1c45bee01487.webp

        通過計算,每1000詞次中x的相對頻次或標(biāo)準(zhǔn)化頻次約為0.71,每10000詞次中x的相對頻次或標(biāo)準(zhǔn)化頻次約為7.13。


        四、結(jié)語


        這是基于Python的語料庫數(shù)據(jù)處理專欄的第一期,以后也會定期更新。有在研究語料庫的朋友可以一起來學(xué)習(xí),使用Python進行語料庫數(shù)據(jù)處理會更方便、更快捷。


        公眾號推薦

        數(shù)據(jù)思踐


        數(shù)據(jù)思踐公眾號記錄和分享數(shù)據(jù)人思考和踐行的內(nèi)容與故事。

        Python語言群

        誠邀您加入


        請掃下方二維碼加我為好友,備注Python-入群。有朋自遠方來,不亦樂乎,并誠邀入群,以達相互學(xué)習(xí)和進步之美好心愿。


        瀏覽 183
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            天天尻 | 国产又粗又黄又爽又硬的视频 | 欧美成人性爱图片 | 色综合天天操 | chinesespanking调教luna | 娇妻被老外性调教18 | 欧美后门菊门交3p | 啊啊啊好大好痛 | 性爱乱伦小说 | 国产乱子伦精品视频潮 |