1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        中文文本錯(cuò)別字檢測(cè)以及自動(dòng)糾錯(cuò)

        共 2892字,需瀏覽 6分鐘

         ·

        2020-11-11 15:33





        向AI轉(zhuǎn)型的程序員都關(guān)注了這個(gè)號(hào)???

        機(jī)器學(xué)習(xí)AI算法工程?? 公眾號(hào):datayx


        How to use :

        • run in the terminal : python Autochecker4Chinese.py

        • You will get the following result :



        代碼及運(yùn)行教程?獲?。?/span>

        關(guān)注微信公眾號(hào) datayx ?然后回復(fù)??糾錯(cuò)? 即可獲取。



        1. Make a detecter

        • Construct a dict to detect the misspelled chinese phrase,key is the chinese phrase, value is its corresponding frequency appeared in corpus.

        • You can finish this step by collecting corpus from the internet, or you can choose a more easy way, load some dicts already created by others. Here we choose the second way, construct the dict from file.

        • The detecter works in this way: for any phrase not appeared in this dict, the detecter will detect it as a mis-spelled phrase.



        ?Make an autocorrecter

        • Make an autocorrecter for the misspelled phrase, we use the edit distance to make a correct-candidate list for the mis-spelled phrase

        • We sort the correct-candidate list according to the likelyhood of being the correct phrase, based on the following rules:

          • If the candidate's pinyin matches exactly with misspelled phrase's pinyin, we put the candidate in first order, which means they are the most likely phrase to be selected.

          • Else if candidate first word's pinyin matches with misspelled phrase's first word's pinyin, we put the candidate in second order.

          • Otherwise, we put the candidate in third order.





        3. Correct the misspelled phrase in a sentance

        • For any given sentence, use jieba do the segmentation,

        • Get segment list after segmentation is done, check if the remain phrase exists in word_freq dict, if not, then it is a misspelled phrase

        • Use auto_correct function to correct the misspelled phrase

        • Output the correct sentence





        閱讀過本文的人還看了以下文章:


        TensorFlow 2.0深度學(xué)習(xí)案例實(shí)戰(zhàn)


        基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測(cè)


        《基于深度學(xué)習(xí)的自然語言處理》中/英PDF


        Deep Learning 中文版初版-周志華團(tuán)隊(duì)


        【全套視頻課】最全的目標(biāo)檢測(cè)算法系列講解,通俗易懂!


        《美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐》_美團(tuán)算法團(tuán)隊(duì).pdf


        《深度學(xué)習(xí)入門:基于Python的理論與實(shí)現(xiàn)》高清中文PDF+源碼


        特征提取與圖像處理(第二版).pdf


        python就業(yè)班學(xué)習(xí)視頻,從入門到實(shí)戰(zhàn)項(xiàng)目


        2019最新《PyTorch自然語言處理》英、中文版PDF+源碼


        《21個(gè)項(xiàng)目玩轉(zhuǎn)深度學(xué)習(xí):基于TensorFlow的實(shí)踐詳解》完整版PDF+附書代碼


        《深度學(xué)習(xí)之pytorch》pdf+附書源碼


        PyTorch深度學(xué)習(xí)快速實(shí)戰(zhàn)入門《pytorch-handbook》


        【下載】豆瓣評(píng)分8.1,《機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Scikit-Learn和TensorFlow》


        《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼


        汽車行業(yè)完整知識(shí)圖譜項(xiàng)目實(shí)戰(zhàn)視頻(全23課)


        李沐大神開源《動(dòng)手學(xué)深度學(xué)習(xí)》,加州伯克利深度學(xué)習(xí)(2019春)教材


        筆記、代碼清晰易懂!李航《統(tǒng)計(jì)學(xué)習(xí)方法》最新資源全套!


        《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》最新2018版中英PDF+源碼


        將機(jī)器學(xué)習(xí)模型部署為REST API


        FashionAI服裝屬性標(biāo)簽圖像識(shí)別Top1-5方案分享


        重要開源!CNN-RNN-CTC 實(shí)現(xiàn)手寫漢字識(shí)別


        yolo3 檢測(cè)出圖像中的不規(guī)則漢字


        同樣是機(jī)器學(xué)習(xí)算法工程師,你的面試為什么過不了?


        前海征信大數(shù)據(jù)算法:風(fēng)險(xiǎn)概率預(yù)測(cè)


        【Keras】完整實(shí)現(xiàn)‘交通標(biāo)志’分類、‘票據(jù)’分類兩個(gè)項(xiàng)目,讓你掌握深度學(xué)習(xí)圖像分類


        VGG16遷移學(xué)習(xí),實(shí)現(xiàn)醫(yī)學(xué)圖像識(shí)別分類工程項(xiàng)目


        特征工程(一)


        特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊


        特征工程(三):特征縮放,從詞袋到 TF-IDF


        特征工程(四): 類別特征


        特征工程(五): PCA 降維


        特征工程(六): 非線性特征提取和模型堆疊


        特征工程(七):圖像特征提取和深度學(xué)習(xí)


        如何利用全新的決策樹集成級(jí)聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?


        Machine Learning Yearning 中文翻譯稿


        螞蟻金服2018秋招-算法工程師(共四面)通過


        全球AI挑戰(zhàn)-場(chǎng)景分類的比賽源碼(多模型融合)


        斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)


        python+flask搭建CNN在線識(shí)別手寫中文網(wǎng)站


        中科院Kaggle全球文本匹配競(jìng)賽華人第1名團(tuán)隊(duì)-深度學(xué)習(xí)與特征工程



        不斷更新資源

        深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、python

        ?搜索公眾號(hào)添加:?datayx??



        機(jī)大數(shù)據(jù)技術(shù)與機(jī)器學(xué)習(xí)工程

        ?搜索公眾號(hào)添加:?datanlp

        長(zhǎng)按圖片,識(shí)別二維碼


        瀏覽 160
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            日韩高清A V | 免费人妻精品一区二区三区 | 免费视频a | 91免费啪啪啪 | 天堂√最新版中文在线天堂 | 沟厕引诱亲女乱亲合集在线视频 | 正在播放国产AV | 欧美老妇性生话猛交大交在线视频 | freehd国产hd | 女生让男生捅到爽 |