1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        jieba,宇宙最強(qiáng)Python分詞工具使用指南

        共 1381字,需瀏覽 3分鐘

         ·

        2020-09-30 15:34

        點(diǎn)擊上方“?python入門與進(jìn)階”,關(guān)注并“星標(biāo)

        每日接收Python干貨!來源:Python之禪

        結(jié)巴分詞是Python語(yǔ)言中最流行的一個(gè)分詞工具,在自然語(yǔ)言處理等場(chǎng)景被廣泛使用。


        因?yàn)镚itHub寫的文檔太啰嗦,所以整理了一個(gè)簡(jiǎn)版的入門使用指南,看完可直接上手

        安裝

        pip install jieba

        簡(jiǎn)單分詞

        import jieba

        result = jieba.cut("我愛中國(guó)北京大學(xué)")
        for word in result:
        print(word)

        輸出



        中國(guó)
        北京大學(xué)

        句子切分成了5個(gè)詞組。

        全模式分詞

        result = jieba.cut("我愛中國(guó)北京大學(xué)", cut_all=True)
        for word in result:
        print(word)

        輸出



        中國(guó)
        北京
        北京大學(xué)
        大學(xué)

        全模式分出來的詞覆蓋面更廣。

        提取關(guān)鍵詞

        從一個(gè)句子或者一個(gè)段落中提取前k個(gè)關(guān)鍵詞

        import jieba.analyse

        result = jieba.analyse.extract_tags("機(jī)器學(xué)習(xí),需要一定的數(shù)學(xué)基礎(chǔ),需要掌握的數(shù)學(xué)基礎(chǔ)知識(shí)特別多,"
        "如果從頭到尾開始學(xué),估計(jì)大部分人來不及,我建議先學(xué)習(xí)最基礎(chǔ)的數(shù)學(xué)知識(shí)",
        topK=5,
        withWeight=False)
        import pprint

        pprint.pprint(result)

        輸出

        ['數(shù)學(xué)', '學(xué)習(xí)', '數(shù)學(xué)知識(shí)', '基礎(chǔ)知識(shí)', '從頭到尾']
        • topK 為返回前topk個(gè)權(quán)重最大的關(guān)鍵詞

        • withWeight 返回每個(gè)關(guān)鍵字的權(quán)重值

        去掉停止詞

        停止詞是指在句子中無關(guān)緊要的詞語(yǔ),例如標(biāo)點(diǎn)符號(hào)、指示代詞等等,做分詞前要先將這些詞去掉。分詞方法cut不支持直接過濾停止詞,需要手動(dòng)處理。提取關(guān)鍵字的方法?extract_tags?支持停止詞過濾

        # 先過濾停止詞
        jieba.analyse.set_stop_words(file_name)
        result = jieba.analyse.extract_tags(content, tokK)

        file_name 的文件格式是文本文件,每行一個(gè)詞語(yǔ)

        官方地址:https://github.com/fxsjy/jieba

        - end -

        回復(fù)關(guān)鍵字“ 簡(jiǎn)明python ”,立即獲取入門必備書籍簡(jiǎn)明python教程》電子版

        回復(fù)關(guān)鍵字爬蟲 ”,立即獲取爬蟲學(xué)習(xí)資料

        python入門與進(jìn)階
        每天與你一起成長(zhǎng)

        推薦閱讀

        點(diǎn)「在看」的人都變好看了哦!
        瀏覽 48
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            精品99国产国产精 | 亚洲理伦| 18禁一区二区 | 蜜臀国产精品 | 男女网站免费 | 乱伦中文字幕免费看 | 黄色天堂网 | 国产精品一级二级三级 | 翔田千里三级片 | 国产精品啪一品二区三区粉嫩 |