jieba,宇宙最強Python分詞工具使用指南

? ? ?作者:劉志軍
? ? ?來源:Python之禪
結(jié)巴分詞是Python語言中最流行的一個分詞工具,在自然語言處理等場景被廣泛使用。
因為GitHub寫的文檔太啰嗦,所以整理了一個簡版的入門使用指南,看完可直接上手
安裝
pip install jieba
簡單分詞
import jieba
result = jieba.cut("我愛中國北京大學")
for word in result:
print(word)
輸出
我
愛
中國
北京大學
句子切分成了5個詞組。
全模式分詞
result = jieba.cut("我愛中國北京大學", cut_all=True)
for word in result:
print(word)
輸出
我
愛
中國
北京
北京大學
大學
全模式分出來的詞覆蓋面更廣。
提取關(guān)鍵詞
從一個句子或者一個段落中提取前k個關(guān)鍵詞
import jieba.analyse
result = jieba.analyse.extract_tags("機器學習,需要一定的數(shù)學基礎(chǔ),需要掌握的數(shù)學基礎(chǔ)知識特別多,"
"如果從頭到尾開始學,估計大部分人來不及,我建議先學習最基礎(chǔ)的數(shù)學知識",
topK=5,
withWeight=False)
import pprint
pprint.pprint(result)
輸出
['數(shù)學', '學習', '數(shù)學知識', '基礎(chǔ)知識', '從頭到尾']
topK 為返回前topk個權(quán)重最大的關(guān)鍵詞
withWeight 返回每個關(guān)鍵字的權(quán)重值
去掉停止詞
停止詞是指在句子中無關(guān)緊要的詞語,例如標點符號、指示代詞等等,做分詞前要先將這些詞去掉。分詞方法cut不支持直接過濾停止詞,需要手動處理。提取關(guān)鍵字的方法?extract_tags?支持停止詞過濾
# 先過濾停止詞
jieba.analyse.set_stop_words(file_name)
result = jieba.analyse.extract_tags(content, tokK)
file_name 的文件格式是文本文件,每行一個詞語
官方地址:https://github.com/fxsjy/jieba
◆?◆?◆ ?◆?◆
長按二維碼關(guān)注我們
數(shù)據(jù)森麟公眾號的交流群已經(jīng)建立,許多小伙伴已經(jīng)加入其中,感謝大家的支持。大家可以在群里交流關(guān)于數(shù)據(jù)分析&數(shù)據(jù)挖掘的相關(guān)內(nèi)容,還沒有加入的小伙伴可以掃描下方管理員二維碼,進群前一定要關(guān)注公眾號奧,關(guān)注后讓管理員幫忙拉進群,期待大家的加入。
管理員二維碼:
評論
圖片
表情
