jieba,宇宙最強(qiáng)Python分詞工具使用指南
點(diǎn)擊上方“?python入門與進(jìn)階”,關(guān)注并“星標(biāo)
每日接收Python干貨!
來源:Python之禪
結(jié)巴分詞是Python語(yǔ)言中最流行的一個(gè)分詞工具,在自然語(yǔ)言處理等場(chǎng)景被廣泛使用。
因?yàn)镚itHub寫的文檔太啰嗦,所以整理了一個(gè)簡(jiǎn)版的入門使用指南,看完可直接上手
安裝
pip install jieba
簡(jiǎn)單分詞
import jieba
result = jieba.cut("我愛中國(guó)北京大學(xué)")
for word in result:
print(word)
輸出
我
愛
中國(guó)
北京大學(xué)
句子切分成了5個(gè)詞組。
全模式分詞
result = jieba.cut("我愛中國(guó)北京大學(xué)", cut_all=True)
for word in result:
print(word)
輸出
我
愛
中國(guó)
北京
北京大學(xué)
大學(xué)
全模式分出來的詞覆蓋面更廣。
提取關(guān)鍵詞
從一個(gè)句子或者一個(gè)段落中提取前k個(gè)關(guān)鍵詞
import jieba.analyse
result = jieba.analyse.extract_tags("機(jī)器學(xué)習(xí),需要一定的數(shù)學(xué)基礎(chǔ),需要掌握的數(shù)學(xué)基礎(chǔ)知識(shí)特別多,"
"如果從頭到尾開始學(xué),估計(jì)大部分人來不及,我建議先學(xué)習(xí)最基礎(chǔ)的數(shù)學(xué)知識(shí)",
topK=5,
withWeight=False)
import pprint
pprint.pprint(result)
輸出
['數(shù)學(xué)', '學(xué)習(xí)', '數(shù)學(xué)知識(shí)', '基礎(chǔ)知識(shí)', '從頭到尾']
topK 為返回前topk個(gè)權(quán)重最大的關(guān)鍵詞
withWeight 返回每個(gè)關(guān)鍵字的權(quán)重值
去掉停止詞
停止詞是指在句子中無關(guān)緊要的詞語(yǔ),例如標(biāo)點(diǎn)符號(hào)、指示代詞等等,做分詞前要先將這些詞去掉。分詞方法cut不支持直接過濾停止詞,需要手動(dòng)處理。提取關(guān)鍵字的方法?extract_tags?支持停止詞過濾
# 先過濾停止詞
jieba.analyse.set_stop_words(file_name)
result = jieba.analyse.extract_tags(content, tokK)
file_name 的文件格式是文本文件,每行一個(gè)詞語(yǔ)
官方地址:https://github.com/fxsjy/jieba
- end - 回復(fù)關(guān)鍵字“ 簡(jiǎn)明python ”,立即獲取入門必備書籍《簡(jiǎn)明python教程》電子版
回復(fù)關(guān)鍵字 “ 爬蟲 ”,立即獲取爬蟲學(xué)習(xí)資料
python入門與進(jìn)階 每天與你一起成長(zhǎng) 推薦閱讀
點(diǎn)「在看」的人都變好看了哦!
評(píng)論
圖片
表情
