HanLP自然語言處理
HanLP: Han Language Processing
漢語言處理包
HanLP 是由一系列模型與算法組成的 Java 工具包,目標是普及自然語言處理在生產(chǎn)環(huán)境中的應(yīng)用。HanLP 具備功能完善、性能高效、架構(gòu)清晰、語料時新、可自定義的特點。
HanLP 提供下列功能:
-
中文分詞
-
最短路分詞
-
N-最短路分詞
-
CRF分詞
-
索引分詞
-
極速詞典分詞
-
用戶自定義詞典
-
-
詞性標注
-
命名實體識別
-
中國人名識別
-
音譯人名識別
-
日本人名識別
-
地名識別
-
實體機構(gòu)名識別
-
-
關(guān)鍵詞提取
-
TextRank關(guān)鍵詞提取
-
-
自動摘要
-
TextRank自動摘要
-
-
短語提取
-
基于互信息和左右信息熵的短語提取
-
-
拼音轉(zhuǎn)換
-
多音字
-
聲母
-
韻母
-
聲調(diào)
-
-
簡繁轉(zhuǎn)換
-
繁體中文分詞
-
簡繁分歧詞
-
-
文本推薦
-
語義推薦
-
拼音推薦
-
字詞推薦
-
-
依存句法分析
-
MaxEnt依存句法分析
-
CRF依存句法分析
-
-
語料庫工具
-
分詞語料預(yù)處理
-
詞頻詞性詞典制作
-
BiGram統(tǒng)計
-
詞共現(xiàn)統(tǒng)計
-
CoNLL語料預(yù)處理
-
CoNLL UA/LA/DA評測工具
-
在提供豐富功能的同時,HanLP 內(nèi)部模塊堅持低耦合、模型堅持惰性加載、服務(wù)堅持靜態(tài)提供、詞典堅持明文發(fā)布,使用非常方便,同時自帶一些語料處理工具,幫助用戶訓(xùn)練自己的語料。
評論
圖片
表情
