ideaseg基于 NLP 的中文分詞器
ideaseg 是一個基于最新的 HanLP 自然語言處理工具包實現(xiàn)的中文分詞器, 包含了最新的模型數(shù)據(jù),同時移除了 HanLP 所包含的非商業(yè)友好許可的 NeuralNetworkParser 相關(guān)代碼和數(shù)據(jù)。
HanLP 相比其他諸如 IK、jcseg 等分詞器而言,在分詞的準確率上有巨大的提升,但速度上有所犧牲。 通過對 HanLP 進行優(yōu)化配置,ideaseg 在準確度和分詞速度上取得了最佳的平衡。
與其他基于 HanLP 的插件相比,ideaseg 同步了最新 HanLP 的代碼和數(shù)據(jù),去除了無法商用的相關(guān)內(nèi)容;實現(xiàn)了自動配置; 包含了模型數(shù)據(jù),無需自行下載,使用簡單方便。
ideaseg 提供三個模塊包括:
-
core~ 核心分詞器模塊 -
elasticsearch~ ElasticSearch 的 ideaseg 分詞插件 (最高支持 7.10.2 版本) -
opensearch~ OpenSearch 的 ideaseg 分詞插件 (默認版本 2.4.1)
評論
圖片
表情
