simhashsimhash算法庫
專門針對中文文檔的simhash算法庫
簡介
此項目用來對中文文檔計算出對應(yīng)的 simhash 值。 simhash 是谷歌用來進行文本去重的算法,現(xiàn)在廣泛應(yīng)用在文本處理中。
特性
使用 CppJieba 作為分詞器和關(guān)鍵詞抽取器
使用 jenkins 作為 hash 函數(shù)
hpp 風(fēng)格,所有源碼都是 .hpp 文件里面,方便使用。 沒有鏈接,就沒有傷害。
依賴
g++ (version >= 4.1 recommended), or clang++ .
用法
mkdir build cd build cmake .. make
演示
./bin/simhash.demo
結(jié)果如下:
文本:"我是藍翔技工拖拉機學(xué)院手扶拖拉機專業(yè)的。不用多久,我就會升職加薪,當上總經(jīng)理,出任CEO,走上人生巔峰。" 關(guān)鍵詞序列是: ["藍翔:11.7392", "CEO:11.7392", "升職:10.8562", "加薪:10.6426", "手扶拖拉機:10.0089"] simhash值是: 17831459094038722629 100010110110和110001110011 simhash值的相等判斷如下: 海明距離閾值默認設(shè)置為3,則isEqual結(jié)果為:0 海明距離閾值默認設(shè)置為5,則isEqual結(jié)果為:1
詳情請看 src/main.cpp
客服
評論
圖片
表情
