1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        simhashsimhash算法庫

        聯(lián)合創(chuàng)作 · 2023-09-25 21:22

        專門針對中文文檔的simhash算法庫

        簡介

        此項目用來對中文文檔計算出對應(yīng)的 simhash 值。 simhash 是谷歌用來進行文本去重的算法,現(xiàn)在廣泛應(yīng)用在文本處理中。

        詳見SimhashBlog

        特性

        • 使用 CppJieba 作為分詞器和關(guān)鍵詞抽取器

        • 使用 jenkins 作為 hash 函數(shù)

        • hpp 風(fēng)格,所有源碼都是 .hpp 文件里面,方便使用。 沒有鏈接,就沒有傷害。

        依賴

        • g++ (version >= 4.1 recommended), or clang++ .

        用法

        mkdir build cd build
        cmake ..
        make

        演示

        ./bin/simhash.demo

        結(jié)果如下:

        文本:"我是藍翔技工拖拉機學(xué)院手扶拖拉機專業(yè)的。不用多久,我就會升職加薪,當上總經(jīng)理,出任CEO,走上人生巔峰。"
        關(guān)鍵詞序列是: ["藍翔:11.7392", "CEO:11.7392", "升職:10.8562", "加薪:10.6426", "手扶拖拉機:10.0089"]
        simhash值是: 17831459094038722629
        100010110110和110001110011 simhash值的相等判斷如下:
        海明距離閾值默認設(shè)置為3,則isEqual結(jié)果為:0
        海明距離閾值默認設(shè)置為5,則isEqual結(jié)果為:1

        詳情請看 src/main.cpp

        客服

        [email protected]

        瀏覽 18
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        編輯 分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        編輯 分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            抽插馒头逼 | 午夜婷婷 | 少妇动态图片 | 裸男体无遮挡欧美 | 伊人在线视频 | 欧美日韩在线免费观看 | 逼逼导航 | 久久天天躁狠狠躁夜夜96流白浆 | 影音先锋麻豆传媒 | 屌操网|