1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        HarvestText文本挖掘和預(yù)處理工具

        聯(lián)合創(chuàng)作 · 2023-09-25 21:39

        HarvestText 是一個專注無(弱)監(jiān)督方法,能夠整合領(lǐng)域知識(如類型,別名)對特定領(lǐng)域文本進(jìn)行簡單高效地處理和分析的庫。適用于許多文本預(yù)處理和初步探索性分析任務(wù),在小說分析,網(wǎng)絡(luò)文本,專業(yè)文獻(xiàn)等領(lǐng)域都有潛在應(yīng)用價值。

        使用案例:

        【注:本庫僅完成實體分詞和情感分析,可視化使用 matplotlib】

        具體功能如下:

        • 基本處理
          • 精細(xì)分詞分句
            • 可包含指定詞和類別的分詞。充分考慮省略號,雙引號等特殊標(biāo)點的分句。
          • 文本清洗
            • 處理URL, email, 微博等文本中的特殊符號和格式,去除所有標(biāo)點等
          • 實體鏈接
            • 把別名,縮寫與他們的標(biāo)準(zhǔn)名聯(lián)系起來。
          • 命名實體識別
            • 找到一句句子中的人名,地名,機構(gòu)名等命名實體。
          • 實體別名自動識別(更新!)
            • 從大量文本中自動識別出實體及其可能別名,直接用于實體鏈接。例子見這里
          • 依存句法分析
            • 分析語句中各個詞語(包括鏈接到的實體)的主謂賓語修飾等語法關(guān)系,
          • 內(nèi)置資源
            • 通用停用詞,通用情感詞,IT、財經(jīng)、飲食、法律等領(lǐng)域詞典。可直接用于以上任務(wù)。
          • 信息檢索
            • 統(tǒng)計特定實體出現(xiàn)的位置,次數(shù)等。
          • 新詞發(fā)現(xiàn)
            • 利用統(tǒng)計規(guī)律(或規(guī)則)發(fā)現(xiàn)語料中可能會被傳統(tǒng)分詞遺漏的特殊詞匯。也便于從文本中快速篩選出關(guān)鍵詞。
          • 字符拼音糾錯(調(diào)整)
            • 把語句中有可能是已知實體的錯誤拼寫(誤差一個字符或拼音)的詞語鏈接到對應(yīng)實體。
          • 自動分段
            • 使用TextTiling算法,對沒有分段的文本自動分段,或者基于已有段落進(jìn)一步組織/重新分段
          • 存取消除
            • 可以本地保存模型再讀取復(fù)用,也可以消除當(dāng)前模型的記錄。
          • 英語支持
            • 本庫主要旨在支持對中文的數(shù)據(jù)挖掘,但是加入了包括情感分析在內(nèi)的少量英語支持
        • 高層應(yīng)用
          • 情感分析
            • 給出少量種子詞(通用的褒貶義詞語),得到語料中各個詞語和語段的褒貶度。
          • 關(guān)系網(wǎng)絡(luò)
            • 利用共現(xiàn)關(guān)系,獲得關(guān)鍵詞之間的網(wǎng)絡(luò)?;蛘咭砸粋€給定詞語為中心,探索與其相關(guān)的詞語網(wǎng)絡(luò)。
          • 文本摘要
            • 基于Textrank算法,得到一系列句子中的代表性句子。
          • 關(guān)鍵詞抽取
            • 基于Textrank, tfidf等算法,獲得一段文本中的關(guān)鍵詞
          • 事實抽取
            • 利用句法分析,提取可能表示事件的三元組。
          • 簡易問答系統(tǒng)
            • 從三元組中建立知識圖譜并應(yīng)用于問答,可以定制一些問題模板。效果有待提升,僅作為示例。

        用法

        首先安裝, 使用pip

        pip install --upgrade harvesttext

        或進(jìn)入setup.py所在目錄,然后命令行:

        python setup.py install

        隨后在代碼中:

        from harvesttext import HarvestText
        ht = HarvestText()

        即可調(diào)用本庫的功能接口。

        瀏覽 25
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        編輯 分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        編輯 分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            亚洲天堂AV在线播放 | 黄网站入口 | 大香蕉美女 | 男生和女生在床上搞鸡 | 香港美女逼逼网 | 侍卫粗暴的揉捏她胸前的柔软 | 最新无码视频在线观看 | 边吃奶边做 | 老太婆色黄A片免费视频 | 黄色小说乱 |