Minidx信息抽取組件
Minidx 這一組件是專門為開發(fā)人員準(zhǔn)備的,利用Minidx Extract-Text Com組件,您可以輕松的從Word,Xls,Pdf……等200多種文件格式中讀取文本內(nèi)容。該組件本身用C++編寫,以Com組件的形式調(diào)用,您可以 在一切可以調(diào)用Com組件的開發(fā)語言中調(diào)用這一組件,快速的抽取各種文本內(nèi)容。
Minidx是一個文件管理系統(tǒng)。它具有:
*自帶超高速全文搜索引擎,瞬間找到所需要的文件
*具有自己的存儲系統(tǒng),安全的管理重要文檔
*可存儲與管理TB級別的數(shù)據(jù),數(shù)據(jù)量的大小對系統(tǒng)運行的效率影響甚微
*采用IFilter抽取文本,無須安裝例如Office的應(yīng)用程序即可閱讀內(nèi)容
*基于Unicode編碼,可正常輸入/顯示多國語言
*高亮語法顯示,方便地閱讀多種文檔
*檢索結(jié)果高亮顯示,方便查看
*模糊查詢,自動識別同義詞 例如要查詢where時,輸入whe也能得到結(jié)果
*自帶Web服務(wù)器,可方便的在Internet/局域網(wǎng)共享所管理的文檔
*獨立的P2P功能,可自由選擇啟動服務(wù)端/客戶端,或者同時啟動
*可以根據(jù)創(chuàng)建時間,修改時間,訪問時間,標(biāo)題,存儲路徑,內(nèi)容等各項屬性分等級,分目錄地實現(xiàn)精確查詢
*可方便設(shè)定過濾字段
搜索引擎特性:
*整個引擎非常小,由2萬多行C/C++代碼實現(xiàn)
*標(biāo)準(zhǔn)C/C++編寫,幾乎可以運行在所有的系統(tǒng)
*無需太多內(nèi)存,在較低的硬件環(huán)境下也可以運行而不影響效率
*方便的集成到各種系統(tǒng),利用Minidx引擎,僅僅需要添加幾行代碼就可以讓系統(tǒng)具有全文檢索功能
*超高速檢索,百萬條記錄也能在毫秒內(nèi)返回結(jié)果
*字,詞,句檢索
*條件”與”,”或”查詢,以及他們的組合查詢
*采用UNICODE字符集,多國語言字符串混合查詢
*精確查詢,甚至一個標(biāo)點符號也可以精確定位
