解密搜索引擎技術(shù)實戰(zhàn)
《解密搜索引擎技術(shù)實戰(zhàn)-Lucene&Java精華版(附盤)》,本書主要包括總體介紹部分、爬蟲部分、自然語言處理部分、全文檢索部分以及相關(guān)案例分析。爬蟲部分介紹了網(wǎng)頁遍歷方法和如何實現(xiàn)增量抓取,并介紹了從網(wǎng)頁等各種格式的文檔中提取主要內(nèi)容的方法。自然語言處理部分從統(tǒng)計機器學習的原理出發(fā),包括了中文分詞與詞性標注的理論與實現(xiàn)以及在搜索引擎中的實用等細節(jié),同時對文檔排重、文本分類、自動聚類、句法分析樹、拼寫檢查等自然語言處理領(lǐng)域的經(jīng)典問題進行了深入淺出的介紹并總結(jié)了實現(xiàn)方法。
評論
圖片
表情
