1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        PlayFish網(wǎng)頁抓取工具

        聯(lián)合創(chuàng)作 · 2023-09-29 13:08

        playfish是一個(gè)采用java技術(shù),綜合應(yīng)用多個(gè)開源java組件實(shí)現(xiàn)的網(wǎng)頁抓取工具,通過XML配置文件實(shí)現(xiàn)高度可定制性與可擴(kuò)展性的網(wǎng)頁抓取工具

        應(yīng)用開源jar包包括httpclient(內(nèi)容讀取),dom4j(配置文件解析),jericho(html解析),已經(jīng)在 war包的lib下。

        這個(gè)項(xiàng)目目前還很不成熟,但是功能基本都完成了。要求使用者熟悉XML,熟悉正則表達(dá)式。目前通過這個(gè)工具可以抓取各類論壇,貼吧,以及各類CMS系統(tǒng)。像Discuz!,phpbb,論壇跟博客的文章,通過本工具都可以輕松抓取。抓取定義完全采用XML,適合Java開發(fā)人員使用。

        使用方法, 1.下載右邊的.war包導(dǎo)入到eclipse中, 2.使用WebContent/sql下的wcc.sql文件建立一個(gè)范例數(shù)據(jù)庫, 3.修改src包下wcc.core的dbConfig.txt,將用戶名與密碼設(shè)置成你自己的mysql用戶名密碼。 4.然后運(yùn)行SystemCore,運(yùn)行時(shí)候會(huì)在控制臺(tái),無參數(shù)會(huì)執(zhí)行默認(rèn)的example.xml的配置文件,帶參數(shù)時(shí)候名稱為配置文件名。

        系統(tǒng)自帶了3個(gè)例子,分別為baidu.xml抓取百度知道,example.xml抓取我的javaeye的博客,bbs.xml抓取一個(gè)采用 discuz論壇的內(nèi)容。

        瀏覽 24
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        編輯 分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            大奶一区二区三区 | 国产绿奴09-01 | 欧美精品午夜 | 色色色色五月 | 少妇饥渴偷公乱第5章苏贝 | 欧美老妇精品一区二区 | 国产亚洲精品久久久久久青梅 | JUy黑人喝羽月希奶水 | 东京热在线视频观看 | 成人无码高清在线 |