PlayFish網(wǎng)頁抓取工具
playfish是一個(gè)采用java技術(shù),綜合應(yīng)用多個(gè)開源java組件實(shí)現(xiàn)的網(wǎng)頁抓取工具,通過XML配置文件實(shí)現(xiàn)高度可定制性與可擴(kuò)展性的網(wǎng)頁抓取工具
應(yīng)用開源jar包包括httpclient(內(nèi)容讀取),dom4j(配置文件解析),jericho(html解析),已經(jīng)在 war包的lib下。
這個(gè)項(xiàng)目目前還很不成熟,但是功能基本都完成了。要求使用者熟悉XML,熟悉正則表達(dá)式。目前通過這個(gè)工具可以抓取各類論壇,貼吧,以及各類CMS系統(tǒng)。像Discuz!,phpbb,論壇跟博客的文章,通過本工具都可以輕松抓取。抓取定義完全采用XML,適合Java開發(fā)人員使用。
使用方法, 1.下載右邊的.war包導(dǎo)入到eclipse中, 2.使用WebContent/sql下的wcc.sql文件建立一個(gè)范例數(shù)據(jù)庫, 3.修改src包下wcc.core的dbConfig.txt,將用戶名與密碼設(shè)置成你自己的mysql用戶名密碼。 4.然后運(yùn)行SystemCore,運(yùn)行時(shí)候會(huì)在控制臺(tái),無參數(shù)會(huì)執(zhí)行默認(rèn)的example.xml的配置文件,帶參數(shù)時(shí)候名稱為配置文件名。
系統(tǒng)自帶了3個(gè)例子,分別為baidu.xml抓取百度知道,example.xml抓取我的javaeye的博客,bbs.xml抓取一個(gè)采用 discuz論壇的內(nèi)容。
