Rainbird分布式實(shí)時(shí)統(tǒng)計(jì)系統(tǒng)
Rainbird 是 Twitter開(kāi)發(fā)的一款分布式實(shí)時(shí)統(tǒng)計(jì)系統(tǒng)。
用處
Rainbird可以用于實(shí)時(shí)數(shù)據(jù)的統(tǒng)計(jì):
1 統(tǒng)計(jì)網(wǎng)站中每一個(gè)頁(yè)面,域名的點(diǎn)擊次數(shù)
2 內(nèi)部系統(tǒng)的運(yùn)行監(jiān)控(統(tǒng)計(jì)被監(jiān)控服務(wù)器的運(yùn)行狀態(tài))
3 記錄最大值和最小值
性能要求
作為大型網(wǎng)站的分布式應(yīng)用,需要具備以下性能:
1 極高的寫(xiě)入性能,可以達(dá)到100,000的WPS
2 非常高的讀取性能,可以達(dá)到10,000s的RPS
3 高度的可擴(kuò)展性,包括讀取和存儲(chǔ)等等,能夠擴(kuò)展到100+ TB的量級(jí)
4 讀取速度響應(yīng)間隔短,絕大多數(shù)的讀取速度應(yīng)該不超過(guò)100ms
系統(tǒng)組件
Rainbird一款基于Zookeeper, Cassandra, Scribe, Thrift的分布式實(shí)時(shí)統(tǒng)計(jì)系統(tǒng),這些基礎(chǔ)組件的基本功能如下:
1 Zookeeper,Hadoop子項(xiàng)目中的一款分布式協(xié)調(diào)系統(tǒng),用于控制分布式系統(tǒng)中各個(gè)組件中的一致性。
2 Cassandra,NoSQL中一款非常出色的產(chǎn)品,集合了Dynamo和Bigtable特性的分布式存儲(chǔ)系統(tǒng),用于存儲(chǔ)需要進(jìn)行統(tǒng)計(jì)的數(shù)據(jù),統(tǒng)計(jì)數(shù)據(jù),并且提供客戶(hù)端進(jìn)行統(tǒng)計(jì)數(shù)據(jù)的查詢(xún)。(需要使用分布式Counter補(bǔ)丁CASSANDRA-1072)
3 Scribe,F(xiàn)acebook開(kāi)源的一款分布式日志收集系統(tǒng),用于在系統(tǒng)中將各個(gè)需要統(tǒng)計(jì)的數(shù)據(jù)源收集到Cassandra中。
4 Thrift,F(xiàn)acebook開(kāi)源的一款跨語(yǔ)言C/S網(wǎng)絡(luò)通信框架,開(kāi)發(fā)人員基于這個(gè)框架可以輕易地開(kāi)發(fā)C/S應(yīng)用。
整體設(shè)計(jì)
Rainbird的設(shè)計(jì)架構(gòu)圖如下:
整個(gè)Rainbird系統(tǒng)中各個(gè)組件之間的協(xié)調(diào)和容災(zāi)處理由ZooKeeper負(fù)責(zé),Cassandra負(fù)責(zé)整個(gè)數(shù)據(jù)的存儲(chǔ)和統(tǒng)計(jì)。
Front End中部署了Scribe,收集需要統(tǒng)計(jì)的數(shù)據(jù),然后將收集到數(shù)據(jù)實(shí)時(shí)地發(fā)生到Rainbird Aggregator中。
Rainbird Aggregator將緩存收集的數(shù)據(jù)(1M),并將緩存的數(shù)據(jù)進(jìn)行一次預(yù)處理,然后再將數(shù)據(jù)一次性批量寫(xiě)入到Cassandra中。這里預(yù)處理的作用類(lèi)似于MapReduce框架中的combiner的作用,在Maper端做Reduce。
Rainbird Query接受用戶(hù)的查詢(xún)請(qǐng)求,直接到Cassandra中查詢(xún)已經(jīng)統(tǒng)計(jì)好的數(shù)據(jù)返回給客戶(hù)端。
