S4Yahoo的分布式流計算平臺
S4是Yahoo!發(fā)布的一個開源通用、分布式、可擴(kuò)展、部分容錯、具備可插拔功能的平臺。這套平臺主要是為了方便開發(fā)者開發(fā)處理流式數(shù)據(jù)(continuous unbounded streams of data)的應(yīng)用。Yahoo!之所以開發(fā)S4系統(tǒng),主要是為了解決它現(xiàn)實的問題:搜索廣告的展現(xiàn)。搜索廣告是當(dāng)前各大搜索引擎的主要收入來源,用戶發(fā)出查詢請求,搜索引擎在返回正常結(jié)果的同時也會返回相關(guān)廣告,而廣告是按照點擊付費。為了在最好的位置,放置最相關(guān)(也就是用戶最有可能點擊)的廣告,各大搜索引擎使用了大量的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法來進(jìn)行相關(guān)性計算,以便提高收入,滿足用戶需求。其中很重要的一點就是要不斷分析用戶的點擊反饋,以便捕獲用戶的行為。S4最初主要還只是用來處理用戶的點擊反饋。
評論
圖片
表情
