面試題:請聊聊你所了解的推薦系統(tǒng)算法

文 | 七月在線
編 | 小七
解析:
推薦系統(tǒng)算法如果根據(jù)推薦的依據(jù)進(jìn)行劃分,有如下三大類算法:
一、Content-based recommenders: 推薦和用戶曾經(jīng)喜歡的商品相似的商品。主要是基于商品屬性信息和用戶畫像信息的對比。核心問題是如何刻畫商品屬性和用戶畫像以及效用的度量。方法包括:
1.1 Heuristic-based method: 對于特征維度的構(gòu)建,例如基于關(guān)鍵字提取的方法,使用TF-IDF等指標(biāo)提取關(guān)鍵字作為特征。對于效用的度量,例如使用啟發(fā)式cosine相似性指標(biāo),衡量商品特征和用戶畫像的相似性,似性越高,效用越大。
1.2 Machine learning-based mehod:對于特征維度的構(gòu)建,使用機(jī)器學(xué)習(xí)算法來構(gòu)建用戶和商品的特征維度。例如建模商品屬于某個類別的概率,得到商品的刻畫屬性。對于效用的度量,直接使用機(jī)器學(xué)習(xí)算法擬合效用函數(shù)。
二、Collaborative recommenders: 推薦和用戶有相似品味和偏好的用戶喜歡過的商品。主要是基于用戶和商品歷史交互行為信息,包括顯示的和隱式的。協(xié)同過濾方法進(jìn)一步細(xì)分為:
2.1 Memory-based CF: 基于內(nèi)存的協(xié)同過濾方法。直接對User-Item矩陣進(jìn)行研究。通過啟發(fā)式的方法來進(jìn)行推薦。核心要素包括相似性度量和推薦策略。相似性度量包括Pearson或Cosine等;而最簡單的推薦方法是基于大多數(shù)的推薦策略。
User-based CF: 推薦給特定用戶列表中還沒有發(fā)生過行為、而在相似用戶列表中產(chǎn)生過行為的高頻商品。
Item-based CF: 推薦給特定用戶列表中還沒有發(fā)生過行為、并且和已經(jīng)發(fā)生過行為的商品相似的商品。
2.2 Model-based CF: 基于模型的協(xié)同過濾方法。主要是運(yùn)用機(jī)器學(xué)習(xí)的思想來進(jìn)行推薦。主要包括:
基于流形學(xué)習(xí)的矩陣降維/分解算法: SVD、FunkSVD、BiasSVD、SVD++、NMF等。
基于表示學(xué)習(xí)的深度學(xué)習(xí)算法:MLP、CNN、AutoEncoder、RNN等。
基于圖/網(wǎng)絡(luò)模型的算法:MDP-based CF、Bayesian Belief nets CF、CTR(協(xié)同主題回歸,將概率矩陣分解和主題模型結(jié)合應(yīng)用于推薦系統(tǒng))等。
其它:包括基于聚類的CF、稀疏因子分析CF、隱語義分析CF等等。
2.3 Hybrid CF: 結(jié)合多種方式的CF算法。如Content-based CF、Content-boosted CF或者結(jié)合Memory-based和Model-based CF混合方法。
三、Hybrid approaches: 混合方法。綜合集成上述兩種方法。
當(dāng)前推薦算法主要是基于內(nèi)容(CB)、協(xié)同過濾(CF)、混合算法?;趦?nèi)容的推薦依靠用戶profile和item的描述做推薦。CF基于過去的的表現(xiàn)和行為推薦。由于種種原因,收集過去的行為比收集用戶畫像要容易,但CF又有他的局限性,當(dāng)打分(rating)很稀疏時,預(yù)測精度會下降很厲害,同時,新產(chǎn)品的冷啟動也是CF的問題。因此,近年來,混合方法應(yīng)用比較廣。
? 今日干貨:【推薦系統(tǒng)工程師大禮包】
掃描下方二維碼并回復(fù)“推薦”即可獲取 掃描上方二維碼,關(guān)注并回復(fù)【推薦】馬上獲取
評論
圖片
表情



