1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        【推薦系統(tǒng)】一文梳理聯(lián)邦學(xué)習(xí)推薦系統(tǒng)研究進(jìn)展

        共 5707字,需瀏覽 12分鐘

         ·

        2021-10-02 08:21

        推薦系統(tǒng),對于我們來說并不陌生,它已經(jīng)無時無刻不方便著我們的生活、學(xué)習(xí)、工作等方方面面,并且已經(jīng)成為許多社交/購物/新聞平臺中必不可少的組件。近些年來學(xué)術(shù)界以及工業(yè)界的研究者們已經(jīng)對其進(jìn)行了大量研究并提出了許多經(jīng)典有效的推薦模型,比如UserCF、ItemCF、MF、FM、BPR、Item2vec、NCF、DIN等等,更多推薦模型介紹可參考[一文盡覽推薦系統(tǒng)模型演變史]。

        另外,根據(jù)推薦場景的具體情況,分為了基于顯式反饋數(shù)據(jù)的評分預(yù)測任務(wù)以及基于隱式反饋數(shù)據(jù)的個性化排序任務(wù)、下一個項(xiàng)目推薦任務(wù)以及會話推薦任務(wù)等。并且基于現(xiàn)實(shí)世界中出現(xiàn)的場景與問題,提出了一系列的子研究方向,比如冷啟動推薦、可解釋性推薦、跨域推薦、序列推薦、社交推薦等,更多研究方向可參考[帶你認(rèn)識推薦系統(tǒng)全貌的論文清單]。

        推薦算法部分模型分類,借鑒于[1]
        然而,上述場景需要收集大量的用戶行為記錄以及用戶私有屬性信息,雖然使得模型能夠掌握用戶的行為模式,但也不可避免的造成了用戶敏感信息以及隱私問題的擔(dān)憂。隨著近年來大數(shù)據(jù)技術(shù)的發(fā)展以及用戶終端的普及,對于用戶數(shù)據(jù)的收集越來越簡單,以及收集的用戶數(shù)據(jù)數(shù)量與日俱增,因此用戶對于隱私問題的擔(dān)憂越來越大。

        并且最近國家互聯(lián)網(wǎng)信息辦公室開始公開征求《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》的征求意見,都說明了大家對于數(shù)據(jù)隱私與安全的重視程度,因此如何在為用戶提供高效的推薦服務(wù)的同時,能夠?yàn)橛脩舻臄?shù)據(jù)以及隱私提供安全的保障成為了近年來的研究熱點(diǎn)。

        其實(shí),對于推薦算法關(guān)于隱私和安全問題的研究早已開始。早在推薦算法被提出來的初期,就一直有關(guān)于基于隱私保護(hù)的推薦系統(tǒng)的研究。比如,正如我們所熟知的Netflix大賽把研究人員關(guān)于推薦系統(tǒng)的研究熱情帶到了高點(diǎn),但后來卻因開放出來的數(shù)據(jù)集導(dǎo)致用戶隱私泄露而叫停。

        而攻擊的方法也很簡單,文獻(xiàn)[Arvind et al. 2008]通過將釋放出的Netflix數(shù)據(jù)集與IMDb數(shù)據(jù)集進(jìn)行關(guān)聯(lián)就挖掘出了一部分用戶的敏感信息。因此后續(xù)對于數(shù)據(jù)的隱私保護(hù)方法在推薦中進(jìn)行了大量嘗試,比如匿名化、差分隱私、本地化的差分隱私、同態(tài)加密算法、安全多方計(jì)算等與推薦方法的結(jié)合;以及機(jī)器學(xué)習(xí)思想在推薦中的嘗試,比如對抗機(jī)器學(xué)習(xí)、對抗樣本生成等,都在一定程度上保護(hù)了用戶的隱私和安全[利用對抗技術(shù)來權(quán)衡推薦精度與用戶隱私]。

        然而,上述保護(hù)隱私的場景都是考慮在集中收集用戶的個人數(shù)據(jù)并且上傳到受信的中心服務(wù)器來進(jìn)行存儲與訓(xùn)練模型的方式進(jìn)行的。顯然,這樣的模式會在個人數(shù)據(jù)傳輸過程中以及在服務(wù)器存儲環(huán)節(jié)中出現(xiàn)隱私泄露以及安全問題。因此基于聯(lián)邦學(xué)習(xí)范式的推薦算法登上了歷史舞臺。

        聯(lián)邦學(xué)習(xí),即通過將用戶數(shù)據(jù)保存在本地,然后利用本地?cái)?shù)據(jù)訓(xùn)練本地模型,然后在服務(wù)端協(xié)同多個本地模型進(jìn)行優(yōu)化,進(jìn)而聚合多個本地模型的中間參數(shù)來得到服務(wù)端全局較優(yōu)的模型,最終下發(fā)到每個終端設(shè)備上。因此聯(lián)邦學(xué)習(xí)實(shí)現(xiàn)了模型出域,用戶的本地?cái)?shù)據(jù)不出域的目的,最終達(dá)到保護(hù)用戶原始數(shù)據(jù)以及隱私的需求。早期比較經(jīng)典的聯(lián)邦學(xué)習(xí)算法為FedAvg,其根據(jù)聯(lián)邦學(xué)習(xí)的訓(xùn)練過程,大致分為4個部分,即:

        • 本地?cái)?shù)據(jù)收集與模型初始化;
        • 本地模型訓(xùn)練并上傳參數(shù);
        • 服務(wù)器聚合本地參數(shù)進(jìn)行全局更新;
        • 更新本地模型。

        當(dāng)然,根據(jù)用戶的重疊程度、特征的重疊程度等,可以細(xì)分為橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)、遷移聯(lián)邦學(xué)習(xí)等(本文中大部分的介紹是基于橫向的聯(lián)邦學(xué)習(xí))。根據(jù)以上步驟,研究者針對其中涉及到的每個部分進(jìn)行了更進(jìn)一步的研究,比如:

        • 如何更好的研究符合實(shí)際場景的本地?cái)?shù)據(jù)(Non-IID數(shù)據(jù));
        • 如何挑選有代表性的本地模型參與訓(xùn)練;
        • 如何在服務(wù)端進(jìn)行更加有效的參數(shù)聚合;
        • 如何用盡可能少量的交互而達(dá)到最優(yōu)效果;
        • 如何在參數(shù)上傳下載過程中進(jìn)行安全與隱私保護(hù)等。

        最近也有一些研究將聯(lián)邦學(xué)習(xí)與表示學(xué)習(xí)以及自監(jiān)督學(xué)習(xí)進(jìn)行結(jié)合的文章,旨在更好的在聯(lián)邦優(yōu)化過程中學(xué)習(xí)更優(yōu)的特征表示。

        推薦算法為了保護(hù)用戶隱私的需求,很容易遷移到聯(lián)邦學(xué)習(xí)范式的場景中,即每個用戶表示一個客戶端,用戶所產(chǎn)生的個人行為(比如瀏覽歷史、點(diǎn)贊收藏歷史等)保存在本地,通過與中心服務(wù)器進(jìn)行協(xié)同優(yōu)化,最終達(dá)到在本地模型進(jìn)行預(yù)測推理的功能。

        首個基于聯(lián)邦學(xué)習(xí)范式的推薦框架

        Federated Collaborative Filtering for Privacy-Preserving Personalized Recommendation System. arxiv, 2019.

        比較經(jīng)典的聯(lián)邦推薦系統(tǒng)是19年華為提出的FCF,它是第一個基于聯(lián)邦學(xué)習(xí)范式的隱式反饋協(xié)同過濾框架。

        通過在本地利用個人數(shù)據(jù)更新自己的用戶隱向量,以及計(jì)算本地的物品隱向量梯度并上傳到中心服務(wù)器,其中表示第個客戶端。最后客戶端聚合物品隱向量實(shí)現(xiàn)整體物品隱矩陣的更新。

        以上提及的算法可以算是基本的聯(lián)邦學(xué)習(xí)推薦系統(tǒng)的框架,后續(xù)人們對于聯(lián)邦學(xué)習(xí)的每個部分進(jìn)行了優(yōu)化,接下來將一一介紹。

        針對于顯式數(shù)據(jù)的聯(lián)邦學(xué)習(xí)推薦系統(tǒng)框架FedRec

        FedRec: Federated Recommendation with Explicit Feedback. IEEEIntelligent Systems, 2020.

        通過對上述FCF算法的分析,隱式數(shù)據(jù)在做聯(lián)邦學(xué)習(xí)的時候有天然優(yōu)勢,即不會輕易的泄露出用戶產(chǎn)生行為的物品,通過以下更新公式可以看出,對于所有未產(chǎn)生行為的物品當(dāng)成了負(fù)樣本,這樣就間接的保護(hù)了用戶的行為隱私,因?yàn)榉?wù)器很難判別里面的哪些項(xiàng)目是用戶喜歡的。

        然而顯式數(shù)據(jù)的求導(dǎo)就比較容易被服務(wù)器識別出用戶的偏好物品,即求導(dǎo)的式子中只包含用戶評過分的物品,因此不能直接將FCF方法應(yīng)用于顯式的評分預(yù)測任務(wù)中。

        因此,本文提出了名為FedRec的方法來執(zhí)行評分預(yù)測任務(wù),即在上傳用戶梯度的時候,除了上傳用戶產(chǎn)出行為的物品集合外,還隨機(jī)采樣了一些其他物品來達(dá)到隱私保護(hù)的作用。值得一提的是,對于隨機(jī)采樣的物品集合來說,需要對他們模擬一些評分,因此論文中采用了兩種機(jī)制來生成采樣物品的評分,分別是用戶平均的評分以及混合評分機(jī)制,更具體內(nèi)容可閱讀原文。

        針對顯式數(shù)據(jù)的無損失聯(lián)邦學(xué)習(xí)推薦系統(tǒng)FedRec++

        FedRec++: Lossless Federated Recommendation with Explicit Feedback. AAAI, 2021.

        更進(jìn)一步的,通過對上述FedRec算法的分析可以看出,通過為用戶添加隨機(jī)采樣的物品以及模擬的評分確實(shí)可以混淆服務(wù)器使得無法精確識別用戶對物品的喜好進(jìn)而保護(hù)用戶的隱私,但一定程度上向模型的梯度中添加了不容忽視的噪聲,因此本文提出了一個消除噪聲的推薦模型FedRec++。

        具體的,本文提出利用隨機(jī)采樣的去噪客戶端(Denoising Clients)去收集普通客戶端(Ordinary Clients)的帶有噪聲的梯度然后進(jìn)行上傳,當(dāng)服務(wù)端收集到所有客戶端的梯度后利用這種機(jī)制可以緩解梯度的噪聲問題,隨后再進(jìn)行常規(guī)的聚合更新操作。更詳細(xì)的技術(shù)細(xì)節(jié)可以參考原文。

        改進(jìn)聚合與更新策略的聯(lián)邦推薦模型FedFast

        FedFast Going Beyond Average for Faster Training of Federated Recommender Systems. KDD, 2020.

        常規(guī)的聯(lián)邦學(xué)習(xí)是通過隨機(jī)的挑選客戶端來進(jìn)行參數(shù)的平均聚合更新,針對于此,本文對客戶端更新的選擇以及參數(shù)的聚合方式進(jìn)行了優(yōu)化,使得模型更快速的達(dá)到收斂的狀態(tài)。

        本文通過設(shè)計(jì)一個ActvSAMP算法來對客戶端進(jìn)行聚類,然后再從不同的聚類中挑選待更新的客戶端,隨后再利用ActvAGG聚合算法對類內(nèi)的客戶端(subordinates)進(jìn)行與挑選出的客戶端(delegates)同樣的更新,這樣就可以減少通信的次數(shù)。

        更具體的,ActvSAMP算法是利用客戶端的其他具有隱私保護(hù)屬性(比如設(shè)備類型、地區(qū)等)的特征來進(jìn)行聚類,然后再從每個聚類中挑選出個區(qū)別較大的客戶端組成待更新的客戶端集合。

        對于ActvAGG組件,不是簡單的加權(quán)聚合,而是把參數(shù)大致分為了三部分,即non-embedding部分、item embedding部分、user embedding部分。對于前兩部分比較常規(guī),對于user embedding的更新,首先對delegates進(jìn)行更新,隨后再對subordinates基于聚類結(jié)果和delegates進(jìn)行更新。

        基于元學(xué)習(xí)的個性化聯(lián)邦推薦系統(tǒng)MetaMF

        Meta Matrix Factorization for Federated Rating Predictions. SIGIR, 2020.

        傳統(tǒng)的聯(lián)邦學(xué)習(xí)假設(shè)服務(wù)端模型與客戶端模型的大小一樣,但這樣就對用戶的終端設(shè)備帶來了嚴(yán)峻的考驗(yàn),因?yàn)椴⒉皇撬杏脩舳际褂猛梁澜鸬氖謾C(jī),所以不能像中心服務(wù)器訓(xùn)練模型那樣可以肆無忌憚的對神經(jīng)網(wǎng)絡(luò)加層。因此本文考慮了客戶端對存儲、內(nèi)存以及計(jì)算開銷的限制,提出了一個基于元學(xué)習(xí)的聯(lián)邦推薦算法,旨在對每個客戶端學(xué)習(xí)一個小的個性化的模型,以此實(shí)現(xiàn)精準(zhǔn)的推薦服務(wù)。

        更具體的,在服務(wù)端學(xué)習(xí)協(xié)同信號(Collaborative Memory)以及建立元推薦系統(tǒng)(Meta Recommender),然后在客戶端進(jìn)行評分預(yù)測模型的建立以及生成物品的embedding,最終實(shí)現(xiàn)對物品的評分預(yù)測。

        利用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)自適應(yīng)減少通信量FCF-BTS

        A Payload Optimization Method for Federated Recommender Systems-Recsys. RecSys, 2021.

        剛才提到,對于聯(lián)邦推薦系統(tǒng),需要進(jìn)行優(yōu)化與上傳更新的基本是全部物品的Embedding矩陣,因?yàn)橛脩艚K端只需要存儲個人的Embedding向量即可,而不需要考慮其他用戶向量。因此本文利用強(qiáng)化學(xué)習(xí)來挑選能夠使得反饋具有正向收益的物品向量來進(jìn)行更新。

        更具體的,首先通過貝葉斯湯姆森采樣(BTS)bandit來得到物品的子集,獲得的這些物品能夠得到最大的期望收益;然后基于帶更新的物品子集來獲得待更新矩陣的子集,記為;隨后從客戶端獲取這些物品的梯度,等到一定個數(shù)的閾值后進(jìn)行更新物品矩陣,隨后計(jì)算當(dāng)前的收益,基于此來更新BTS的模型參數(shù)。通過進(jìn)行迭代優(yōu)化,最終得到最優(yōu)的模型參數(shù)。

        基于層次化的個性化聯(lián)邦推薦系統(tǒng)

        Hierarchical Personalized Federated Learning for User Modeling. WWW, 2021.

        常規(guī)的聯(lián)邦學(xué)習(xí)推薦系統(tǒng)通常假設(shè)用戶的本地?cái)?shù)據(jù)都是敏感信息,因此對待模型的更新與上傳一視同仁。本文從三個異質(zhì)性的角度來實(shí)現(xiàn)更符合實(shí)際場景的假設(shè),即統(tǒng)計(jì)異質(zhì)性(Statistical heterogeneity)、隱私異質(zhì)性(Privacy heterogeneity)和模型異質(zhì)性(Model heterogeneity)。其中,統(tǒng)計(jì)異質(zhì)性認(rèn)為用戶的數(shù)據(jù)在不同的客戶端是不服從獨(dú)立同分布的(即non-IID數(shù)據(jù)),隱私異質(zhì)性認(rèn)為用戶的本地?cái)?shù)據(jù)應(yīng)該包含公開的和敏感的信息,這樣就需要對數(shù)據(jù)進(jìn)行不同程度的隱私保護(hù),模型異質(zhì)性認(rèn)為不同客戶端的模型需要被自適應(yīng)的在服務(wù)端進(jìn)行聚合。

        更具體的,該文提出了利用層次信息來劃分?jǐn)?shù)據(jù)為隱私的(private)和公開的(public)數(shù)據(jù)來實(shí)現(xiàn)隱私異質(zhì)性。其次,本地模型包含不同的組件來實(shí)現(xiàn)模型的異質(zhì)性。另外,客戶端執(zhí)行細(xì)粒度的個性化更新策略來實(shí)現(xiàn)統(tǒng)計(jì)的異質(zhì)性。

        強(qiáng)隱私保護(hù)的隱式反饋聯(lián)邦推薦系統(tǒng)

        Stronger Privacy for Federated Collaborative Filtering With Implicit Feedback. RecSys, 2021.

        通常來說,保存在客戶端的模型包含該用戶的隱特征向量以及與用戶無關(guān)的全部物品的隱特征矩陣。對于用戶向量的更新由于不需要上傳到服務(wù)器而不離開本地而得到很好的保護(hù)。由于上傳物品特征矩陣的更新梯度容易被第三方攻擊者獲取進(jìn)而進(jìn)行重構(gòu)攻擊(有研究表明可以從中間梯度獲取到原始輸入的圖像數(shù)據(jù)[]),因此本文對物品的更新梯度矩陣進(jìn)行了嚴(yán)格的隱私保護(hù)。

        更具體的,對于客戶端得到的物品更新梯度矩陣,經(jīng)過LDP(Local Differential Privacy, 本地差分隱私)模塊以及代理網(wǎng)絡(luò)(Proxy Network)來得到不包含用戶元數(shù)據(jù)的隱私保護(hù)的物品更新梯度矩陣,隨后再進(jìn)行平均聚合。

        總結(jié)

        本文總結(jié)了幾篇基于聯(lián)邦學(xué)習(xí)范式的推薦系統(tǒng),分別從不同的層面對基本的聯(lián)邦學(xué)習(xí)更新方式進(jìn)行了優(yōu)化,比如如何實(shí)現(xiàn)更好的聚合參數(shù)、如何更好的挑選待更新的客戶端、如何保持更嚴(yán)格的隱私保護(hù)、如何減少更新過程中的通信量等。

        該方向相對來說是一個比較新的方向,其目標(biāo)是在保護(hù)用戶隱私的前提下如何實(shí)現(xiàn)本地模型更精準(zhǔn)的推薦服務(wù),但現(xiàn)在的實(shí)驗(yàn)驗(yàn)證方式基本都是靠模擬來完成的,即手動將完整的數(shù)據(jù)集切分為符合聯(lián)邦學(xué)習(xí)方式的多個本地?cái)?shù)據(jù)集。另外由于推薦系統(tǒng)的特殊性(不同于計(jì)算機(jī)視覺中假設(shè)本地客戶端在100-500左右),即每個用戶即為一個客戶端,真實(shí)場景的用戶數(shù)量可達(dá)上百萬,這就對實(shí)驗(yàn)的驗(yàn)證帶來了考驗(yàn)。由于本人水平有限,難免文中觀點(diǎn)會存在紕漏,歡迎指正,另外更多關(guān)于聯(lián)邦學(xué)習(xí)推薦系統(tǒng)的思考?xì)g迎小伙伴補(bǔ)充。

        往期精彩回顧




        本站qq群851320808,加入微信群請掃碼:
        瀏覽 87
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評論
        圖片
        表情
        推薦
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            懂色aⅴ国产精品今日更新 | 精品色| 日本r级电影在线播放 | 国产姿势刺激呻吟对白 | 新婚夜被五个伴郎强h视频 | 成人性爱在线播放 | 欧美日韩一区,二区,三区,久久精品 | 侠女硕大的双乳在老汉胯下娇喘 | 国产一区免费 | 亚洲国产精品成人网站 |