1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        獨家 | 推薦系統(tǒng)不單單指推薦模型

        共 3559字,需瀏覽 8分鐘

         ·

        2022-08-03 14:32

        作者:Even Oldridge,Karl Byleen-Higley

        翻譯:陳之炎

        校對:zrx


        本文約2500字,建議閱讀10分鐘

        本文與你分享涵蓋了部署推薦系統(tǒng)的全流程的一種推薦模式。


        標簽:推薦系統(tǒng)

        新手在構建推薦系統(tǒng)時面臨的最大挑戰(zhàn)是缺乏對推薦系統(tǒng)的切實理解,將大多數(shù)推薦系統(tǒng)的在線內容集中在模型上,并且通常僅限于一個簡單的協(xié)同過濾例子。對于新的從業(yè)者來說,推薦系統(tǒng)的簡單模型示例和實際量產系統(tǒng)之間存在著巨大的差距。

        本博將和讀者分享一種模式,它涵蓋了部署推薦系統(tǒng)的全流程,示例程序來自Meta公司、Netflix公司和Pintery公司等公司。這一模式是NVIDIAMerlin團隊構建端到端系統(tǒng)的核心技術,很高興能在社區(qū)分享推廣它,幫助讀者建立部署推薦系統(tǒng)(不僅僅是模型)的概念和共識。如果對這個領域的內容感興趣,還可以參加 KDD工業(yè)推薦系統(tǒng)工作坊(KDD’s Industrial Recommender Systems workshop)組織的主題演講。

        遙望推薦模型


        推薦模型所起的作用,無論是一個簡單的協(xié)作過濾示例,還是像DLRM這樣的深度學習模型,其實質都是排序,或者更準確地說,是一個評分系統(tǒng),用戶對一組感興趣的數(shù)據項打分。然而,這些分數(shù)本身卻往往不足以在現(xiàn)實世界中為用戶提供合理的推薦,在探索解決方案,構造最終的推薦系統(tǒng)之前,將深入研究以下諸多原因。


        數(shù)據項越多問題越多


        首先遇到的第一個問題是推薦中的數(shù)據項的數(shù)量。在極端情況下,數(shù)據項目錄可以長達數(shù)百萬,數(shù)億,甚至數(shù)十億。在大多數(shù)情況下,為每個數(shù)據項進行評分是不可行的,評分的算力異常昂貴。在實踐中,首先需要快速選擇這些項的相關子集,比如對其中的一千或一萬個數(shù)據項打分。

        進入第二個階段,在對數(shù)據項打分之前,需要選擇一個合理相關集合,其中包含用戶會最終參與的數(shù)據項。這個階段通常稱為候選檢索階段,也可稱之為候選生成階段。檢索模型有多種形式,包括矩陣分解模型、雙塔模型、線性模型、近似最近鄰模型和圖遍歷模型,通常情況下,檢索模型比評分模型的計算效率更高。

        YouTube在2016年有一篇優(yōu)秀的論文,是該架構的第一個公開參考文獻之一,目前,該方法已廣為采納,在業(yè)界普遍應用。EugeneYan有一篇關于這個主題的精彩博文,他的兩階段圖片是我們的四階段推薦圖的靈感來源,將在下文做詳細介紹。值得注意的是,在同一個推薦系統(tǒng)中使用多個候選源來向用戶呈現(xiàn)不同的候選項也很常見,隨后會把這個主題保存到另一篇博客中。

        二階段之外!


        雖然兩階段大規(guī)模推薦模型能解決大部分問題,但推薦系統(tǒng)還需要支持其他的約束條件。在某些場景下,用戶不想顯示某些數(shù)據項,如:當該數(shù)據項沒有庫存時、年齡不合適時、用戶已經使用過該內容時,或者未授權該用戶在該國家顯示它時,用戶并不想顯示這些數(shù)據項。

        依賴評分或檢索模型來推斷業(yè)務邏輯,適當?shù)赝扑]數(shù)據項,除此之外,還需要向推薦系統(tǒng)中添加一個過濾階段。過濾通常是在檢索階段之后完成,可以與之集成到一起(過濾確保檢索后有足夠的候選對象),甚至在某些情況下可以在評分之后再進行過濾。過濾階段應用了業(yè)務邏輯規(guī)則,如果缺少了過濾,模型不可能(或至少非常難)執(zhí)行業(yè)務邏輯規(guī)則。在某些情況下,過濾只是簡單的排除查詢,但另一些情況之下,也可能很復雜,像Bloom過濾器一樣,可以用它來刪除已經與用戶交互過的數(shù)據項。

        排序!


        到目前為止介紹了三個階段:檢索、過濾和評分,這三個階段提供了一份數(shù)據項建議列表及其相應的分值,這些分值代表了評分模型對用戶感興趣程度的猜測。推薦結果通常以列表的形式呈現(xiàn)給用戶,這就提出了一個有趣的難題:最優(yōu)的列表往往與數(shù)據項的得分不完全吻合。甚至相反,希望為用戶提供一組完全不同的數(shù)據項,向他們展示推薦候選人之外的項目,以探索他們未見過的空間,防止出現(xiàn)過濾氣泡。

        在一些文獻和例子中,推薦系統(tǒng)的第三階段被稱為排序,但向用戶顯示推薦的最終排名(或位置)很少會與模型的輸出直接對齊,通過提供顯式的排序階段,能夠將模型的輸出與業(yè)務的其他需求或約束對齊。

        四階段推薦系統(tǒng)


        檢索、過濾、評分和排序,這四個階段構成了推薦系統(tǒng)的設計模式,它幾乎涵蓋了每一個推薦系統(tǒng)。下圖顯示了這四個階段,并展示了如何構建每個階段的示例,它比基本的推薦模型要復雜得多,特別是考慮到了推薦系統(tǒng)的具體部署,它準確地代表了當今大多數(shù)量產推薦系統(tǒng)的架構。
         


        示例


        有了對推薦系統(tǒng)模式的描述之后,來看看如何搭建一個推薦系統(tǒng)。首先,看看常見recsys任務示例,在較高層次上,它涵蓋了四個階段的用例,并展示了四個階段的統(tǒng)一模式。
         


        更進一步,可以看看現(xiàn)實中的推薦系統(tǒng)的例子,看看是否能從中識別出四個階段。

        Meta’s Instagram有一篇關于他們開發(fā)的查詢語言的好文章——由人工智能驅動:Instagram的推薦系統(tǒng)(IGQL查詢語言)探究。從他們提供的示例中看出,可以將這種查詢語言精確地映射成推薦模式的四個階段:
         


        Pinterest發(fā)布了一系列論文(Pinterest相關內容:現(xiàn)實世界推薦系統(tǒng)的演變、3億+項目與2億+實時用戶的系統(tǒng)推薦,深度學習相關應用),其中第一篇文章中的一張圖,對推薦系統(tǒng)架構隨時間推移的發(fā)展歷程做了描述。在這里,我們再現(xiàn)了相同的模式,但細微的區(qū)別是,將檢索和過濾視為同一個階段。
         


        Instacart在2016年分享了這個架構,直接提出了遵循四個階段的建議。首先檢索到候選對象,然后過濾掉之前排序的數(shù)據項,再對最熱門的候選結果進行評分,并對最終結果進行重新排序,以提高呈現(xiàn)給用戶的最終結果的多樣性。
         


        復雜系統(tǒng)


        在本文的4個階段圖中,闡明了在訓練、部署和支持全階段的推理時間查詢過程中所需的組件。這個系統(tǒng)比單一模型要復雜得多,那些通過線上搜索推薦系統(tǒng)信息,并只找到協(xié)作過濾模型的人,在真正嘗試構建復雜推薦系統(tǒng)時,會顯得不知所措。
         


        在下一篇博文中,將深入探討這個復雜模型的細節(jié),并為Merlin推薦系統(tǒng)框架提出一些解決方案,現(xiàn)在將挑戰(zhàn)留給你:詳細解讀和使用推薦系統(tǒng),是否能找出四個階段,如果找不出,也可以和我們溝通!我們將不斷地迭代和完善思路和庫,爭取能夠為RecSys空間提供最好的解決方案,對您的輸入,我們深表感謝。

        最后,如果您熱衷于構建開源庫,簡化推薦系統(tǒng)的構建和部署,歡迎與您溝通交流。

        原文標題:
        Recommender Systems, Not Just Recommender Models
        原文鏈接:
        https://medium.com/nvidia-merlin/recommender-systems-not-just-recommender-models-485c161c755e?source=explore---------12-98--------------------8159457e_aca6_4e87_a7ec_578a4e826171-------15


        編輯:黃繼彥
        校對:楊學俊




        譯者簡介





        陳之炎,北京交通大學通信與控制工程專業(yè)畢業(yè),獲得工學碩士學位,歷任長城計算機軟件與系統(tǒng)公司工程師,大唐微電子公司工程師,現(xiàn)任北京吾譯超群科技有限公司技術支持。目前從事智能化翻譯教學系統(tǒng)的運營和維護,在人工智能深度學習和自然語言處理(NLP)方面積累有一定的經驗。業(yè)余時間喜愛翻譯創(chuàng)作,翻譯作品主要有:IEC-ISO 7816、伊拉克石油工程項目、新財稅主義宣言等等,其中中譯英作品“新財稅主義宣言”在GLOBAL TIMES正式發(fā)表。能夠利用業(yè)余時間加入到THU 數(shù)據派平臺的翻譯志愿者小組,希望能和大家一起交流分享,共同進步

        翻譯組招募信息

        工作內容:需要一顆細致的心,將選取好的外文文章翻譯成流暢的中文。如果你是數(shù)據科學/統(tǒng)計學/計算機類的留學生,或在海外從事相關工作,或對自己外語水平有信心的朋友歡迎加入翻譯小組。

        你能得到:定期的翻譯培訓提高志愿者的翻譯水平,提高對于數(shù)據科學前沿的認知,海外的朋友可以和國內技術應用發(fā)展保持聯(lián)系,THU數(shù)據派產學研的背景為志愿者帶來好的發(fā)展機遇。

        其他福利:來自于名企的數(shù)據科學工作者,北大清華以及海外等名校學生他們都將成為你在翻譯小組的伙伴。


        點擊文末“閱讀原文”加入數(shù)據派團隊~



        轉載須知

        如需轉載,請在開篇顯著位置注明作者和出處(轉自:數(shù)據派ID:DatapiTHU),并在文章結尾放置數(shù)據派醒目二維碼。有原創(chuàng)標識文章,請發(fā)送【文章名稱-待授權公眾號名稱及ID】至聯(lián)系郵箱,申請白名單授權并按要求編輯。

        發(fā)布后請將鏈接反饋至聯(lián)系郵箱(見下方)。未經許可的轉載以及改編者,我們將依法追究其法律責任。







        點擊“閱讀原文”擁抱組織



        瀏覽 33
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            黄色欧美日韩 | 91亚洲成人精品性色 | 毛片播放器 | 天天操肥逼 | 国产精品久久99精品毛片三a | 黄色片视频日韩 | 国产毛片a高清日本在线 | 国产精品无码成人网站视频 | 娘子你的乳儿又香又软 | 欧美brazzers欧美护士 |