1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        推薦系統(tǒng)之標(biāo)簽體系

        共 4386字,需瀏覽 9分鐘

         ·

        2021-06-01 18:55

        為什么要先介紹標(biāo)簽體系?

        一個(gè)推薦系統(tǒng)效果好與壞最基本的保障、最基礎(chǔ)的是什么?如果讓我來(lái)回答,一定是標(biāo)簽體系。
        我這里說(shuō)的標(biāo)簽主要是針對(duì)物料的,對(duì)于電商平臺(tái)來(lái)說(shuō)就是商品;對(duì)于音樂(lè)平臺(tái)來(lái)說(shuō)就是每一個(gè)首歌,對(duì)于新聞資訊平臺(tái)來(lái)說(shuō)就是每一條新聞。對(duì)于用戶畫(huà)像中那些用戶實(shí)時(shí)變化的興趣點(diǎn)大都也是來(lái)自于標(biāo)簽體系,依據(jù)用戶長(zhǎng)期和短期行為中對(duì)于物料搜索、點(diǎn)擊、收藏、評(píng)論、轉(zhuǎn)發(fā)等事件,將物料的標(biāo)簽傳導(dǎo)到用戶畫(huà)像上,就構(gòu)成了用戶的實(shí)時(shí)畫(huà)像和離線畫(huà)像中的各個(gè)動(dòng)態(tài)維度。

        標(biāo)簽體系概覽

        以京東的標(biāo)簽體系中的京東超市為例用思維導(dǎo)圖來(lái)拆解,后面我們會(huì)詳細(xì)的介紹如何構(gòu)建標(biāo)簽體系。
        這里對(duì)京東超市標(biāo)簽拆解粒度到三只松鼠年貨大禮包的實(shí)體級(jí)別,實(shí)際上各個(gè)公司的標(biāo)簽體系大致都是如下構(gòu)成
        一、二、三級(jí)分類體系都很好理解,參考京東超市的拆解,相信大家就會(huì)明白。標(biāo)簽體系中實(shí)體標(biāo)簽和概念標(biāo)簽不好理解。

         實(shí)體標(biāo)簽



        必須是名詞,且必須是唯一指代。
        學(xué)術(shù)性的解釋逼格高,但是不容易理解,回答下面的問(wèn)題
        • 老板問(wèn):蘋(píng)果,是實(shí)體標(biāo)簽嗎?
        • 給你三秒鐘思考
        • 你回答:是!
        • 老板說(shuō):錯(cuò)!
        • 你懵逼:靠!為啥不是?
        實(shí)體標(biāo)簽的要求:名詞,且唯一指代。
        蘋(píng)果,是名詞,但不是唯一指代,蘋(píng)果 = 科技公司、手機(jī)、水果、牛仔褲


         概念標(biāo)簽



        難道我就不能用“蘋(píng)果”了嗎?當(dāng)然可以用,只不過(guò)要給它另外起個(gè)名字:概念標(biāo)簽。
        概念標(biāo)簽通常表示的是“一類”或“某種相似”的內(nèi)容,例如


         主題詞 


        這里以之家的標(biāo)簽體系舉例,要給買(mǎi)車(chē)用戶推薦評(píng)測(cè)導(dǎo)購(gòu)(一級(jí))的文章,用戶畫(huà)像中車(chē)的品牌(二級(jí))偏好太粗,而實(shí)體標(biāo)簽如奔馳GLC又太細(xì),填補(bǔ)這中間的粒度空白,滿足用戶購(gòu)車(chē)意圖的畫(huà)像,就加入“代步優(yōu)選”的主題詞,這樣不僅保持了推薦的多樣性,又不至于過(guò)分精準(zhǔn)而導(dǎo)致的極度收斂。
        以上大致介紹了一下標(biāo)簽體系,那么我們接下介紹一下如何構(gòu)建標(biāo)簽體系以及其構(gòu)建過(guò)程中應(yīng)遵循的一些原則。

        標(biāo)簽體系構(gòu)建原則

        原則一、放棄?而全的框架,以業(yè)務(wù)場(chǎng)景倒推標(biāo)簽需求
        原則二、標(biāo)簽生成自助化,解決效率和溝通成本
        原則三、有效的標(biāo)簽管理機(jī)制
        分別解釋以下為什么提煉出這三個(gè)原則,分別用于解決什么問(wèn)題?
        關(guān)于第一項(xiàng)原則:
        每個(gè)公司的產(chǎn)品、運(yùn)營(yíng)、商務(wù)對(duì)標(biāo)簽的訴求有較大的差異,同時(shí)不同的運(yùn)營(yíng)團(tuán)隊(duì)的訴求也存在很大差異,?而全的標(biāo)簽框架實(shí)際是站在用戶視角搭建的,但是標(biāo)簽的真正應(yīng)用者是業(yè)務(wù)方,所以應(yīng)該從業(yè)務(wù)視角來(lái)實(shí)現(xiàn)。
        因此最佳的處理方式是,我們應(yīng)該放棄頂層的用戶抽象視角,針對(duì)各業(yè)務(wù)線或部門(mén)的訴求和實(shí)際的應(yīng)用場(chǎng)景,分別將標(biāo)簽聚類起來(lái)提供給相應(yīng)部門(mén)。
        之家就是非常典型的情況,商業(yè)同學(xué)更關(guān)心用戶的消費(fèi)能力相關(guān)的標(biāo)簽;自駕游負(fù)責(zé)同學(xué)更關(guān)心用戶的位置和出行相關(guān)的標(biāo)簽;車(chē)友圈的同學(xué)更關(guān)注用戶的社交活躍相關(guān)的標(biāo)簽;所以不可能一套標(biāo)簽覆蓋整個(gè)運(yùn)營(yíng)團(tuán)隊(duì), 這種以業(yè)務(wù)場(chǎng)景倒推標(biāo)簽需求的方法,能夠與業(yè)務(wù)場(chǎng)景貼合更緊密,可用性上升。
        關(guān)于第二項(xiàng)原則:
        1. 標(biāo)簽生成的自助化能夠讓溝通成本降最低
        前面講到各業(yè)務(wù)線對(duì)標(biāo)簽的定義的理解不同,需要標(biāo)簽系統(tǒng)建設(shè)團(tuán)隊(duì)花費(fèi)大量的時(shí)間溝通。如果能夠讓業(yè)務(wù)方自己定義規(guī)則,這必然是溝通成本最低的方式。
        2. 標(biāo)簽生成的自助化,可重復(fù)修改的規(guī)則,降低無(wú)效標(biāo)簽的堆積
        業(yè)務(wù)一直在發(fā)展,如果規(guī)則一成不變則很難跟上業(yè)務(wù)節(jié)奏的變化。我曾拜訪過(guò)一家電商,他們發(fā)現(xiàn)半年前定義“母嬰客戶群”的轉(zhuǎn)化率一直在降低,因此根據(jù)實(shí)際情況重新修改和定義了“母嬰客戶群”規(guī)則,并命名為“母嬰客戶群(新)”,這時(shí)之前的規(guī)則是無(wú)效的,且會(huì)一直占據(jù)計(jì)算資源……諸如此類,如果支持規(guī)則重復(fù)修改的話,這一類無(wú)效標(biāo)簽就會(huì)大量地消失。
        3. 釋放數(shù)據(jù)團(tuán)隊(duì)人力,釋放業(yè)務(wù)團(tuán)隊(duì)的想象力
        數(shù)據(jù)團(tuán)隊(duì)?wèi)?yīng)該花較多的精力在企業(yè)的整個(gè)數(shù)據(jù)中臺(tái)或新業(yè)務(wù)模型方面,而不是處理各業(yè)務(wù)線的標(biāo)簽訴求和標(biāo)簽維護(hù)上,自動(dòng)化的標(biāo)簽生成能夠極大限度地節(jié)省人力和釋放團(tuán)隊(duì)想象力。
        關(guān)于第三項(xiàng)原則:
        1. 規(guī)則及元信息維護(hù)
        標(biāo)簽相關(guān)的規(guī)則和元信息要盡可能的暴露給使用者,讓使用者在使用的時(shí)候,能清楚知道標(biāo)簽的規(guī)則是什么、創(chuàng)建者是誰(shuí)、維護(hù)者是誰(shuí)、標(biāo)簽的更新頻率周期等,而不是沒(méi)有規(guī)則,或者將規(guī)則存在標(biāo)簽建設(shè)團(tuán)隊(duì)內(nèi)部的一個(gè) word 文檔中。
        2. 調(diào)度機(jī)制及信息同步
        標(biāo)簽之間有一些關(guān)聯(lián),標(biāo)簽之間的鏈條斷裂,是否有個(gè)調(diào)度機(jī)制或者信息同步機(jī)制讓大家的工作不被影響。
        3. 高效統(tǒng)一的輸出接口
        將所有的業(yè)務(wù)信息和用戶數(shù)據(jù)信息匯總在一起,有統(tǒng)一的輸出接口,改變之前需要針對(duì)不同的業(yè)務(wù)系統(tǒng)開(kāi)發(fā)不同接口的情況。
        我們回顧標(biāo)簽體系構(gòu)建的三原則,本質(zhì)上是解決了價(jià)值、手段、可持續(xù)性三方面的問(wèn)題:以業(yè)務(wù)場(chǎng)景倒推需求,讓業(yè)務(wù)方用起來(lái)作為最終目標(biāo),讓標(biāo)簽系統(tǒng)價(jià)值得以實(shí)現(xiàn);標(biāo)簽生成的自助化,它解決的是我們用什么樣的手段去實(shí)現(xiàn)價(jià)值;有效的標(biāo)簽管理機(jī)制,意味著一套標(biāo)簽體系能否可持續(xù)性地在一家企業(yè)里面運(yùn)作下去。
        總之,對(duì)企業(yè)最重要的是:一套標(biāo)簽系統(tǒng)能不能在業(yè)務(wù)上用起來(lái),能不能覆蓋更廣泛的需求,而不是一個(gè)大而全的框架。

        標(biāo)簽體系構(gòu)建方法

         標(biāo)簽體系的實(shí)施架構(gòu) 


        標(biāo)簽體系架構(gòu)可以分為三個(gè)部分:數(shù)據(jù)加工層,數(shù)據(jù)服務(wù)層,數(shù)據(jù)應(yīng)用層。每個(gè)層面面向用戶對(duì)象不一樣,處理事務(wù)有所不同。層級(jí)越往下,與業(yè)務(wù)的耦合度就越小。層級(jí)越往上,業(yè)務(wù)關(guān)聯(lián)性就越強(qiáng)。
        以某電商公司為例:
        數(shù)據(jù)加工層
        數(shù)據(jù)加工層收集,清洗和提取來(lái)處理數(shù)據(jù)。M公司有多個(gè)產(chǎn)品線:電商交易,電子書(shū)閱讀,金融支付,智能硬件等等。每個(gè)產(chǎn)品線的業(yè)務(wù)數(shù)據(jù)又是分屬在不同位置。為了搭建完善的用戶標(biāo)簽體系,需要盡可能匯總最大范圍內(nèi)的數(shù)據(jù)。同時(shí)每個(gè)產(chǎn)品線的也要集合所有端的數(shù)據(jù),比如:App,web,微信,其它第三方合作渠道。
        收集了所有數(shù)據(jù)之后,需要經(jīng)過(guò)清洗:去重,去刷單數(shù)據(jù),去無(wú)效數(shù)據(jù),去異常數(shù)據(jù)等等。然后再是提取特征數(shù)據(jù),這部分就要根據(jù)產(chǎn)品和運(yùn)營(yíng)人員提的業(yè)務(wù)數(shù)據(jù)要求來(lái)做就好。
        數(shù)據(jù)業(yè)務(wù)層
        數(shù)據(jù)加工層為業(yè)務(wù)層提供最基礎(chǔ)數(shù)據(jù)能力,提供數(shù)據(jù)原材料。業(yè)務(wù)層屬于公共資源層,并不歸屬某個(gè)產(chǎn)品或業(yè)務(wù)線。它主要用來(lái)維護(hù)整個(gè)標(biāo)簽體系,集中在一個(gè)地方來(lái)進(jìn)行管理。
        在這一層,運(yùn)營(yíng)人員和產(chǎn)品能夠參與進(jìn)來(lái),提出業(yè)務(wù)要求:將原材料進(jìn)行切割。主要完成以下核心任務(wù):
        • 定義業(yè)務(wù)方需要的標(biāo)簽
        • 創(chuàng)建標(biāo)簽實(shí)例
        • 執(zhí)行業(yè)務(wù)標(biāo)簽實(shí)例,提供相應(yīng)數(shù)據(jù)
        數(shù)據(jù)應(yīng)用層
        應(yīng)用層的任務(wù)是賦予產(chǎn)品和運(yùn)營(yíng)人員標(biāo)簽的工具能力,聚合業(yè)務(wù)數(shù)據(jù),轉(zhuǎn)化為用戶的槍火彈藥,提供數(shù)據(jù)應(yīng)用服務(wù)。
        業(yè)務(wù)方能夠根據(jù)自己的需求來(lái)使用,共享業(yè)務(wù)標(biāo)簽,但彼此業(yè)務(wù)又互不影響。實(shí)踐中可應(yīng)用到以下幾塊:
        • 智能營(yíng)銷
        • Feed流推薦
        • 個(gè)性化消息push

         標(biāo)簽體系的設(shè)計(jì) 


        1. 業(yè)務(wù)梳理
        以業(yè)務(wù)需求為導(dǎo)向,可以按下面的思路來(lái)梳理標(biāo)簽體系:
        • 有哪些產(chǎn)品線?產(chǎn)品線有哪些來(lái)源渠道?一一列出
        • 每個(gè)產(chǎn)品線有哪些業(yè)務(wù)對(duì)象?比如用戶,商品
        • 最后再根據(jù)對(duì)象聚合業(yè)務(wù),每個(gè)對(duì)象涉及哪些業(yè)務(wù)?每個(gè)業(yè)務(wù)下哪些業(yè)務(wù)數(shù)據(jù)和用戶行為?
        結(jié)果類似如下:
        2. 標(biāo)簽分類
        按業(yè)務(wù)需求梳理了業(yè)務(wù)數(shù)據(jù)后,可以繼續(xù)按照業(yè)務(wù)產(chǎn)出對(duì)象的屬性來(lái)進(jìn)行分類,主要目的:
        • 方便管理標(biāo)簽,便于維護(hù)和擴(kuò)展
        • 結(jié)構(gòu)清晰,展示標(biāo)簽之間的關(guān)聯(lián)關(guān)系
        • 為標(biāo)簽建模提供子集。方便獨(dú)立計(jì)算某個(gè)標(biāo)簽下的屬性偏好或者權(quán)重
        梳理標(biāo)簽分類時(shí),盡可能按照MECE原則,相互獨(dú)立,完全窮盡。每一個(gè)子集的組合都能覆蓋到父集所有數(shù)據(jù)。標(biāo)簽深度控制在四級(jí)比較合適,方便管理,到了第四級(jí)就是具體的標(biāo)簽實(shí)例。
        3. 標(biāo)簽的模型
        按數(shù)據(jù)的實(shí)效性來(lái)看,標(biāo)簽可分為
        • 靜態(tài)屬性標(biāo)簽。長(zhǎng)期甚至永遠(yuǎn)都不會(huì)發(fā)生改變。比如性別,出生日期,這些數(shù)據(jù)都是既定的事實(shí),幾乎不會(huì)改變
        • 動(dòng)態(tài)屬性標(biāo)簽。存在有效期,需要定期地更新,保證標(biāo)簽的有效性。比如用戶的購(gòu)買(mǎi)力,用戶的活躍情況
        從數(shù)據(jù)提取維度來(lái)看,標(biāo)簽數(shù)據(jù)又可以分為類型。
        • 事實(shí)標(biāo)簽。既定事實(shí),從原始數(shù)據(jù)中提取。比如通過(guò)用戶設(shè)置獲取性別,通過(guò)實(shí)名認(rèn)證獲取生日,星座等信息
        • 模型標(biāo)簽。沒(méi)有對(duì)應(yīng)數(shù)據(jù),需要定義規(guī)則,建立模型來(lái)計(jì)算得出標(biāo)簽實(shí)例。比如支付偏好度
        • 預(yù)測(cè)標(biāo)簽。參考已有事實(shí)數(shù)據(jù),來(lái)預(yù)測(cè)用戶的行為或偏好。比如用戶a的歷史購(gòu)物行為與群體A相似,使用協(xié)同過(guò)濾算法,預(yù)測(cè)用戶a也會(huì)喜歡某件物品
        4. 標(biāo)簽的處理
        為什么要從兩個(gè)維度來(lái)對(duì)標(biāo)簽區(qū)分?這是為了方便用戶標(biāo)簽的進(jìn)一步處理。
        靜態(tài)動(dòng)態(tài)的劃分是面向業(yè)務(wù)維度,便于運(yùn)營(yíng)人員理解業(yè)務(wù)。這一點(diǎn)能幫助他們:
        • 理解標(biāo)簽體系的設(shè)計(jì)
        • 表達(dá)自己的需求
        事實(shí)標(biāo)簽,模型標(biāo)簽,預(yù)測(cè)標(biāo)簽是面向數(shù)據(jù)處理維度,便于技術(shù)人員理解標(biāo)簽?zāi)K功能分類,幫助他們:
        • 設(shè)計(jì)合理數(shù)據(jù)處理單元,相互獨(dú)立,協(xié)同處理
        • 標(biāo)簽的及時(shí)更新及數(shù)據(jù)響應(yīng)的效率
        以上面的標(biāo)簽圖表為例,面臨以下問(wèn)題:
        • 屬性信息缺失怎么辦?比如,現(xiàn)實(shí)中總有用戶未設(shè)置用戶性別,那怎么才能知道用戶的性別呢?
        • 行為屬性,消費(fèi)屬性的標(biāo)簽?zāi)懿荒莒`活設(shè)置?比如,活躍運(yùn)營(yíng)中需要做A/B test,不能將品牌偏好規(guī)則寫(xiě)死,怎么辦?
        • 既有的屬性創(chuàng)建不了我想要的標(biāo)簽?比如,用戶消費(fèi)能力需要綜合結(jié)合多項(xiàng)業(yè)務(wù)的數(shù)據(jù)才合理,如何解決?
        模型標(biāo)簽的定義解決的就是從無(wú)到有的問(wèn)題。建立模型,計(jì)算用戶相應(yīng)屬性匹配度?,F(xiàn)實(shí)中,事實(shí)標(biāo)簽也存在數(shù)據(jù)缺失情況。
        比如用戶性別未知,但是可以根據(jù)用戶瀏覽商品,購(gòu)買(mǎi)商品的歷史行為來(lái)計(jì)算性別偏好度。當(dāng)用戶購(gòu)買(mǎi)的女性化妝品和內(nèi)衣較多,偏好值趨近于性別女,即可以推斷用戶性別為女。
        模型計(jì)算規(guī)則的開(kāi)放解決的是標(biāo)簽靈活配置的問(wèn)題。運(yùn)營(yíng)人員能夠根據(jù)自己的需求,靈活更改標(biāo)簽實(shí)例的定義規(guī)則。比如圖表中支付頻度實(shí)例的規(guī)則定義,可以做到:
        • 時(shí)間的開(kāi)放。支持時(shí)間任意選擇:昨天,前天,近x天,自定義某段時(shí)間等等
        • 支付筆數(shù)的開(kāi)放。大于,等于,小于某個(gè)值,或者在某兩個(gè)值區(qū)間
        標(biāo)簽的組合解決就是標(biāo)簽擴(kuò)展的問(wèn)題。除了原有屬性的規(guī)則定義,還可以使用對(duì)多個(gè)標(biāo)簽進(jìn)行組合,創(chuàng)建新的復(fù)合型標(biāo)簽。比如定義用戶的消費(fèi)能力等級(jí)。
        標(biāo)簽最終呈現(xiàn)的形態(tài)要滿足兩個(gè)需求:
        • 標(biāo)簽的最小顆粒度要觸達(dá)到具體業(yè)務(wù)事實(shí)數(shù)據(jù),同時(shí)支持對(duì)應(yīng)標(biāo)簽實(shí)例的規(guī)則自定義
        • 不同的標(biāo)簽可以相互自由組合為新的標(biāo)簽,同時(shí)支持標(biāo)簽間的關(guān)系,權(quán)重自定義


        作者:龔旭東
        來(lái)源:https://zhuanlan.zhihu.com/p/103129589

        推薦閱讀:

        世界的真實(shí)格局分析,地球人類社會(huì)底層運(yùn)行原理

        企業(yè)IT技術(shù)架構(gòu)規(guī)劃方案

        論數(shù)字化轉(zhuǎn)型——轉(zhuǎn)什么,如何轉(zhuǎn)?

        企業(yè)10大管理流程圖,數(shù)字化轉(zhuǎn)型從業(yè)者必備!

        【中臺(tái)實(shí)踐】華為大數(shù)據(jù)中臺(tái)架構(gòu)分享.pdf

        華為的數(shù)字化轉(zhuǎn)型方法論

        華為如何實(shí)施數(shù)字化轉(zhuǎn)型(附PPT)

        超詳細(xì)280頁(yè)Docker實(shí)戰(zhàn)文檔!開(kāi)放下載

        華為大數(shù)據(jù)解決方案(PPT)

        瀏覽 31
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            日日摸日日摸 | 色噜噜在线播放 | 三上悠亚在线资源 | 一代女医生艳史a级 | 蜜臀久久99精品久久久久久 | 亚洲综合在线一区 | 国产三级香港三韩国三级 | 少妇口述老外性厉害 | 四虎网站在线观看 | 骚逼成人|