推薦系統(tǒng)是如何找到相似用戶的?
注:誤操作將之前的本文刪掉了,重發(fā)一遍
在《當推薦系統(tǒng)遇上用戶畫像:你的畫像是怎么來的?》一文中,我們介紹了怎么通過TF-IDF的方式得到用戶的畫像。而在本文中,我們來聊一下在搜索、推薦、計算廣告系統(tǒng)中“畫像是怎么用的?相似用戶是怎么被發(fā)現(xiàn)的?”。

在互聯(lián)網(wǎng)商業(yè)應用中,許多廣告主在“搜尋潛客”時,都會遇到如難以識別高潛人群、難于平衡成本與規(guī)模等問題。而在數(shù)字營銷的過程中,運營人員或者數(shù)據(jù)分析同學也是在根據(jù)已有的經(jīng)驗,通過用戶畫像的方式,擴展與歷史轉化人群相似的人群。比如,通過性別、年齡等篩選出化妝品的受眾人群等。顯然,這種方式有些粗糙。
那么,有什么方法可以優(yōu)雅而有理有據(jù)的解決這個問題嗎?答案是肯定,不然我費勁巴拉的寫這篇文章干嘛,躺著刷刷視頻不香嗎...言歸正傳,相似人群拓展(Lookalike)的工作機制是基于種子用戶畫像和社交關系鏈尋找出相似用戶。即,根據(jù)種子人群的共有屬性進行自動化擴展,以擴大潛在用戶覆蓋面,提升營銷/廣告效果。


圖片引用來自參考資料1
具體來講,相似人群拓展(Lookalike)是基于種子用戶,通過用戶畫像、算法模型等找到與種子用戶更多擁有潛在關聯(lián)性的拓展技術。Lookalike算法是計算廣告中的術語,不是單指某一種算法,而是一類方法的統(tǒng)稱,這類方法綜合運用多種技術,其目的就是為了實現(xiàn)人群包擴充。
舉個廣告的栗子,對于一個化妝品類廣告主,需要對100萬人投放自己的廣告,但是根據(jù)經(jīng)驗或者畫像只有10萬的人群包,那么如何選取這100萬,同時滿足人群量級和轉化(盲目選擇可能存在無效用戶)兩個因素,就需要用到Lookalike相似人群拓展技術了。比如,向品牌偏好、消費價格區(qū)間匹配的人群進行投放等。
舉個數(shù)字營銷的栗子,對于運營人員,需要將某一個節(jié)日活動向100萬用戶進行短信/Push發(fā)送,但根據(jù)畫像刷選之后,可能發(fā)現(xiàn)這波用戶已經(jīng)被其他業(yè)務的運營發(fā)送過了N多次,最后剩下可以發(fā)送的用戶寥寥...此時Lookalike相似人群拓展的作用便來了。根據(jù)種子人群(已有過的轉化人群)的共有屬性進行自動化擴展,以擴大潛在用戶覆蓋面。對于拉新任務來說,誰用誰知道....啊~真香~


圖片引用來自參考資料1
Lookalike相似人群拓展方法主要有以下幾種方式,
利用用戶畫像進行顯式人群拓展:根據(jù)種子用戶的標簽(地理、興趣、行為、品牌偏好等),利用相同標簽找到目標人群;
利用機器學習模型進行隱式人群拓展:廣告主的種子用戶做為正樣本,廣告平臺中有海量的非種子用戶,也有大量的廣告投放歷史數(shù)據(jù)可以做為負樣本,訓練機器學習模型,然后用模型對所有候選對象進行篩選;
利用社交圖結構的相似人群拓展:核心就是通過Graph Embedding的形式去得到相似的人群。
同時,我們需要注意到的問題是,隨著流量不斷增大,相似人群的聚焦性也必然逐步降低,尋找目標人群的難度加大,致使非目標人群(無效人群,對轉化沒有幫助,但是會增加投放成本)的比例也隨著流量的增加而增加。而Lookalike技術通過大數(shù)據(jù)分析和復雜模型學習歸納高質量人群的人口特征,然后在更大的流量范圍內,尋找具有類似人口特征的人,從而實現(xiàn)目標的轉化。
另外,做任何業(yè)務背景的問題,我們都需要關注其背后的可解釋性:雖然可以通過一系列的用戶畫像、機器學習技術拓展了一批用戶,但是拓展的途徑、人群的行為特征等都需要一個直觀的解釋。比如擴展的人群在哪些特征或行為上匹配種子用戶,而未被拓展的人群,又是怎么樣的? 這不僅為拓展提供了幫助,也為badcase溯源問題提供了一套良好的方式方法。




谷歌Similar Audiences
Google的“Similar Audiences”根據(jù)用戶近期的瀏覽和下載APP行為,為廣告主推薦拓展相似的人群。谷歌廣告后臺會自動生成與你的網(wǎng)站訪問者或現(xiàn)有客戶興趣相似的用戶群體,一般情況下,你設置了多少個再營銷相似群體列表,就會生成多少個對應的相似人群。

Similar Audience不僅可以幫你查找到與你網(wǎng)站訪問者相似的人,并且還能幫你向這些特定人群傳遞信息,為你帶來高質量的潛在用戶,甚至直接轉化。例如,你開了一家保險公司,并且想推銷碎屏保險。通過Remarketing的使用,你可以將之前來過你網(wǎng)站并且查看過碎屏保險的人創(chuàng)建為一個List,然后在這個基礎上去尋找相似的受眾。
這樣一來,新的受眾和你之前Remaketing Lists里面的人都是有著相同的行為習慣,興趣,甚至購買傾向,從而轉化率大大提升。


Facebook Lookalike Audiences
Facebook的“Lookalike Audiences”,可以根據(jù)Custom Audiences所篩選出的用戶名單為參考,再篩選出與其相似的人群,讓廣告主可以將廣告投遞給此名單內的用戶。

通過Facebook像素插件,來記錄客戶在你網(wǎng)站的行為,比如,加入購物車但未購買,像素會反饋給你信息,方便后期給客戶定向投放廣告。
同時相似群體大致有以下情況:
與主頁互動,比如點贊,轉發(fā),評論主頁等,用messenger發(fā)消息等等。
視頻觀看情況,比如說觀看你發(fā)布的視頻時間播放時長等。


阿里達摩盤DMP
阿里推出達摩盤(DMP)Lookalike 模型根據(jù)對店鋪或品牌最忠實的那批用戶(種子用戶),并通過Lookalike 模型找到與這些種子用戶相似的人來增加店鋪的有效瀏覽和轉化。


騰訊社交Lookalike
騰訊社交廣告團隊基于種子用戶畫像和關系鏈尋找相似用戶,即根據(jù)種子人群的共有屬性進行自動化擴展,以擴大受眾覆蓋面,提升廣告效果。
例如,家庭、社會身份、地位、相關群體等社會因素,文化、次文化等文化因素,以及行為、動機、興趣等心理因素等都能形成相似人群拓展Lookalike的篩選標準。以社交關系鏈為基礎,騰訊社交廣告可以助力廣告主尋找相似線索、捕捉高潛客戶。


騰訊廣告算法大賽2018年的賽題,題目如下:
相似人群拓展(Lookalike)基于廣告主提供的一個種子人群(又稱為種子包),自動計算出與之相似的人群(稱為擴展人群)。本題目將為參賽選手提供幾百個種子人群、海量候選人群對應的用戶特征,以及種子人群對應的廣告特征。出于業(yè)務數(shù)據(jù)安全保證的考慮,所有數(shù)據(jù)均為脫敏處理后的數(shù)據(jù)。整個數(shù)據(jù)集分為訓練集和測試集。訓練集中標定了人群中屬于種子包的用戶與不屬于種子包的用戶(即正負樣本)。測試集將檢測參賽選手的算法能否準確標定測試集中的用戶是否屬于相應的種子包。訓練集和測試集所對應的種子包完全一致。初賽和復賽所提供的種子包除量級有所不同外,其他的設置均相同。
在特征工程層面,總結一下魚和jachin的開源方案中的思路如下:
(1)原始onehot特征,比如aid,age,gender等。
(2)向量特征,比如interest1,interest2,topic1,kw1等
(3)向量長度統(tǒng)計特征:interest1,interest2,interest5的長度統(tǒng)計。
(4)uid類的統(tǒng)計特征,uid的出現(xiàn)次數(shù),uid的正樣本次數(shù),以及uid與ad特征的組合出現(xiàn)次數(shù),組合正樣本次數(shù)。
(5)uid的序列特征,比如uid=1時,總共出現(xiàn)了5次,序列為[-1,1,-1,-1,-1]。
(6)組合特征:age與aid的組合,gender與aid的組合,interest1與aid的組合,interest2與aid的組合,topic1與topic2的組合,LBS與kw1的組合。
(7)五大類特征,投放量(click)、投放比例(ratio)、轉化率(cvr)、特殊轉化率(CV_cvr)、多值長度(length),每類特征基本都做了一維字段和二維組合字段的統(tǒng)計。值得注意的是轉化率利用預處理所得的分塊標簽獨立出一個分塊驗證集不加入統(tǒng)計,其余分塊做dropout交叉統(tǒng)計,測試集則用全部訓練集數(shù)據(jù)進行統(tǒng)計。
(8)此外,我們發(fā)現(xiàn)一些多值字段的重要性很高,所以利用了lightgbm特征重要性對ct\marriage\interest字段的稀疏編碼矩陣進行了提取,提取出排名前20的編碼特征與其他單值特征進行類似上述cvr的統(tǒng)計生成CV_cvr的統(tǒng)計,這組特征和cvr的效果幾乎相當。
對于沒有看過賽題數(shù)據(jù)的同學,可能會看不懂以上的特征構造,有興趣的話可以關注煉丹筆記后在后臺回復“2018騰訊賽”查看賽題詳細介紹。

https://zhuanlan.zhihu.com/p/97786389
https://www.zhihu.com/question/43566578/answer/891387342
https://zhuanlan.zhihu.com/p/46537440
https://zhuanlan.zhihu.com/p/38034501
https://zhuanlan.zhihu.com/p/38341881
https://algo.qq.com/archive.html?
