推薦系統(tǒng)概述(1):推薦系統(tǒng)是干啥的?
作者簡介
作者:水哥【清華大學(xué) 信息與通信工程碩士】
原文:https://zhuanlan.zhihu.com/p/384471991
轉(zhuǎn)載者:楊夕
推薦系統(tǒng) 百面百搭地址:
https://github.com/km1994/RES-Interview-Notes
NLP 百面百搭地址:
https://github.com/km1994/NLP-Interview-Notes
個人筆記:
https://github.com/km1994/nlp_paper_study
前言
近幾年,在算法工程師界,推薦系統(tǒng)(Recommender System)變的熱門了起來。相比于落地比較困難的計算機(jī)視覺(Computer Vision)或是自然語言處理(Natural Language Processing),推薦系統(tǒng)背景的同學(xué)更受工業(yè)界的歡迎。主要是因為推薦可以直接產(chǎn)生價值,尤其像廣告算法(我們把他和推薦系統(tǒng)暫且算成是一類)可以直接給公司帶來收入。也基于此,周圍有很多同學(xué)都在轉(zhuǎn)向,或者正在轉(zhuǎn)向推薦算法。
在這個專欄中,我們來聊推薦系統(tǒng)的各個方面,幫助大家入門。不僅僅限于算法或者模型,我們也會討論策略,數(shù)據(jù)分析,產(chǎn)品設(shè)計等方面對整個推薦系統(tǒng)的影響。
那么我們正式開始
推薦系統(tǒng)是什么?
在介紹推薦系統(tǒng)之前,我們首先要給出推薦系統(tǒng)推薦的對象,即內(nèi)容。我們可以做如下分類:

圖文:是最容易產(chǎn)生,也是數(shù)量最多的內(nèi)容。5G時代到來之前,圖文一直是互聯(lián)網(wǎng)內(nèi)容的主流。早一點的像人人網(wǎng)是比較典型的,大家都是在上面發(fā)段子或者自己的心情狀態(tài)。微博其實一直是圖文,只是隨著這幾年環(huán)境的變化,越來越像一個吵架的地方了。雖然現(xiàn)在短視頻很火,圖文的需求也沒有減少。像官方新聞,漫畫作者,各種評測和小成本的自媒體還是選擇圖文作為生產(chǎn)的主戰(zhàn)場。需要說明的是,圖文也不排斥視頻入口,像在下面產(chǎn)品的圖中就有很多視頻。
PGC,全稱是Professionally-generated Content,它主要指的是由專業(yè)的生產(chǎn)者產(chǎn)出的內(nèi)容。比如官方的賬號發(fā)布的信息,是由專門的發(fā)言人把關(guān)的,就屬于PGC。有的視頻APP會推薦一些影視劇片段,不考慮版權(quán)的問題,應(yīng)該也要算作PGC的范疇。
UGC,User-generated Content,它指的就是普通的生產(chǎn)者。每一個用戶,拍了一段短視頻并把它發(fā)布出來,都看一看做是UGC的領(lǐng)域。UGC和PGC的邊界并不清晰,當(dāng)一個普通的用戶得到了很多關(guān)注,慢慢變成知名作者的時候,他的作品也就變成了PGC。
上圖的分類更多的是按照我們目前常見的產(chǎn)品形態(tài)來分類的,比如手機(jī)百度,今日頭條屬于圖文。PGC可以指代西瓜視頻,愛奇藝這樣的平臺,UGC可以看作是快手,抖音。PGC,UGC的概念其實并不在視頻下面,在圖文的應(yīng)用里面,這兩類是混合在一起的。這里只是依據(jù)目前主流的產(chǎn)品形態(tài)來進(jìn)行的劃分。
接下來,我們從產(chǎn)品的角度,看看一個典型的推薦產(chǎn)品是什么樣子的。下面是某APP的圖文界面,我們以此為代表介紹所有的要素

我們可以把界面按功能分為幾種要素:
內(nèi)容區(qū),最主體的區(qū)域,占據(jù)了頁面絕大多數(shù)空間。我們在上面看到的部分可以稱為預(yù)覽區(qū),當(dāng)點擊了文章內(nèi)容就可以抵達(dá)詳情頁。常見的內(nèi)容形式包括大圖(標(biāo)題在上,圖片填滿頁面寬度),小圖(標(biāo)題在左側(cè),圖片的高度和文本的高度一致)和組圖(標(biāo)題在上,三張圖填滿頁面寬度)幾種形式。
搜索入口:可以抵達(dá)搜索的入口,也可以跳轉(zhuǎn)到某個時事專題上,一般到了這個入口從界面布局和推薦邏輯上就和網(wǎng)頁的搜索沒有太大區(qū)別了。
強(qiáng)插環(huán)節(jié):和個性化沒關(guān)系的一個區(qū)域,存在的理由可能是時事熱點很重要,我黨的重要政策方針等等
標(biāo)簽:一般會寫上作者的名字,并且附帶評論數(shù)或者播放數(shù)等等信息,有的時候也會被覆蓋為”熱點“,”活動“等字樣。
廣告區(qū):嚴(yán)格意義上不算一個區(qū),廣告可以出現(xiàn)在任何內(nèi)容可以出現(xiàn)的地方。上面的大圖小圖三圖都可以被廣告性質(zhì)的內(nèi)容所取代,點進(jìn)去的詳情頁還可以出現(xiàn)廣告。但是要注意的是,廣告的密度一般有限,一個屏幕有四五條內(nèi)容,一般廣告就占據(jù)一條,這是為了不影響用的體驗。另外,屬于廣告的,一定得打上”廣告“的標(biāo)簽。
其實當(dāng)我們分析了一下推薦系統(tǒng)的界面之后,我們就可以得到推薦系統(tǒng)的特點:在推薦系統(tǒng)中,用戶(也可稱為消費(fèi)者)瀏覽作者(也可稱為生產(chǎn)者)輸出的內(nèi)容。它其實是鏈接生產(chǎn)者和消費(fèi)者的一個中間媒介。
生產(chǎn)者,在短視頻上是發(fā)布視頻的用戶,他們的需求可能是想要更多的曝光;在攜程/airbnb,可能是酒店民宿的店家,希望有更多的人光顧;在淘寶,是商鋪,希望能賣出更多的貨。
消費(fèi)者就是用戶了,在短視頻平臺可能只是為了找樂子;在淘寶或者攜程則是目的明確的想要買東西或者住店。
推薦系統(tǒng)的作用
既然推薦系統(tǒng)是一個媒介,那么它都能有哪些作用,可以達(dá)到什么樣的目的呢?
對于消費(fèi)者而言,很明顯就是把讀者想看的東西給他。一個人喜歡看dota2的節(jié)奏,我們可以給他推各種主播的整活視頻,那他一定會很喜歡看。當(dāng)他想要買一部手機(jī),我們可以根據(jù)他的喜好給他推薦性價比更高的那一款,那么既能達(dá)到他的目的,也很省事。
扶持生產(chǎn)者,讓他們發(fā)揮更大的價值。像一些地區(qū)比如新疆,可以產(chǎn)出非常甜的水果,但是想要在東部市場有所作為,總不能拿著廣告牌坐廣告來吆喝吧。這個時候推薦系統(tǒng)如果能幫他們找到潛在的喜歡新疆水果的客戶,就能很省事的增加果農(nóng)的收入。淘寶的一大價值其實就是讓很多的(尤其是江浙的)商品生產(chǎn)者富了起來。視頻平臺如果讓小作者也有曝光度,也可以增進(jìn)創(chuàng)作欲望。像papi醬這樣的例子,即讓自己紅了起來,也拉動了更多用戶來了解平臺。
生產(chǎn)者這里有一個問題是所謂的長尾效應(yīng),即頭部的作者能獲得主要的曝光,而大多數(shù)作者都沒什么曝光量,如下圖

從推薦系統(tǒng)的角度來說,我們必須保證長尾的用戶也得到一定的曝光。否則大部分的作者創(chuàng)作積極性被打壓掉之后,平臺會慢慢死掉。這個后面還會專門聊。
每一種推薦系統(tǒng),根據(jù)實際業(yè)務(wù)的不同,消費(fèi)者和生產(chǎn)者的比例有所不同。相應(yīng)的,推薦系統(tǒng)的側(cè)重點也有所不同,比如airbnb,消費(fèi)者基本是剛需,所以這時候要考慮的是生產(chǎn)者的長尾效應(yīng),需要讓一些不那么熱門的房源得到展示。但是在短視頻平臺上,內(nèi)容是足夠豐富的,這時候讓消費(fèi)者覺得推薦的內(nèi)容有意思,好玩,則更為重要。
除了對生產(chǎn)者消費(fèi)者,對平臺自己的好處是什么呢?對于平臺來說,可能趁機(jī)賣廣告才是本體(誤)。平臺光展示內(nèi)容是不掙錢的,真正掙錢的方式是廣告主去競價一個廣告的曝光。目前大多數(shù)廣告的計費(fèi)方式都是CPM(Cost Per Mille)或者oCPM(optimized Cost Per Mille),啥意思呢?就以CPM舉例:CPM的方式是按照千次展現(xiàn)(Mille)來計費(fèi),比如你的出價是10元,當(dāng)平臺展示這個廣告一千次(不考慮二價等因素)的時候就會收費(fèi)10元。oCPM雖然考慮了按照轉(zhuǎn)化來出價,但是還是按照曝光來收費(fèi),因此只要有廣告出現(xiàn)在你的APP中,平臺就獲得了收入。除競價廣告之外,還有合約廣告(如開屏廣告等等)。
一開始,平臺上沒有廣告,很干凈。這個階段平臺的主要目的是拉取用戶的興趣,讓更多的人進(jìn)入,培養(yǎng)他們的粘性。到用戶體量已經(jīng)比較穩(wěn)定,且不太容易流失的時候,就會開始插廣告。但是為了用戶體驗,一般不會特別過分。當(dāng)我們看到那些廣告頻率極其高的APP就要當(dāng)心了??赡苓@些APP已經(jīng)在走下坡路,準(zhǔn)備最后瘋狂恰一波爛錢了。

下期預(yù)告
推薦系統(tǒng)概述(2):推薦系統(tǒng)的天時地利人和
