作者 | 陽(yáng)光明媚

單位 | 華東師范大學(xué)

方向 | 推薦系統(tǒng)

本文介紹兩篇基于RNN的用戶序列行為建模的經(jīng)典論文，原文地址：

1. Session-based Recommendations with Recurrent Neural Networks

https://arxiv.org/abs/1511.06939

2. Parallel Recurrent Neural Network Architectures for Feature-rich Session-based Recommendations

http://www.hidasi.eu/content/p_rnn_recsys16.pdf

Session-based Recommendations with Recurrent Neural Networks

本文首次將RNN引入了用戶序列行為的建模，并取得了顯著的效果提升。

解決的關(guān)鍵問(wèn)題：

為了使得推薦系統(tǒng)能夠?qū)W習(xí)用戶的序列決策數(shù)據(jù)，引入一個(gè)排序損失函數(shù)，并用RNN模型來(lái)建模稀疏的序列決策數(shù)據(jù)。

挑戰(zhàn)：

在序列化推薦的每一步，待選的物品數(shù)目巨大，在萬(wàn)到十萬(wàn)級(jí)別
點(diǎn)擊流數(shù)據(jù)量大
關(guān)心模型對(duì)用戶可能感興趣的top物品的預(yù)測(cè)能力

模型結(jié)構(gòu)與算法細(xì)節(jié)：

模型的輸入是會(huì)話的狀態(tài)，具體的可以是事件中的物品的one-hot編碼(1-of-N encoding)，或者會(huì)話的歷史事件的表示的加權(quán)和(給較早的時(shí)間較低的權(quán)重)。出于穩(wěn)定性考慮，給輸入向量做正則化，因?yàn)檫@可以強(qiáng)化局部的順序約束，而這不容易被RNN的長(zhǎng)期記憶捕獲。（為什么正則化可以強(qiáng)化局部順序約束？怎么正則化的？）作者還實(shí)驗(yàn)了用一層embedding layer來(lái)做編碼，但1-of-N encoding效果總是更好。

網(wǎng)絡(luò)結(jié)構(gòu)主要就是多層的GRU和用于輸出結(jié)構(gòu)的前向傳播層。多層的GRU中，上一層的隱狀態(tài)作為下一層的輸入。輸入也可以選擇去連接到網(wǎng)絡(luò)中更深的GRU層，作者發(fā)現(xiàn)這樣效果更好。

Session-parallel mini-batches

用戶序列數(shù)據(jù)與NLP序列數(shù)據(jù)做的任務(wù)不同，NLP中的mini-batch會(huì)用一個(gè)滑動(dòng)窗口來(lái)選擇句子中的單詞，預(yù)測(cè)其他單詞，mini-batch中的每一個(gè)元素對(duì)應(yīng)一個(gè)滑動(dòng)窗口；但是對(duì)于用戶序列數(shù)據(jù)我們更想要建模用戶的長(zhǎng)期行為，因此不能用NLP中的這種方式來(lái)做mini-batch。文中提出了一種用于用戶序列行為數(shù)據(jù)建模的mini-batch組織方式：

上圖展示了batch_size為3的情況，3個(gè)session的序列數(shù)據(jù)同時(shí)進(jìn)入模型，但是每個(gè)session的長(zhǎng)短可能不同，當(dāng)batch中某個(gè)session已經(jīng)全部進(jìn)入網(wǎng)絡(luò)時(shí)，馬上接替一個(gè)新的session。如圖中右側(cè)的input所示，第2行的session最短，只有2個(gè)event，第2個(gè)event結(jié)束之后馬上接上第4個(gè)session序列，所以i2,2后面跟的是i4,1。

Sampling on the output

由于物品的數(shù)目巨大，不可能對(duì)每個(gè)物品都計(jì)算分?jǐn)?shù)，因此對(duì)輸出進(jìn)行采樣，只計(jì)算一小部分物品的分?jǐn)?shù)，也就是負(fù)采樣。

對(duì)于一個(gè)session中作為結(jié)束的event，一般的解釋是用戶根本不知道event中的物品的存在，因而沒(méi)有交互。用戶知道這個(gè)物品，但是因?yàn)椴幌矚g而去不交互的概率很低。物品越流行，用戶越可能了解這個(gè)物品，因此作為結(jié)束的事件如果包含了這個(gè)物品，那很可能說(shuō)明用戶真的不喜歡這個(gè)物品。因此我們會(huì)根據(jù)流行度作為權(quán)重來(lái)采樣物品，而不是為每個(gè)訓(xùn)練樣例分別采樣一些物品，我們使用來(lái)自其他mini-batch的訓(xùn)練樣例作為負(fù)樣本。這種方法的好處是我們可以通過(guò)跳過(guò)采樣來(lái)進(jìn)一步降低計(jì)算負(fù)擔(dān)。此外，在實(shí)現(xiàn)方面，從降低代碼復(fù)雜度到加快矩陣操作也有好處。同時(shí)，該方法也是一種基于流行度的抽樣方法，因?yàn)橐粋€(gè)項(xiàng)目出現(xiàn)在小批量的其他訓(xùn)練示例中的可能性與其流行度成正比。

Ranking loss

推薦系統(tǒng)的核心是基于相關(guān)性對(duì)物品排序，為了在序列化推薦中實(shí)現(xiàn)這一點(diǎn)，需要選擇合適的排序損失函數(shù)。排序的學(xué)習(xí)方式通常有以下三種：

Pointwise排序估計(jì)彼此獨(dú)立的項(xiàng)目的得分或排名，損失的定義方式應(yīng)使相關(guān)項(xiàng)目的排名較。
Pairwise排序比較一個(gè)正項(xiàng)目和一個(gè)負(fù)項(xiàng)目的得分或成對(duì)的排名，損失強(qiáng)制要求正項(xiàng)目的排名應(yīng)低于負(fù)項(xiàng)目的排名。
Listwise排序使用所有項(xiàng)目的分?jǐn)?shù)和等級(jí)，并將它們與完美順序進(jìn)行比較。由于它包括排序，通常計(jì)算成本更高，因此不經(jīng)常使用。此外，如果只有一個(gè)相關(guān)的項(xiàng)目-在我們的案例中-listwise排序可以通過(guò)pairwise排序解決。

作者采用了多種排序損失函數(shù)，發(fā)現(xiàn)pointwise的損失函數(shù)表現(xiàn)不穩(wěn)定，pairwise的表現(xiàn)更好，文章列出了兩種pairwise損失函數(shù)：

論文的模型部分到這里就結(jié)束了，下面看一下執(zhí)行細(xì)節(jié)與實(shí)驗(yàn)部分

代碼地址：

https://github.com/yhs968/pyGRU4REC

用GRU對(duì)輸入建模：

# reset the hidden states if some sessions have just terminated
hidden = reset_hidden(hidden, mask).detach()
# Go through the GRU layer
logit, hidden = self.gru(input, target, hidden)
# Output sampling

logit_sampled = logit[:, target.view(-1)]
# Calculate the mini-batch loss
loss = self.loss_fn(logit_sampled)

模型直觀且簡(jiǎn)單，這里reset_hidden是用于處理batch中結(jié)束的session，處理方式就是把對(duì)應(yīng)的hidden_state置為0。GRU的輸入是數(shù)據(jù)和上一層的hidden_state，但在示例代碼中，僅使用了一層的GRU。

Top1 Loss的計(jì)算：

def TOP1Loss(logit):
    """
    Args:
        logit (BxB): Variable that stores the logits for the items in the session-parallel mini-batch.
                     Negative samples for a specific item are drawn from the other items in the
                     session-parallel minibatch, as mentioned in the original GRU4REC paper.
                     The first dimension corresponds to the batches, and the second dimension
                     corresponds to sampled number of items to evaluate.
    """
    # differences between the item scores
    diff = -(logit.diag().view(-1, 1).expand_as(logit) - logit)
    # final loss
    loss = F.sigmoid(diff).mean() + F.sigmoid(logit ** 2).mean()

    return loss

在session中的每一個(gè)event，模型預(yù)測(cè)下一個(gè)event的物品排序列表。評(píng)價(jià)指標(biāo)采用了Recall@20和MRR@20，MRR是Mean Reciprocal Rank，計(jì)算方式為：

一個(gè)正確物品如果被排到了20名開(kāi)外，記為0分。

baseline選擇了基于流行度的推薦，和基于物品相似度的推薦：

實(shí)驗(yàn)效果部分，可以看到提升非常顯著：

Parallel recurrent neural network architectures for feature-rich session-based recommendations

在上文的基礎(chǔ)上，本文考慮了用戶行為序列中的更多信息，諸如圖像、文本，并設(shè)計(jì)了新的基于RNN的網(wǎng)絡(luò)模型parellel-RNN，來(lái)利用這些信息。有了上文的基礎(chǔ)，這里直接介紹本文相對(duì)于上文的修改。

上圖展示了文中所提出的幾種融合特征信息的RNN結(jié)構(gòu)，分成兩行：

第一行的模型分別為：只考慮ID輸入，ID與圖像拼接輸入，ID與圖像分別輸入且并行訓(xùn)練

第二行的模型分別為：只考慮圖像輸入，ID與圖像分別輸入且并行訓(xùn)練但是彼此的網(wǎng)絡(luò)之間有交互，ID與圖像分別輸入且共享參數(shù)矩陣

但是分別處理諸如ID與圖像特征時(shí)，由于學(xué)習(xí)的目標(biāo)不同，兩部分的網(wǎng)絡(luò)不能同時(shí)訓(xùn)練，因此文中提出了幾種交替訓(xùn)練的方式：

Simultaneous：所有參數(shù)同時(shí)進(jìn)行訓(xùn)練，用作baseline。
Alternating：每個(gè)epoch只訓(xùn)練一個(gè)特征的網(wǎng)絡(luò)，其他特征對(duì)應(yīng)的網(wǎng)絡(luò)參數(shù)固定，循環(huán)進(jìn)行，例如：第一次訓(xùn)練ID網(wǎng)絡(luò)，第二次圖像網(wǎng)絡(luò)，第三次ID網(wǎng)絡(luò).......
Residual：每個(gè)網(wǎng)絡(luò)分支依次訓(xùn)練，但是不會(huì)循環(huán)，每個(gè)網(wǎng)絡(luò)分支的單次訓(xùn)練長(zhǎng)度比Alternating要長(zhǎng)，比如ID網(wǎng)絡(luò)訓(xùn)練10個(gè)epoch，接著feature網(wǎng)絡(luò)基于前面ID網(wǎng)絡(luò)的參差訓(xùn)練10個(gè)epoch。每個(gè)網(wǎng)絡(luò)分支基于之前訓(xùn)練過(guò)的網(wǎng)絡(luò)分支的residual error的ensemble進(jìn)行訓(xùn)練。
Interleaving：對(duì)于每個(gè)mini-batch，在網(wǎng)絡(luò)分支間交替進(jìn)行如下訓(xùn)練：第一個(gè)子網(wǎng)絡(luò)正常訓(xùn)練，第二個(gè)子網(wǎng)絡(luò)基于當(dāng)前mini-batch在當(dāng)前網(wǎng)絡(luò)的殘差訓(xùn)練。更為頻繁的交替訓(xùn)練能使得網(wǎng)絡(luò)之間的訓(xùn)練更為平衡，且這樣做沒(méi)有了同步訓(xùn)練的缺點(diǎn)。

在與Item-KNN的對(duì)比試驗(yàn)中，發(fā)現(xiàn)Feature-Only(只使用圖像特征)的網(wǎng)絡(luò)竟然不如對(duì)方，而ID-Only就已經(jīng)效果提升很多，說(shuō)明僅使用圖像特征可能無(wú)法很好地表示物品。另外第四行，兩種信息特征拼接之后的效果，也不如ID-Only，說(shuō)明單層的GRU無(wú)法很好的區(qū)別這兩種拼接的特征。

上面的實(shí)驗(yàn)結(jié)果說(shuō)明復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)沒(méi)有得到很好地利用，因此作者又做了Parallel網(wǎng)絡(luò)的實(shí)驗(yàn)：

這次采用了更大的隱藏層，實(shí)驗(yàn)效果也有了明顯提升。而且此時(shí)Feature-Only的網(wǎng)絡(luò)也終于超過(guò)了baseline。同時(shí)，Parallel(int)網(wǎng)絡(luò)也取得了最佳的效果，證明了這種利用了更加豐富的信息的RNN-based的模型結(jié)構(gòu)的有效性。

国产秋霞理论久久久电影-婷婷色九月综合激情丁香-欧美在线观看乱妇视频-精品国avA久久久久久久-国产乱码精品一区二区三区亚洲人-欧美熟妇一区二区三区蜜桃视频

基于RNN的序列化推薦系統(tǒng)總結(jié)

1. Session-based Recommendations with Recurrent Neural Networks

Session-based Recommendations with Recurrent Neural Networks

Parallel recurrent neural network architectures for feature-rich session-based recommendations