認識元學習 Meta Learning - 窺探通用型 AI
?由于公眾號修改了推送規(guī)則,請加星標,多點在看,以便第一時間收到推送。?
?機器學習與數(shù)學宣
深度學習在各個領域都取得了巨大的成功,并將繼續(xù)展翅翱翔。但是訓練傳統(tǒng)的神經(jīng)網(wǎng)絡模型的一個主要問題是需要大量的數(shù)據(jù),并且需要使用這些標簽數(shù)據(jù)執(zhí)行多次迭代更新。
讓我們看一個經(jīng)典的貓狗分類的例子。雖然在過去的二十年中,我們已經(jīng)使模型的準確率越來越高,但上面提到的根本問題還是存在。我們仍然需要大量帶標簽的狗和貓圖像來獲得一定準確率。

人類是如何做到用很少的例子來實現(xiàn)分類的呢?假設突然有兩種新的動物出現(xiàn)在你面前,它們就像貓和狗一樣可以從視覺上區(qū)分開來。我很確定任何正常人都可以在少于 100 個例子中得到一個不錯的準確率。為什么呢?多年來,我們已經(jīng)了解了動物的基本結構。我們知道如何提取特征,例如臉型、毛發(fā)、尾巴、身體結構等等。簡言之,我們已經(jīng)學會了學習。
Meta Learning 的目的是學會學習,并以最小的數(shù)據(jù)量泛化 AI 使之適應很多不同的場景。你可能會說,這不是遷移學習做的同樣事情么。是的,遷移學習的方向是對的,但它不能讓我們走得足夠遠。我們觀察到,當訓練網(wǎng)絡的任務偏離目標任務時,預訓練網(wǎng)絡的效益會大大降低。Meta Learning 建議將學習問題劃分為兩個層次。首先是在每個單獨的任務中快速獲取知識。這一層次是由第二個層次指導的,它包括從所有任務中緩慢提取學到的信息。Meta Learning 算法可以大致分為下面三類。
1基于梯度下降的方法
這類方法背后的直覺是再次使用標準梯度下降法更新已有神經(jīng)網(wǎng)絡,將其泛化到各種數(shù)據(jù)集上。
在這種方法中,我們使用一組數(shù)據(jù)集,每個數(shù)據(jù)集都有幾個實例,我們稱每個例子為 k 樣本,用于 k-樣本學習。設數(shù)據(jù)集為
我們希望我們的模型能泛化到各類數(shù)據(jù)集上。所以,我們需要更新參數(shù)后的模型在 p(T) 中所有數(shù)據(jù)集的誤差總和。這可以用數(shù)學方式表示,
對于
我們可以看到,通過模型的梯度反向傳播 Meta 損失涉及計算導數(shù)的導數(shù)。這可以使用例如 TensorFlow 中支持的 Hessian 矩陣和向量的乘積來實現(xiàn)。
2最近鄰法
這套方法基于如下事實: 最近鄰法不需要訓練,但其性能取決于所選擇的度量。
它們由將輸入域映射到特征空間的嵌入模型以及將特征空間映射到任務變量的基礎學習器組成。Meta Learning的目標是學習一種嵌入模型,以便基礎學習器能夠出色地泛化到各個任務上。在此,基于嵌入的基于距離的預測規(guī)則。我們來看一個被稱為匹配網(wǎng)絡的具體例子以了解其工作原理。
匹配網(wǎng)絡支持將圖像標簽對
其中,
上述方法讓人聯(lián)想到 KDE 和 kNN 算法。
3基于模型的方法
我們人腦,在處理東西的同時,也儲存了它的表示以備后用。這類算法試圖通過一些輔助記憶塊來模仿人類?;静呗跃褪菍W習將表示的類型放入記憶塊,以及以后應該如何使用這些表示進行預測。
在這些方法中,輸入序列和輸出標簽是按順序給定的。一個數(shù)據(jù)集
在這個具體的實現(xiàn)中,我們將要討論的記憶模塊是神經(jīng)圖靈機(NTM)。它基本上是一臺圖靈機(內存塊上的讀寫頭),帶有基于LSTM(有時是簡單的神經(jīng)網(wǎng)絡)的控制器。NTM 外部內存模塊中的內存編碼和檢索速度非???,在每一個時間步長中都可能將向量表示放入或取出內存。這種能力使 NTM 成為 Meta Learning 和低概率預測的完美候選者,因為它既可以通過緩慢更新其權重進行長期存儲,也可以通過外部存儲模塊進行短期存儲。

在一些時間步長
Softmax 用于產生讀寫向量。
這是用于獲取內存
它用作下一個控制器狀態(tài)的輸入,以及基于 softmax 的分類器的輸入。
元學習是目前機器學習領域中一個令人振奮的研究熱點。本篇簡要介紹了三類方法,讓大家快速對元學習有個總體印象,具體的研究內容等待后續(xù)展開。
?參考資料?
英文鏈接: https://towardsdatascience.com/meta-learning-ai-generalised-1007b9695fe1
