谷歌發(fā)布5620億參數(shù)多模態(tài)模型PaLM-E,機(jī)器人操控?zé)o所不能

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自夕小瑤的賣萌屋
作者:CoCo醬
ChatGPT已經(jīng)是大模型的天花板了嗎?
不!沒有做不到,只有想不到。谷歌出手,果然不會讓人失望!
谷歌悄悄上線了一個炸彈級模型——足足有5620億參數(shù)!

PaLM-E 將真實(shí)世界的傳感器信號與文本輸入相結(jié)合,建立語言和感知的鏈接。
規(guī)模最大的模型“PaLM-E-562B”具有562B個參數(shù),將540B的PaLM和22B的ViT集成在一起,這是目前報道的最大的視覺-語言模型。
模型輸入包括視覺、連續(xù)狀態(tài)估計值和文本輸入。作者在多個任務(wù)(包括順序機(jī)器人操作規(guī)劃、視覺問答和字幕生成)中進(jìn)行了端到端的訓(xùn)練,并通過評估表明,其模型能夠有效地解決各種推理任務(wù),并且在不同的觀察模態(tài)和多個實(shí)體上表現(xiàn)出了積極的轉(zhuǎn)移。該模型在進(jìn)行機(jī)器人任務(wù)訓(xùn)練的同時,還具有先進(jìn)的視覺-語言任務(wù)表現(xiàn),并隨著規(guī)模的增大保持了通用的語言能力。
論文鏈接:
https://palm-e.github.io/assets/palm-e.pdf
PaLM-E是一個單一通用的多模態(tài)語言模型,可用于感知推理任務(wù)、視覺語言任務(wù)和語言任務(wù)。它將來自視覺語言領(lǐng)域的知識轉(zhuǎn)化為體驗(yàn)推理的知識,從具有復(fù)雜動態(tài)和物理約束的環(huán)境中進(jìn)行機(jī)器人規(guī)劃,到回答關(guān)于可觀察世界的問題,都可輕松搞定!
它支持多模態(tài)輸入,來自任意模態(tài)(例如圖像、三維表示或狀態(tài),綠色和藍(lán)色)的輸入插入文本token(橙色)旁邊作為LLM的輸入,進(jìn)行端到端的訓(xùn)練。

PaLM-E的主要架構(gòu)思想:將連續(xù)的、可感知的觀察數(shù)據(jù)注入預(yù)先訓(xùn)練的語言模型的嵌入空間中,以使其能夠理解這些連續(xù)數(shù)據(jù)。這是通過將連續(xù)觀測數(shù)據(jù)編碼為與語言嵌入空間中的語言標(biāo)記具有相同維度的向量序列來實(shí)現(xiàn)的。這種連續(xù)信息以類似于語言標(biāo)記的方式注入語言模型中。
PaLM-E是一個僅具有解碼器的語言模型,可以自動地根據(jù)前綴或提示生成文本完成結(jié)果。該模型使用預(yù)先訓(xùn)練的語言模型PaLM,并將其賦予感知推理的能力。
我們展示了幾個示例視頻,展示了如何使用PaLM-E在兩個不同的真實(shí)實(shí)體上規(guī)劃和執(zhí)行長期任務(wù)。請注意,所有這些結(jié)果都是使用同一模型在所有數(shù)據(jù)上訓(xùn)練得出的。在第一個視頻中,我們執(zhí)行了一個長期指令“從抽屜里拿來米餅”,其中包括多個規(guī)劃步驟,以及整合了機(jī)器人攝像頭的視覺反饋。
最后,在同一機(jī)器人上展示另一個示例,指令是“給我?guī)б粋€綠色的星星”。綠色的星星是這個機(jī)器人沒有直接接觸過的物品。
在接下來的部分中,我們展示了PaLM-E控制桌面機(jī)器人排列方塊。
PaLM-E可以基于視覺和語言輸入成功地規(guī)劃多個階段。它能夠成功地規(guī)劃長期任務(wù)“按顏色將方塊分類到不同的角落”。還展示了另一個多階段規(guī)劃并在長時間范圍內(nèi)整合視覺反饋的示例。最后,演示了另一個長期推動任務(wù)的示例。在這個任務(wù)中,PaLM-E一步步地將指令序列化到低層策略,例如“將黃色六邊形移動到綠色星星”,“將藍(lán)色三角形移動到組中”。
此外,還介紹了兩個泛化的示例。在第一個示例中,指令是“將紅色方塊推到咖啡杯旁邊”。數(shù)據(jù)集中只有三個包含咖啡杯的示范,但其中沒有一個包含紅色方塊。在第二個示例中,指令是“將綠色方塊推到烏龜旁邊”。機(jī)器人能夠成功地執(zhí)行這個任務(wù),盡管它之前從未見過這只烏龜。這兩個示例展示了模型對于未曾接觸過的物體或指令具有一定的泛化能力。
參考文獻(xiàn):
https://palm-e.github.io/

