Meta開源1750億參數(shù)GPT-3,打臉OpenAI?網(wǎng)友點評:GPT-4都要來了

新智元報道

新智元報道
編輯:LRS
【新智元導(dǎo)讀】OpenAI的GPT-3已發(fā)布兩年,但還是只聽說過,沒見過。最近Meta復(fù)現(xiàn)了一遍GPT-3,改名OPT,把代碼、權(quán)重、部署都開源了出來,并且還更環(huán)保,碳足跡僅為原版七分之一。
2020年,OpenAI放出了具有1750億參數(shù)的預(yù)訓(xùn)練模型GPT-3,橫掃文本生成領(lǐng)域,不僅能問答、翻譯、寫文章,還能做數(shù)學(xué)計算。
唯一的「美中不足」就是沒開源,代碼和模型看著眼饞,卻到不了嘴邊。
并且與微軟簽訂了「獨占協(xié)議」,公眾只能通過付費API與模型進行交互,完整的研究訪問授權(quán)仍然僅限于少數(shù)資源豐富的實驗室。

直到Meta AI發(fā)布了一篇論文,直接復(fù)現(xiàn)了一遍GPT-3,效果不輸原版,還全開源了出來,從代碼、模型到部署,服務(wù)一條龍,從此1750億參數(shù)全量GPT-3觸手可得。

論文鏈接:https://arxiv.org/abs/2205.01068
倉庫鏈接:https://github.com/facebookresearch/metaseq/tree/main/projects/OPT
Meta并且還給模型改了個名字OPT,也就是更open的預(yù)訓(xùn)練Transformer語言模型,簡直是照著OpenAI的臉打呀。

OPT包含了多個尺寸的模型,對于顯卡數(shù)量囊中羞澀的研究組來說,可以選擇最適合自己的模型大小進行研究。

為了防止模型被濫用,Meta AI對于OPT-175B模型加了一個非商業(yè)許可,用戶需要填寫一個申請表,該模型的訪問權(quán)限將授予學(xué)術(shù)研究人員;隸屬于政府、民間社會和學(xué)術(shù)界組織的人員;以及世界各地的工業(yè)研究實驗室。

除了開源外,Meta這次重新訓(xùn)練還很重視「環(huán)?!箚栴}。
人工智能的模型訓(xùn)練極其消耗電力,在開發(fā)OPT時,Meta表示充分考慮了能源效率,通過全分片數(shù)據(jù)并行(FSDP)和Nvidia的tensor并行抽象,使得OPT-175B的碳足跡僅為GPT-3的七分之一。

對于開源的原因,MetaAI的董事總經(jīng)理Joelle Pineau表示,雖然GPT-3現(xiàn)在可以用API訪問,但模型的代碼和訓(xùn)練參數(shù)對于整個研究社區(qū)來說顯然更重要,OPT-175B的發(fā)布也是業(yè)界首次開放如此大規(guī)模的AI模型,未來將會有更多論文基于可復(fù)現(xiàn)的結(jié)果發(fā)表出來。
不過也有網(wǎng)友指出,想看OpenAI笑話的可以停了,且不說GPT-3已經(jīng)不是當(dāng)下最大型的語言模型,OpenAI的GPT-4都快來了。

模型卡片
模型卡片
2018年,計算機科學(xué)家Margaret Mitchell提出「模型卡片」概念,通過對模型建立檔案,可以讓用戶了解模型開發(fā)的背景及適用條件,提高AI運行的透明度,Meta AI也給OPT建立了一張模型卡片。

論文鏈接:https://arxiv.org/pdf/1810.03993.pdf
發(fā)布日期:2022年5月3日發(fā)布OPT-175B
模型版本:1.0.0
模型類型:大型解碼Transformer語言模型
不適用的用例:OPT-175B并非發(fā)布給生產(chǎn)使用或真實世界部署,OPT-175B和其他大型語言模型一樣有多種缺陷,對于商業(yè)應(yīng)用來說還為時過早。
評估數(shù)據(jù)的選擇:除了在公開語言模型標(biāo)準(zhǔn)下評估外,Meta AI還在Hate Speech Detection, CrowS-Pairs, StereoSet等任務(wù)上對模型的偏見進行評估。
限制:與其他大型語言模型一樣,訓(xùn)練數(shù)據(jù)的缺乏多樣性會對模型的質(zhì)量產(chǎn)生下游影響,OPT-175B在偏見和安全性方面受到限制。OPT-175B在多樣性和幻覺(hallucination)方面也可能存在質(zhì)量問題??偟膩碚f,OPT-175B對現(xiàn)代大型語言模型的問題并不免疫。通過發(fā)放非商業(yè)許可證,Meta希望以此提高溝通、透明度,并研究大型語言模型的問題,特別是在不符合商業(yè)利益的領(lǐng)域。
數(shù)據(jù)卡片
數(shù)據(jù)卡片
訓(xùn)練數(shù)據(jù)在機器學(xué)習(xí)中有時比模型更關(guān)鍵,也會從根本上影響模型的行為、產(chǎn)生偏見等,所以記錄模型的數(shù)據(jù)來源、使用方法就顯得很重要。2018年,Timnit Gebru在arxiv上提出通過問答形式,為數(shù)據(jù)集進行建檔,最終論文于2021年12月發(fā)表。

論文鏈接:https://arxiv.org/abs/1803.09010
下面為一些相對關(guān)鍵的數(shù)據(jù)問題。
動機:OPT-175B模型的預(yù)訓(xùn)練數(shù)據(jù)是由五個數(shù)據(jù)集(RoBERTa用到的三個數(shù)據(jù)集、Pile的子集以及Pushshift.io Reddit數(shù)據(jù)集)。創(chuàng)建這個數(shù)據(jù)庫的目的是在廣泛的文本語料庫上構(gòu)建預(yù)訓(xùn)練語言模型,重點是人工生成的文本。
數(shù)據(jù)集:
1. BookCorpus,由一萬本未發(fā)表書籍構(gòu)成
2. CC-Stories,包含CommonCrawl的一個子集,過濾條件為Winograd模式的story-like風(fēng)格
3. The Pile包括Pile-CC, OpenWebText2, USPTO, Project Gutenberg, OpenSubtitles, Wikipedia, DM Mathematics, HackerNew
4. Pushshiftio Reddit數(shù)據(jù)集
5. CCNews V2包含一個更新版本的CommonCrawl News數(shù)據(jù)集
數(shù)據(jù)集大小:包括1800億個Tokens,總計800GB的數(shù)據(jù)
樣例是否包含raw data:是
樣例是否包含label:否
數(shù)據(jù)切分:將200MB的預(yù)訓(xùn)練數(shù)據(jù)劃分為驗證集
數(shù)據(jù)收集參與者:數(shù)據(jù)由機器全自動挖掘、過濾和采樣
數(shù)據(jù)預(yù)處理/清洗/標(biāo)注流程:組件數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)的清理和格式化實踐,包括刪除重復(fù)/非信息性文本,如「Chapter One」或「This ebook by Project Gutenberg」
用愛發(fā)電
用愛發(fā)電
進入預(yù)訓(xùn)練時代以后,AI模型的研發(fā)轉(zhuǎn)為基于大公司開源的大規(guī)模語言模型。
但能否用上預(yù)訓(xùn)練模型,主要取決于大公司是否想做「慈善」,畢竟大模型的訓(xùn)練動輒就是成百上千個GPU,還得搜集海量的訓(xùn)練數(shù)據(jù),還得給算法工程師開工資,曾經(jīng)有人估算,想訓(xùn)練一次5300億參數(shù)量模型的PaLM,光租卡就至少得花900萬美元。
而本次OpenAI沒有開放GPT-3,而是和微軟站隊,也是引起了大量從業(yè)者的不滿,馬斯克直言OpenAI跟open越走越遠(yuǎn),網(wǎng)友也表示,還不如改名叫ClosedAI算了。

這種受限訪問限制了研究人員對大型語言模型的理解和研究,也阻礙了提升魯棒性、減輕模型偏見、毒性等已知問題的努力。
但如果都免費開源給社區(qū),瞬間就會讓大量的競爭對手占領(lǐng)相同的高地,所以開源大模型的行為實屬「用愛發(fā)電」。
而本次OPT的發(fā)布,就屬于用愛發(fā)電來打破壟斷,斯坦福大學(xué)基礎(chǔ)模型研究中心主任Percy Liang對此評價為:開啟了語言模型研究的新機會。

總的來說,開源得越深入,就越能促進深層次問題的研究:
第一層:論文開放,證明一些想法的可行性,提供一些通用的思路;
第二層:API開放,研究人員能夠探測、評估模型的能力(如推理)和限制(如偏見)
第三層:模型權(quán)重開放,允許研究人員增量改進模型,開發(fā)出可解釋更好的技術(shù)、更有效的微調(diào)方法等;訓(xùn)練數(shù)據(jù)的開放,允許研究人員更好地理解訓(xùn)練數(shù)據(jù)在模型行為中的作用。
第四層:計算能力開放,允許研究人員嘗試新框架,新的訓(xùn)練目標(biāo)和過程,數(shù)據(jù)集消融,在不同領(lǐng)域內(nèi)開發(fā)出全新的模型。這些嘗試極其消耗計算資源,但也會對模型的理解和提升具有潛在價值。
越高層次的開放,帶來的也是更多的風(fēng)險和不確定性,所以不同的基礎(chǔ)模型開發(fā)者對于開放策略也有不同的理解。
不過就算Meta把OPT-175B發(fā)到手里了,還是得先看看自己有沒有16塊Nvidia V100顯卡。
參考資料:
https://github.com/facebookresearch/metaseq/tree/main/projects/OPT

