Transformer論文引用破4萬,兩位作者離開谷歌創(chuàng)業(yè)
機器之心報道
編輯:張倩
「在谷歌,我們訓(xùn)練出了越來越大的 Transformer,夢想著有朝一日構(gòu)建一個通用模型來支持所有 ML 用例。但是,這其中有一個明顯的局限:用文本訓(xùn)練出的模型可以寫出很棒的散文,但它們無法在數(shù)字世界中采取行動。你不能要求 GPT-3 給你訂機票,給供應(yīng)商開支票,或者進行科學(xué)實驗。」




前谷歌大腦研究工程師 Anmol Gulati,他參與了谷歌的大規(guī)模語音和語言建模研究;
前谷歌大腦研究科學(xué)家 Augustus Odena,他參與構(gòu)建了谷歌的代碼生成模型;
前 OpenAI 加州實驗室工程副總裁 David Luan,后來也加入過谷歌大腦,他是 GPT-2、PaLM (https://mp.weixin.qq.com/s/-Annt2JkAhgv9YxYpc7pXQ) 的論文作者之一,還參與了 GPT-3 的部分工作;
在 DeepMind、谷歌大腦、百度都工作過的 Erich Elsen,他是機器學(xué)習和高性能計算交叉領(lǐng)域的研究人員,在 DeepMind 參與領(lǐng)導(dǎo)大模型的訓(xùn)練工作,致力于提高訓(xùn)練效率;
前谷歌大腦軟件工程師 Fred Bertsch,他是數(shù)據(jù)和協(xié)作人工智能系統(tǒng)方面的專家;
前谷歌 ML 產(chǎn)品經(jīng)理 Kelsey Schroeder,她曾領(lǐng)導(dǎo)谷歌大模型生產(chǎn)基礎(chǔ)設(shè)施產(chǎn)品;
曾在谷歌大腦實習的 MIT 博士 Maxwell Nye,他的研究重點是使用深度學(xué)習和符號技術(shù)來自動編寫代碼。在谷歌實習期間,他曾使用非常大的語言模型(> 1000 億個參數(shù))來編寫和理解 Python 程序。

在谷歌,我們訓(xùn)練出了越來越大的 Transformer,夢想著有朝一日構(gòu)建一個通用模型來支持所有 ML 用例。但是,這其中有一個明顯的局限:用文本訓(xùn)練出的模型可以寫出很棒的散文,但它們無法在數(shù)字世界中采取行動。你不能要求 GPT-3 給你訂機票,給供應(yīng)商開支票,或者進行科學(xué)實驗。
真正的通用智能要求模型不僅能讀能寫,還能以一種對用戶有幫助的方式采取行動。這就是我們創(chuàng)立 Adept 的初衷:我們正在訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)來使用世界上的每一款工具和 API,該網(wǎng)絡(luò)建立在人們已經(jīng)創(chuàng)造的大量現(xiàn)有能力的基礎(chǔ)上。?
實際上,我們正在創(chuàng)建一個通用系統(tǒng),幫助人們在電腦前完成工作,我們管這個系統(tǒng)叫:每個知識工作者的「通用合作者」。你可以把它想象成你電腦里的一個 overlay,它和你一起工作,使用和你一樣的工具。
使用 Adept,你能專注于你真正喜歡的工作,并要求模型承擔其他任務(wù)。例如,你可以要求模型「生成月度合規(guī)報告」,所有這些都使用現(xiàn)有的軟件,如 Airtable、Photoshop、ATS、Tableau、Twilio。我們希望這個「合作者」是一個好學(xué)生,可訓(xùn)練性非常強,非常有幫助。
這一產(chǎn)品愿景讓我們興奮不已,不僅因為它對每個在電腦前工作的人來說都非常有用,還因為我們相信這是實現(xiàn)通用智能最實用、最「安全」的途徑。與生成語言或自行決策的大型模型不同,我們的模型范圍更窄——我們是現(xiàn)有軟件工具的接口,更容易緩解偏見問題。對我們公司來說至關(guān)重要的是,我們的產(chǎn)品如何成為一種工具,來了解人們的偏好,并在每一步中整合人類的反饋。



——The ?End——
分享
收藏
點贊
在看

評論
圖片
表情

