2021 年之后,機器學(xué)習將會對哪些領(lǐng)域產(chǎn)生前所未有的影響?
在過去的數(shù)年,見證了機器學(xué)習(ML)和計算機科學(xué)領(lǐng)域的許多變化。按照這種長弧形的進步模式,人們或許將在接下來的幾年中看到許多令人興奮的進展,這些進步最終將造福數(shù)十億人的生活,并產(chǎn)生比以往更深遠的影響。 在一篇總結(jié)文章中,谷歌 AI 負責人、知名學(xué)者 Jeff Dean 重點介紹了 2021 年之后機器學(xué)習最具潛力的五個領(lǐng)域:趨勢 1:能力、通用性更強的機器學(xué)習模型
趨勢 2:機器學(xué)習持續(xù)的效率提升
趨勢 3:機器學(xué)習變得更個性化,對社區(qū)也更有益
趨勢 4:機器學(xué)習對科學(xué)、健康和可持續(xù)發(fā)展的影響越來越大
趨勢 5:對機器學(xué)習更深入和更廣泛的理解
趨勢 1:能力、通用性更強的機器學(xué)習模型研究人員正在訓(xùn)練比以往任何時候規(guī)模更大、能力更強的機器學(xué)習模型。過去幾年,語言領(lǐng)域已經(jīng)從數(shù)百億 token 數(shù)據(jù)上訓(xùn)練的數(shù)十億參數(shù)模型(如 110 億參數(shù)的 T5 模型),發(fā)展到了在數(shù)萬億 token 數(shù)據(jù)上訓(xùn)練的數(shù)千億或萬億參數(shù)模型(如 OpenAI 1750 億參數(shù)的 GPT-3 和 DeepMind 2800 億參數(shù)的 Gopher 等密集模型和谷歌 6000 億參數(shù)的 GShard 和 1.2 萬億參數(shù)的 GLaM 等稀疏模型)。數(shù)據(jù)集和模型規(guī)模的增長帶來了多種語言任務(wù)上準確率的顯著提升,并通過標準 NLP 基準任務(wù)上的全面改進證明了這一點。這些先進的模型中有很多都聚焦于單一但重要的書面語言形態(tài)上,并在語言理解基準和開放式會話能力中展現(xiàn)出了 SOTA 結(jié)果,即使跨同一領(lǐng)域多個任務(wù)也是如此。同時,這些模型在訓(xùn)練數(shù)據(jù)相對較少時也有能力泛化至新的語言任務(wù),在某些情況下,對于新任務(wù)需要極少甚至不需要訓(xùn)練樣本。與谷歌對話應(yīng)用語言模型 LaMDA 模擬威德爾氏海豹(weddell seal)時的對話。Transformer 模型也對圖像、視頻和語音模型產(chǎn)生了重大影響,所有這些都從規(guī)模中獲益頗多。用于圖像識別和視頻分類的 Transformer 模型在很多基準上實現(xiàn)了 SOTA,我們也證明了在圖像和視頻數(shù)據(jù)上協(xié)同訓(xùn)練模型可以獲得較單獨在視頻數(shù)據(jù)上訓(xùn)練模型更高的性能。我們開發(fā)了用于圖像和視頻 Transformer 的稀疏、軸性注意力機制,為視覺 Transformer 模型找到了更好的標記化圖像方法,并通過檢查視覺 Transformer 方法相較于 CNN 的操作原理來提升對它們的理解。卷積操作與 Transformer 模型的結(jié)合也在視覺和語音識別任務(wù)中大有裨益。生成模型的輸出也大幅提升。這在圖像生成模型中最為明顯,并在過去幾年取得了顯著進步。例如,最近的模型有能力在僅給出一個類別的情況下創(chuàng)建真實圖像,可以填充一個低分辨率圖像以創(chuàng)建看起來自然的高分辨率對應(yīng)物,甚至還可以創(chuàng)建任意長度的空中自然景觀。
基于給定類生成全新圖像的 cascade 擴散模型示意圖。除了先進的單模態(tài)模型之外,大規(guī)模多模態(tài)模型也在發(fā)展中。其中一些最先進的多模態(tài)模型可以接受語言、圖像、語言和視頻等多種不同的輸入模態(tài),產(chǎn)生不同的輸出模態(tài)。這是一個令人興奮的方向,就像真實世界一樣,有些東西在多模態(tài)數(shù)據(jù)中更容易學(xué)習。同樣地,圖像和文本配對有助于多語種檢索任務(wù),并且更好地理解如何配對文本和圖像輸入可以提升圖像描述任務(wù)。視覺和文本數(shù)據(jù)上的協(xié)同訓(xùn)練有助于提升視覺分類任務(wù)的準確率和穩(wěn)健性,同時圖像、視頻和語音任務(wù)上的聯(lián)合訓(xùn)練能夠提升所有模態(tài)的泛化性能。
谷歌機器人團隊(Robotics at Google)基于視覺的機器人操作系統(tǒng)的示意圖,該系統(tǒng)可以泛化至全新任務(wù)。所有這些趨勢都指向了訓(xùn)練能力更強的通用性模型,這些模型可以處理多種數(shù)據(jù)模態(tài)并解決數(shù)千甚至數(shù)萬個任務(wù)。在接下來的幾年,我們將通過下一代架構(gòu) Pathways 來追求這一愿景,并期望在該領(lǐng)域看到實質(zhì)性進展。
?
Pathways 我們正在努力構(gòu)建能夠在數(shù)百萬個任務(wù)中實現(xiàn)泛化的單一模型。?趨勢 2:機器學(xué)習持續(xù)的效率提升效率的提升源自計算機硬件設(shè)計和機器學(xué)習算法、元學(xué)習研究的進步,并正在推動機器學(xué)習模型更強大的功能。機器學(xué)習 pipeline 的很多方面,從訓(xùn)練和執(zhí)行模型的硬件到機器學(xué)習架構(gòu)的各個組件,這些都可以進行效率優(yōu)化,同時保持或提升整體性能。更高的效率促成了大量關(guān)鍵性進步,這些進步將繼續(xù)顯著提升機器學(xué)習的效率,使更大、更高質(zhì)量的機器學(xué)習模型能夠在保持成本效益的前提下開發(fā),并進一步促進大眾化。一是機器學(xué)習加速性能的持續(xù)提升。每一代機器學(xué)習加速器都較前代更強,實現(xiàn)了更快的每芯片性能,并常常增加整體系統(tǒng)的規(guī)模。2021 年,我們推出了谷歌第四代張量處理器 TPUv4,在 MLPerf 基準上顯示出較 TPUv3 2.7 倍的提升。移動設(shè)備上的機器學(xué)習能力也在顯著提升。Pixel 6 手機配有全新的谷歌張量處理器(Google Tensor processor ),該處理器集成了一個強大的機器學(xué)習加速器,以支持重要的設(shè)備上功能。左:TPUv4 板;中:TPUv4 艙;右:Pixel 6 手機采用的谷歌張量芯片。二是機器學(xué)習編譯和機器學(xué)習工作負載優(yōu)化的持續(xù)提升。即使當硬件無法改變時,編譯器的改進以及機器學(xué)習加速器的其他系統(tǒng)軟件優(yōu)化也可以實現(xiàn)效率的顯著提升。在 150 個機器學(xué)習模型上使用基于 ML 的編譯器進行自動調(diào)優(yōu),可以實現(xiàn)端到端模型加速。三是人類創(chuàng)造力驅(qū)動的更高效模型架構(gòu)的發(fā)現(xiàn)。模型架構(gòu)的持續(xù)改進大幅度減少了在很多問題上實現(xiàn)一定準確率水平所需的計算量。例如,在使用計算量比 CNN 少 4 至 10 倍的情況下,Vision Transformer 能夠在大量不同的圖像分類任務(wù)上提升 SOTA 結(jié)果。四是機器驅(qū)動的更高效模型架構(gòu)的發(fā)現(xiàn)。神經(jīng)架構(gòu)搜索(NAS)可以自動發(fā)現(xiàn)新的機器學(xué)習架構(gòu),這些架構(gòu)對于給定的問題域更加高效。神經(jīng)架構(gòu)搜索的主要優(yōu)勢是可以顯著減少算法開發(fā)所需的努力,這是因為它對每個搜索空間和問題域組合只需要一次努力(one-time effort)。此外,雖然執(zhí)行神經(jīng)架構(gòu)搜索的初始努力需要很高的計算成本,但生成的模型可以極大地減少下游研究和生產(chǎn)設(shè)置中的計算量,從而減少整體資源需求。神經(jīng)架構(gòu)搜索發(fā)現(xiàn)的 Primer 架構(gòu),效率是 plain Transformer 模型的 4 倍。五是稀疏性的使用。所謂稀疏性,即模型具有非常大的容量,但只有一部分針對給定的任務(wù)、示例或 token 而被激活。稀疏性是另一個重大的算法進步,可以極大地提升效率。2017 年,我們提出了稀疏門混合專家層(sparsely-gated mixture-of-experts layers),使用計算量比當時 SOTA 密集 LSTM 模型少 10 倍時在多個翻譯基準上實現(xiàn)更好結(jié)果。還有最近的 Swin Transformer,將混合專家風格的架構(gòu)與 Transformer 模型架構(gòu)結(jié)合,結(jié)果顯示訓(xùn)練時間和效率均實現(xiàn)了較密集 T5-Base Transformer 模型 7 倍的加速。稀疏性概念還可以用來降低核心 Transformer 架構(gòu)中注意力機制的成本。谷歌研究院提出的 BigBird 稀疏注意力模型由處理輸入序列所有部分的全局 token、局部 token 和一系列隨機 token 組成。趨勢 3:機器學(xué)習變得更個性化,對社區(qū)也更有益隨著機器學(xué)習和硅硬件(如谷歌 Pixel 6 上的谷歌張量處理器)的創(chuàng)新,許多新體驗成為了可能,使移動設(shè)備更有能力持續(xù)有效地感知周圍的背景和環(huán)境。這些進步提升了可訪問性和易用性,同時也增強了計算能力,對于移動攝影、實時翻譯等功能至關(guān)重要。值得注意的是,最近的技術(shù)進步還為用戶提供了更加個性化的體驗,同時加強了隱私保護。可以看到,更多的人比以往任何時候都要依靠手機攝像頭來記錄他們的日常生活并進行藝術(shù)表達。機器學(xué)習在計算攝影中的巧妙應(yīng)用不斷提升了手機攝像頭的功能,使其更易于使用、性能更強并生成更高質(zhì)量的圖像。例如,改進的 HDR+、在極低光下拍照的能力、更好地人像處理能力、以及適用于所有膚色的更具包容性的相機,所有這些進步都使用戶可以拍攝出更好的照片。使用 Google Photos 中現(xiàn)在提供的基于 ML 的強大工具,如電影照片(Cinematic Photo)等,進一步提高了照片拍攝效果。HDR + 從一組全分辨率的原始圖像開始,每張都有相同的曝光度(圖左);合并后的圖像減少了噪聲,增加了動態(tài)范圍,從而得到更高質(zhì)量的最終圖像(圖右)。除了使用手機進行創(chuàng)意表達外,許多人還依靠手機來與他人實時溝通,使用消息應(yīng)用中的 Live Translate 和 Live Caption 進行電話通話。得益于自監(jiān)督學(xué)習和嘈雜學(xué)生訓(xùn)練等技術(shù),語音識別的準確性繼續(xù)提升,在重音、嘈雜條件或重疊語音的環(huán)境以及多語言任務(wù)中都有顯著改善。基于文本到語音合成的進步,人們可以在越來越多的平臺上使用谷歌 Read Aloud 服務(wù)收聽網(wǎng)頁和文章,從而使信息更容易跨越形態(tài)和語言的障礙。
最近一項研究表明,注視識別能力是精神疲勞的一個重要生物標記。(https://www.nature.com/articles/s41746-021-00415-6)鑒于這些新功能背后的數(shù)據(jù)具有潛在的敏感性,因此必須將它們默認設(shè)計為私有的。它們中的許多都在安卓私有計算核心內(nèi)(Private Compute Core)運行,這是一個與操作系統(tǒng)其余部分隔離的開源安全環(huán)境。安卓確保私有計算核心中處理的數(shù)據(jù)不會在用戶未采取操作的情況下共享給任何應(yīng)用。安卓還阻止私有計算核心內(nèi)的任何功能直接訪問網(wǎng)絡(luò)。相反,功能通過一小組開源 API 與私有計算服務(wù)(Private Compute Services)進行通信,后者消除識別信息并利用聯(lián)邦學(xué)習、聯(lián)邦分析和私有信息檢索等隱私技術(shù),在確保隱私的同時實現(xiàn)學(xué)習。聯(lián)邦重構(gòu)是一種全新的局部聯(lián)邦學(xué)習技術(shù),它將模型劃分為全局和局部參數(shù)。趨勢 4:機器學(xué)習對科學(xué)、健康和可持續(xù)發(fā)展的影響越來越大近年來,從物理學(xué)到生物學(xué),機器學(xué)習在基礎(chǔ)科學(xué)中的影響越來越大,并在相關(guān)領(lǐng)域(例如可再生能源和醫(yī)學(xué))實現(xiàn)了許多優(yōu)秀的實際應(yīng)用。例如,計算機視覺模型正在被用來解決個人和全球范圍內(nèi)的問題,它們可以協(xié)助醫(yī)生展開日常工作,擴展人們對神經(jīng)生理學(xué)的理解,還可以提供更精準的天氣預(yù)報,可以簡化救災(zāi)工作。通過發(fā)現(xiàn)減少排放和提高替代能源輸出的方法,其他類型的機器學(xué)習模型被證明在應(yīng)對氣候變化方面至關(guān)重要。隨著 機器學(xué)習變得更加穩(wěn)健、成熟且可廣泛使用,這樣的模型甚至可以用作藝術(shù)家的創(chuàng)作工具。計算機視覺的大規(guī)模應(yīng)用以獲得新的洞察力過去十年計算機視覺的進步使計算機能夠用于不同科學(xué)領(lǐng)域的各種任務(wù)。在神經(jīng)科學(xué)中,自動重建技術(shù)可以從腦組織薄片的高分辨率電子顯微鏡圖像中恢復(fù)腦組織的神經(jīng)結(jié)締結(jié)構(gòu)。前幾年,谷歌合作為果蠅、小鼠和鳴禽的大腦創(chuàng)建了此類資源;去年,谷歌與哈佛大學(xué)的 Lichtman 實驗室合作,分析了重建的最大腦組織樣本,以及任何物種中的這種細致程度成像,并生成了跨越皮層所有層的多種細胞類型的人類皮層突觸連接的第一次大規(guī)模研究。這項工作的目標是生成一種新的資源,幫助神經(jīng)科學(xué)家研究人類大腦的驚人復(fù)雜性。例如,下圖顯示了成人大腦中約 860 億個神經(jīng)元中的 6 個神經(jīng)元。來自谷歌人類皮層重建的單個人類枝形吊燈神經(jīng)元,以及與該細胞連接的一些錐體神經(jīng)元。計算機視覺技術(shù)還提供了強大的工具來應(yīng)對更大甚至全球范圍內(nèi)的挑戰(zhàn)。一種基于深度學(xué)習的天氣預(yù)報方法使用衛(wèi)星和雷達圖像作為輸入,并結(jié)合其他大氣數(shù)據(jù),在長達 12 小時的預(yù)測時間內(nèi)產(chǎn)生比傳統(tǒng)的基于物理的模型更準確的天氣和降水預(yù)測。與傳統(tǒng)方法相比,它們還可以更快地生成更新的預(yù)測,這在極端天氣出現(xiàn)時非常重要。
這些案例的一個共同主題是,機器學(xué)習模型能夠基于對可用視覺數(shù)據(jù)的分析,高效、準確地執(zhí)行專門的任務(wù),支持下游任務(wù)。另一種在許多領(lǐng)域產(chǎn)生出色結(jié)果的方法是允許機器學(xué)習算法以自動化方式探索和評估問題的設(shè)計空間,以尋找可能的解決方案。在一個應(yīng)用程序中,基于 Transformer 的變分自動編碼器學(xué)習能夠創(chuàng)建美觀且有用的文檔布局,并且可以擴展相同的方法來探索可能的空間布局。另一種機器學(xué)習驅(qū)動的方法能夠自動探索計算機游戲規(guī)則調(diào)整的設(shè)計空間,提高游戲的可玩性和其他屬性,使人類游戲設(shè)計師能夠更快地創(chuàng)建更好的游戲。
VTN 模型的可視化。它能夠提取布局元素(段落、表格、圖像等)之間的有意義的聯(lián)系,以生成逼真的合成文檔(例如,具有更好的對齊和邊距)。還有其他機器學(xué)習算法已被用于評估機器學(xué)習加速器芯片本身的計算機架構(gòu)決策的設(shè)計空間。機器學(xué)習可用于為 ASIC 設(shè)計快速創(chuàng)建芯片布局,這些布局優(yōu)于人類專家生成的布局,并且可以在幾小時而不是幾周內(nèi)生成。這降低了芯片的固定工程成本,并減少了為不同應(yīng)用快速創(chuàng)建專用硬件的阻礙。谷歌在即將推出的 TPU-v5 芯片的設(shè)計中成功地使用了這種方法。這種探索性的機器學(xué)習方法也已應(yīng)用于材料發(fā)現(xiàn)。在谷歌研究院和加州理工學(xué)院的合作中,幾個機器學(xué)習模型與改進后的噴墨打印機和定制顯微鏡相結(jié)合,能夠快速搜索數(shù)十萬種可能的材料。這些自動化設(shè)計空間探索方法可以幫助加速許多科學(xué)領(lǐng)域,特別是當生成實驗和評估結(jié)果的整個實驗循環(huán)都能以自動化或大部分自動化的方式完成時。這種方法也許會在未來幾年在更多領(lǐng)域中發(fā)揮良好的效果。除了推進基礎(chǔ)科學(xué),機器學(xué)習還可以更廣泛地推動醫(yī)學(xué)和人類健康的進步。利用計算機科學(xué)在健康方面的進步并不是什么新鮮事,但是機器學(xué)習打開了新的大門,帶來了新的機會,也帶來了新的挑戰(zhàn)。以基因組學(xué)領(lǐng)域為例。自基因組學(xué)問世以來,計算一直很重要,但機器學(xué)習增加了新功能并破壞了舊范式。當谷歌的研究人員開始在這一領(lǐng)域工作時,許多專家認為使用深度學(xué)習幫助從測序儀輸出推斷遺傳變異的想法是牽強附會的。而在今天,這種機器學(xué)習方法被認為是最先進的。未來機器學(xué)習將扮演更重要的角色,基因組學(xué)公司正在開發(fā)更準確、更快的新測序儀器,但也帶來了新的推理挑戰(zhàn)。谷歌發(fā)布了開源軟件 DeepConsensus,并與 UCSC 、PEPPER-DeepVariant 合作,支持這些前沿信息學(xué)的新儀器,希望更快速的測序能夠帶來對患者產(chǎn)生影響的適用性。除了處理測序儀數(shù)據(jù)之外,還有其他機會使用機器學(xué)習來加速將基因組信息用于個性化健康的過程。廣泛表型和測序個體的大型生物庫可以徹底改變?nèi)祟惱斫夂凸芾砑膊∵z傳易感性的方式。谷歌基于機器學(xué)習的表型分析方法提高了將大型成像和文本數(shù)據(jù)集轉(zhuǎn)換為可用于遺傳關(guān)聯(lián)研究的表型的可擴展性,DeepNull 方法更好地利用大型表型數(shù)據(jù)進行遺傳發(fā)現(xiàn)。這兩種方法均已開源。生成解剖和疾病特征的大規(guī)模量化以與生物庫中的基因組數(shù)據(jù)相結(jié)合的過程。正如機器學(xué)習幫助我們看到基因組數(shù)據(jù)的隱藏特征一樣,它也可以幫助我們發(fā)現(xiàn)新信息并從其他健康數(shù)據(jù)類型中收集新見解。疾病診斷通常是關(guān)于識別模式、量化相關(guān)性或識別更大類別的新實例,這些都是機器學(xué)習擅長的任務(wù)。谷歌研究人員已經(jīng)使用機器學(xué)習解決了廣泛的此類問題,但機器學(xué)習在醫(yī)學(xué)成像中的應(yīng)用更進一步:谷歌 2016 年介紹深度學(xué)習在糖尿病性視網(wǎng)膜病變篩查中應(yīng)用的論文,被美國醫(yī)學(xué)會雜志 (JAMA) 的編輯選為十年來最具影響力的 10 篇論文之一。另一個雄心勃勃的醫(yī)療保健計劃 Care Studio 使用最先進的 ML 和先進的 NLP 技術(shù)來分析結(jié)構(gòu)化數(shù)據(jù)和醫(yī)療記錄,在正確的時間向臨床醫(yī)生提供最相關(guān)的信息——最終幫助他們提供更積極、更準確的護理。盡管機器學(xué)習可能對擴大臨床環(huán)境的可及性和提高準確性很重要,但一個同樣重要的新趨勢正在出現(xiàn):機器學(xué)習應(yīng)用于幫助人們提高日常健康和福祉。人們?nèi)粘TO(shè)備逐漸擁有強大的傳感器,幫助健康指標和信息民主化,人們可以就自己的健康做出更明智的決定。我們已經(jīng)看到了智能手機攝像頭已經(jīng)能評估心率和呼吸頻率以幫助用戶,甚至無需額外硬件,以及支持非接觸式睡眠感應(yīng)的 Nest Hub 設(shè)備讓用戶更好地了解他們的夜間健康狀況。我們已經(jīng)看到,一方面,我們在自己的 ASR 系統(tǒng)中可以顯著提高無序語音的語音識別質(zhì)量,另一方面,使用 ML 幫助重建有語言障礙的人的聲音,使他們能夠用自己的聲音進行交流。支持機器學(xué)習的智能手機,將幫助人們更好地研究新出現(xiàn)的皮膚狀況或幫助視力有限的人慢跑。這些機會提供了一個光明的未來,不容忽視。
用于非接觸式睡眠感應(yīng)的自定義 ML 模型有效地處理連續(xù)的 3D 雷達張量流(總結(jié)一系列距離、頻率和時間的活動),以自動計算用戶存在和清醒(清醒或睡著)的可能性的概率。
另一個最重要的領(lǐng)域是氣候變化,這對人類來說是一個極其緊迫的威脅。我們需要共同努力,扭轉(zhuǎn)有害排放的曲線,確保一個安全和繁榮的未來。關(guān)于不同選擇對氣候影響的信息,可以幫助我們以多種不同方式應(yīng)對這一挑戰(zhàn)。
?借助環(huán)保路線,Google 地圖將顯示最快的路線和最省油的路線,用戶可以選擇最適合的路線。?
??
Google 地圖中的野火層可在緊急情況下為人們提供重要的最新信息。??趨勢 5:對機器學(xué)習更深入和更廣泛的理解隨著 ML 在技術(shù)產(chǎn)品和社會中更廣泛地使用,我們必須繼續(xù)開發(fā)新技術(shù)以確保公平公正地應(yīng)用它,造福于所有人,而不只是其中一部分。一個重點領(lǐng)域是基于在線產(chǎn)品中用戶活動的推薦系統(tǒng)。由于這些推薦系統(tǒng)通常由多個不同的組件組?成,因此了解它們的公平性通常需要深入了解各個組件以及各個組件組合在一起時的行為方式。與推薦系統(tǒng)一樣,上下文在機器翻譯中很重要。由于大多數(shù)機器翻譯系統(tǒng)都是孤立地翻譯單個句子,沒有額外的上下文,它們通常會加強與性別、年齡或其他領(lǐng)域相關(guān)的偏見。為了解決其中一些問題,谷歌在減少翻譯系統(tǒng)中的性別偏見方面進行了長期的研究。?部署機器學(xué)習模型的另一個常見問題是分布偏移:如果用于訓(xùn)練模型的數(shù)據(jù)的統(tǒng)計分布與作為輸入的模型的數(shù)據(jù)的統(tǒng)計分布不同,則模型的行為有時可能是不可預(yù)測的。數(shù)據(jù)收集和數(shù)據(jù)集管理也是一個重要的領(lǐng)域,因為用于訓(xùn)練機器學(xué)習模型的數(shù)據(jù)可能是下游應(yīng)用程序中偏見和公平問題的潛在來源。分析機器學(xué)習中的此類數(shù)據(jù)級聯(lián)有助于識別機器學(xué)習項目生命周期中可能對結(jié)果產(chǎn)生重大影響的許多地方。這項關(guān)于數(shù)據(jù)級聯(lián)的研究在針對機器學(xué)習開發(fā)人員和設(shè)計人員的修訂版 PAIR Guidebook 中為數(shù)據(jù)收集和評估提供了證據(jù)支持的指南。?
??
不同顏色的箭頭表示各種類型的數(shù)據(jù)級聯(lián),每個級聯(lián)通常起源于上游,在機器學(xué)習開發(fā)過程中復(fù)合,并在下游表現(xiàn)出來。創(chuàng)建更具包容性和更少偏見的公共數(shù)據(jù)集是幫助改善每個人的機器學(xué)習領(lǐng)域的重要方法。2016 年,谷歌發(fā)布了 Open Images 數(shù)據(jù)集,該數(shù)據(jù)集包含約 900 萬張圖像,標注了涵蓋數(shù)千個對象類別的圖像標簽和 600 個類別的邊界框注釋。去年,谷歌在 Open Images Extended 集合中引入了更具包容性的人物注釋 (MIAP) 數(shù)據(jù)集。該集合包含更完整的針對人類層次結(jié)構(gòu)的邊界框注釋,并且每個注釋都標有與公平相關(guān)的屬性,包括感知的性別表示和感知的年齡范圍。此外,隨著機器學(xué)習模型變得更有能力并在許多領(lǐng)域產(chǎn)生影響,保護機器學(xué)習中使用的私人信息仍然是研究的重點。沿著這些思路,我們最近的一些工作解決了大型模型中的隱私問題,既能從大型模型中提取訓(xùn)練數(shù)據(jù),又指出如何在大型模型中包含隱私。除了聯(lián)邦學(xué)習和分析方面的工作之外,谷歌還一直在使用其他有原則和實用的機器學(xué)習技術(shù)來強化工具箱。