1. 我們真的需要深度圖神經(jīng)網(wǎng)絡(luò)嗎?

        共 3778字,需瀏覽 8分鐘

         ·

        2020-12-23 02:50

        ↑ 點(diǎn)擊藍(lán)字?關(guān)注極市平臺(tái)

        作者丨Zhihong Deng@知乎(已授權(quán))
        來源丨h(huán)ttps://zhuanlan.zhihu.com/p/278190415
        編輯丨極市平臺(tái)

        極市導(dǎo)讀

        ?

        訓(xùn)練深度圖神經(jīng)網(wǎng)絡(luò)有一定的難度,除了深度學(xué)習(xí)的傳統(tǒng)問題之外,針對(duì)圖本身的特性,還需要克服過度平滑和過度壓縮的問題。本文作者分享了一篇文章,從五個(gè)方面解釋為何深度模型在圖神經(jīng)網(wǎng)絡(luò)上難度增加。>>【重磅】珠港澳首屆AI人工智能大會(huì)將在珠海召開,免費(fèi)門票限時(shí)領(lǐng)取中!

        最近看了 Michael Bronstein 教授寫的一篇博客,分析得挺好的,簡(jiǎn)單分享一下。

        https://towardsdatascience.com/do-we-need-deep-graph-neural-networks-be62d3ec5c59towardsdatascience.com

        深度學(xué)習(xí),特別是 CV 領(lǐng)域的模型,往往有數(shù)十上百層,與此相比,在圖“深度學(xué)習(xí)”中(大部分工作都 ≤5 層,談不上深,所以加個(gè)引號(hào)吧),大部分模型架構(gòu)都是淺層的,設(shè)計(jì)深度模型到底有沒有用呢?

        現(xiàn)有的一些工作告訴我們,訓(xùn)練深度圖神經(jīng)網(wǎng)絡(luò)是很難的,除了深度學(xué)習(xí)的傳統(tǒng)問題(梯度消失和過擬合)之外,針對(duì)圖本身的特性,還需要克服另外兩個(gè)問題:

        1. 過渡平滑:使用多個(gè)卷積層后,結(jié)點(diǎn)特征趨向于收斂到相同或相似的向量,這使它們變得難以區(qū)分[1][2][3]。
        2. 過度壓縮:在使用多層圖網(wǎng)絡(luò)后,鄰居數(shù)量指數(shù)級(jí)增長(zhǎng),要將大量的結(jié)點(diǎn)信息壓縮到一個(gè)結(jié)點(diǎn)上就會(huì)存在過度壓縮的問題,這也稱為瓶頸現(xiàn)象[4]。

        上表展示了幾種嘗試解決深度問題的方法,包括殘差連接和兩種歸一化技術(shù)。可以看出隨著網(wǎng)絡(luò)層級(jí)加深,GCN-res 效果急劇變差。PairNorm 相對(duì)穩(wěn)定,但降低了性能。NodeNorm 效果最佳,但它的最佳效果是在兩層圖網(wǎng)絡(luò)時(shí)取得的。這個(gè)實(shí)驗(yàn)告訴我們,要將深度圖網(wǎng)絡(luò)帶來的提升和訓(xùn)練它所需要的技巧分開討論是很難的。

        為什么深度模型在 CV 領(lǐng)域這么好使,但用在圖網(wǎng)絡(luò)上就這么難呢?作者給出了幾個(gè)觀點(diǎn):

        一、圖的結(jié)構(gòu)

        現(xiàn)有工作告訴我們,在分子圖、點(diǎn)云和網(wǎng)格(圖像也可以看作是一種網(wǎng)格狀的圖)上使用深度圖網(wǎng)絡(luò)是有效的,這些圖跟我們常用以評(píng)估圖神經(jīng)網(wǎng)絡(luò)效果的引用網(wǎng)絡(luò)(例如:Cora、PubMed 或 CoauthorCS)等有何不同呢?下圖就給出一個(gè)很清晰的示例:

        我們常用的引用網(wǎng)絡(luò)這一類圖往往屬于直徑較小的小世界網(wǎng)絡(luò)(https://en.wikipedia.org/wiki/Small-world_network),簡(jiǎn)單點(diǎn)講就是圖中任意兩個(gè)結(jié)點(diǎn)的距離都比較近,幾跳就能到達(dá),使用更深的網(wǎng)絡(luò)架構(gòu)并不會(huì)擴(kuò)大感受野;相比之下,在網(wǎng)格(比如圖像)這一類圖中,增加層數(shù)能讓感受野成倍增長(zhǎng),從而更好地捕捉到上下文。使用不同顏色標(biāo)注不同層數(shù)所能到達(dá)的結(jié)點(diǎn),可以看到,同樣是12個(gè)結(jié)點(diǎn)的圖,左圖僅用兩種顏色就夠了,右圖則用了6種顏色。

        二、短程與遠(yuǎn)程信息

        根據(jù)問題的特性,有的問題則可以通過短距離的信息解決,比如社交網(wǎng)絡(luò)中,預(yù)測(cè)往往僅依賴于結(jié)點(diǎn)的局部鄰居;有的問題可能需要更長(zhǎng)距離的信息,比如分子圖種分子的化學(xué)性質(zhì)可能取決于另一側(cè)的原子組合,這就需要深度圖網(wǎng)絡(luò)來組合這些遠(yuǎn)程信息。但是隨著層數(shù)增多,如果圖結(jié)構(gòu)會(huì)引起結(jié)點(diǎn)感受野的指數(shù)級(jí)增長(zhǎng),那么瓶頸現(xiàn)象就會(huì)阻止遠(yuǎn)程信息的有效傳播:

        上圖就展示了一個(gè)例子,在使用深度圖網(wǎng)絡(luò)時(shí),我們需要把多個(gè)結(jié)點(diǎn)的信息整合到一個(gè)結(jié)點(diǎn)中并迭代此過程,所以傳播過程中可能會(huì)丟失不少有用的信息,也就解釋了為什么深度模型難以提高性能。

        三、理論局限

        我們?cè)谑褂蒙疃壬窠?jīng)網(wǎng)絡(luò)的時(shí)候,往往可以做一些可視化分析,比如 CNN 可以將每一層學(xué)到的特征做一個(gè)可視化:

        淺層神經(jīng)元學(xué)到是比較簡(jiǎn)單的特征,比如某些紋理、線條;深層神經(jīng)元學(xué)到的則是更復(fù)雜的一些特征,比如眼睛,鼻子等等。但是,圖神經(jīng)網(wǎng)絡(luò)里也能這么分析嗎?多層的圖網(wǎng)絡(luò)也能學(xué)到逐漸復(fù)雜的性質(zhì)嗎?我們目前尚不清楚哪些圖形性質(zhì)可以用淺層圖網(wǎng)絡(luò)學(xué)到,哪些需要更深的網(wǎng)絡(luò),哪些是根本無(wú)法計(jì)算的。

        四、深度 vs. 豐富度

        在 CV 中,因?yàn)樗袌D像都是非常規(guī)則的網(wǎng)格結(jié)構(gòu),所以結(jié)構(gòu)就變得不再重要的,但在圖深度學(xué)習(xí)中,結(jié)構(gòu)是很重要的,如何設(shè)計(jì)更復(fù)雜的,可以處理高階信息(比如:各種motif)的消息傳遞機(jī)制仍有待探索。目前大家主要關(guān)注的還是1-跳卷積,但我們可以設(shè)計(jì)出多跳的filter,比如 SIGN(https://towardsdatascience.com/simple-scalable-graph-neural-networks-7eb04f366d07) 這篇論文。有趣的是,這跟 CV 領(lǐng)域的發(fā)展歷程恰恰相反,CV 領(lǐng)域早期的淺層模型一般使用的是大型 filter(比如:11×11),后來逐漸發(fā)展到使用小型 filter(比如 :3×3)的深度模型。這里作者想表達(dá)的“豐富度”的意思應(yīng)該是指,我們是不是也能像 CV 里 GoogLeNet 那樣使用Inception模塊,同時(shí)使用1-跳卷積,2-跳卷積等多種 filter(對(duì)應(yīng) CV 里的 3×3、5×5 等等),這其實(shí)也會(huì)間接地幫助到信息的有效傳播。

        五、評(píng)估

        最后但或許也很重要的一點(diǎn)就是評(píng)估方法,一些常見的基準(zhǔn)數(shù)據(jù)集和方法未必能準(zhǔn)確評(píng)估圖神經(jīng)網(wǎng)絡(luò)的效果,我們觀察到深度圖網(wǎng)絡(luò)在一些數(shù)據(jù)集上性能隨深度下降,或許僅僅是因?yàn)閿?shù)據(jù)集太小,發(fā)生了過擬合。斯坦福新推出的 Open Graph Benchmark(https://ogb.stanford.edu/) 可以解決部分問題,它提供了大規(guī)模的圖數(shù)據(jù),并給定了訓(xùn)練和測(cè)試數(shù)據(jù)的劃分方式。

        [1] More precisely, over-smoothing makes node feature vector collapse into a subspace, see K. Oono and T. Suzuki, Graph neural networks exponentially loose expressive power for node classification (2019). arXiv:1905.10947, which provides asymptotic analysis using dynamic systems formalist.
        [2] Q. Li, Z. Han, X.-M. Wu, Deeper insights into graph convolutional networks for semi-supervised learning (2019). Proc. AAAI. Draws the analogy between the GCN model and Laplacian smoothing and points to the over-smoothing phenomenon.
        [3] H. Nt and T. Maehara, Revisiting graph neural networks: All we have is low-pass filters (2019). arXiv:1905.09550. Uses spectral analysis on graphs to answer when GCNs perform well.
        [4] U. Alon and E. Yahav, On the bottleneck of graph neural networks and its practical implications (2020). arXiv:2006.05205. Identified the over-squashing phenomenon in graph neural networks, which is similar to one observed in sequential recurrent models.


        推薦閱讀



          添加極市小助手微信(ID : cvmart2),備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳),即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群:月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~

          △長(zhǎng)按添加極市小助手

          △長(zhǎng)按關(guān)注極市平臺(tái),獲取最新CV干貨

          覺得有用麻煩給個(gè)在看啦~??
          瀏覽 68
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
            
            

              1. 盗摄精品av一区二区三区 | 小早川怜子一区二区 | 粗大黑人巨精大战欧美成人视频 | 揉我胸啊嗯~喷水了 | 午夜精品一区二区三区在线观看 |