大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自智源社區(qū)
整理:戴一鳴,李夢佳
8月5日,ACM SIGKDD 2021 正式公布了最佳論文獎,Runner Up獎、新星獎、研究時間檢驗獎、應(yīng)用數(shù)據(jù)科學(xué)時間檢驗獎、創(chuàng)新獎和服務(wù)獎。其中斯坦福大學(xué)的Aditya Grover獲得最佳論文獎,UIUC 的Shweta Jain獲得Runner Up 獎,萊斯大學(xué)的華人學(xué)者胡俠獲得新星獎。研究時間檢驗獎由Chong Wang和David M. Blei共同獲得,應(yīng)用數(shù)據(jù)科學(xué)時間檢驗獎的獲獎?wù)呤荄iane Tang等人。來自微軟的Johannes Gehrke獲得創(chuàng)新獎,來自Linkedin的Shipeng Yu獲得服務(wù)獎。ACM SIGKDD(國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)大會,簡稱 KDD)是世界數(shù)據(jù)挖掘領(lǐng)域的最高級別的學(xué)術(shù)會議,由 ACM 的數(shù)據(jù)挖掘及知識發(fā)現(xiàn)專委會(SIGKDD)主辦,被中國計算機(jī)協(xié)會推薦為 A 類會議。自 1995 年以來,KDD 已經(jīng)連續(xù)舉辦了26屆,今年將于2021年8月14日至18日在新加坡舉辦。本次SIGKDD 2021大會共收到1541篇有效投稿,其中238篇論文被接收,接收率為15.44%,相比 KDD 2020 的接收率16.9%有所下降(216/1279篇)。論文標(biāo)題: Learning to Represent and Reason Under Limited Supervision標(biāo)題:在有限監(jiān)督條件下的學(xué)習(xí)表征和推理機(jī)構(gòu):Facebook AI研究院自然智能體,如人類,擅長構(gòu)建世界的表征,并使用這些表征來有效地進(jìn)行推理和做決策。即使在有限的監(jiān)督下,這種高級推理能力也可以發(fā)展起來。與此形成鮮明對比的是,基于機(jī)器學(xué)習(xí) (ML) 的智能體在獲得大規(guī)模標(biāo)注數(shù)據(jù)集或模擬器的條件下取得主要進(jìn)展,如目標(biāo)識別和玩游戲等。本論文由三部分組成。首先,論文建立了基礎(chǔ)的學(xué)習(xí)概率生成模型,目標(biāo)是模擬所有可用的數(shù)據(jù),即使在監(jiān)督受限的環(huán)境中,也能夠為智能體提供一個自然的學(xué)習(xí)目標(biāo)。論文討論了很多使用這些模型進(jìn)行高維學(xué)習(xí)和推理所需要的取舍(trade-off),包括選擇特定的學(xué)習(xí)目標(biāo)、優(yōu)化流程和模型參數(shù)等。基于這些結(jié)果,研究者開發(fā)了新算法來提高模型的性能,并在用未標(biāo)記的數(shù)據(jù)集進(jìn)行訓(xùn)練時降低偏置。之后,研究者將這些模型擴(kuò)展到關(guān)系數(shù)據(jù)領(lǐng)域,用來學(xué)習(xí)這些數(shù)據(jù)的表征。這一過程是無監(jiān)督的,研究者探索并展示了模型在分類和序列決策中的性能。最后,論文介紹了這些模型在加速科學(xué)研究的兩個實際應(yīng)用:1.學(xué)習(xí)壓縮感知的數(shù)據(jù)相關(guān)先驗;2.優(yōu)化電池充電的實驗設(shè)計。這些案例說明, 智能體能夠克服現(xiàn)實世界中高維推理和決策問題的關(guān)鍵監(jiān)督瓶頸。Aditya Grover是Facebook AI核心機(jī)器學(xué)習(xí)團(tuán)隊的一位研究者,同時也是UCLA計算機(jī)系的一名助理教授。Aditya的主要研究方向是用于概率建模的機(jī)器學(xué)習(xí),無監(jiān)督表征學(xué)習(xí),以及序列決策,這些研究已用于物理學(xué)、氣候變化等領(lǐng)域。Aditya于2020年畢業(yè)于斯坦福大學(xué),獲得博士學(xué)位,并在谷歌大腦、微軟研究院、OpenAI等機(jī)構(gòu)完成了實習(xí)。論文標(biāo)題(中):現(xiàn)實世界圖中的團(tuán)計數(shù)
論文標(biāo)題(英):Counting Cliques in Real-World Graphs團(tuán)是網(wǎng)絡(luò)科學(xué)中的重要結(jié)構(gòu),在垃圾郵件檢測、圖形分析、圖形建模、社區(qū)檢測等領(lǐng)域有著廣泛的應(yīng)用。由于組合數(shù)量過多的問題,獲得具有數(shù)百萬個節(jié)點和邊的圖的 k-團(tuán)計數(shù)是一個具有挑戰(zhàn)性的問題。隨著 k 的增加,k 團(tuán)的數(shù)量呈指數(shù)增長,目前缺乏除了枚舉以外的其他計算方法。大多數(shù)現(xiàn)有的技術(shù)無法計算 k > 5的 k 團(tuán)計數(shù)。因此,獲得全局 k 團(tuán)計數(shù)非常具有挑戰(zhàn)性。獲得每條邊或每個頂點所屬的 k 團(tuán)計數(shù)(稱為局部 k 團(tuán)的計數(shù))更是如此。在這項工作中,研究者提出了一套技術(shù),以有效地計算在大型圖中 k團(tuán)的數(shù)量,提升了模型的水平,達(dá)到了目前的最佳效果。論文的第一個方法是名為 TuránShadow 的隨機(jī)化算法,它使用極值組合學(xué)來估計 k 團(tuán)計數(shù)在 k ≤10時的數(shù)量級,而且比當(dāng)前的SOTA方法更快、更準(zhǔn)確。研究者進(jìn)一步利用這種計算團(tuán)的機(jī)制來計算那些缺少了幾條邊的近團(tuán)(near-cliques)。在另一個應(yīng)用中,論文展示了如何超越邊,并結(jié)合高階結(jié)構(gòu)(如 k 團(tuán))的信息,能夠生成比現(xiàn)有方法更具可讀性的圖形可視化。論文提出的第二個方法稱為 Pivoter,它計算了所有 k 的全局和局部 k 團(tuán),所用的時間只是所有其他方法(包括并行/近似方法)所用時間的一小部分。此外,此方法還改進(jìn)了團(tuán)計數(shù)從 O (2n)到 O (3n/3)的最壞情況下的運行時間,證明了確實可以不用枚舉來計算團(tuán)計數(shù)。至關(guān)重要的是,它使用了名為旋轉(zhuǎn)(pivoting)的經(jīng)典技術(shù),這種技術(shù)大大減小了團(tuán)的搜索空間。利用該算法,論文首次得到了以前不可行的幾個圖的 k 團(tuán)計數(shù)。隨著數(shù)據(jù)越來越多,挑戰(zhàn)也越來越大。在未來方向的探索上,研究者將致力于使大型、真實世界的圖表上的團(tuán)計數(shù)變得更容易。
Shweta Jain 是伊利諾伊大學(xué)厄巴納-香檳分校的博士后,與 Hanghang Tong 教授一起工作。她最近在加州大學(xué)圣克魯茲分校獲得了計算機(jī)科學(xué)博士學(xué)位。Shweta 的研究興趣在于隨機(jī)化和近似算法、組合優(yōu)化、圖挖掘和應(yīng)用于海量數(shù)據(jù)的算法。本屆大會的新星獎頒發(fā)給了萊斯大學(xué)的胡俠博士,用于表彰他在以人為本的數(shù)據(jù)挖掘,以及研發(fā)可解釋、自動化的,能夠讓領(lǐng)域?qū)<乙子跇?gòu)建復(fù)雜機(jī)器學(xué)習(xí)算法方面的貢獻(xiàn)。胡俠博士是萊斯大學(xué)計算機(jī)系的副教授,目前已在NeurIPS, ICLR, KDD, WWW, IJCAI, AAAI等頂級會議上發(fā)表論文超過100篇。他的團(tuán)隊研發(fā)了知名開源工具包AutoKeras,是GitHub上目前使用最廣泛的自動機(jī)器學(xué)習(xí)工具(有8000多star和1000多fork量)。同時,胡俠博士在深度協(xié)同過濾、異常檢測、圖數(shù)據(jù)等方面的工作已分別被TensorFlow、蘋果和Bing的生產(chǎn)系統(tǒng)使用。胡俠博士有多篇論文獲得頂會最佳論文獎,包括WWW,WSDM和ICDM。胡俠博士的總引用次數(shù)超過10000次,H-index達(dá)到41。他也是WSDM 2020大會的共同主席。KDD大會還頒布了時間檢驗獎,嘉獎十多年前重要的領(lǐng)域論文,包括:論文標(biāo)題(英):Collaborative topic modeling for recommending scientific articles. KDD 2011: 448-456.論文標(biāo)題(中):為推薦科學(xué)文章進(jìn)行協(xié)同主題建模作者:Chong Wang, David M. BleiSIGKDD 時間檢驗獎(應(yīng)用數(shù)據(jù)科學(xué))論文標(biāo)題(英):Overlapping experiment infrastructure: more, better, faster experimentation. KDD 2010: 17-26論文標(biāo)題(中):疊加實驗基礎(chǔ)設(shè)施:更多、更好、更快的實驗作者:Diane Tang, Ashish Agarwal, Deirdre O’Brien, Mike MeyerSIGKDD創(chuàng)新獎
獲獎?wù)撸篋r. Johannes Gehrke(微軟)
理由:For his outstanding contributions to new data mining algorithms and data privacy
SIGKDD服務(wù)獎
獲獎?wù)撸篋r. Shipeng Yu(LinkedIn)
理由:For his outstanding history of serving and promoting the field of data mining and the data mining community