KDD 2020最佳論文揭曉!杜克大學陳怡然組獲最佳學生論文獎,清華入選論文實力霸榜

??新智元報道??
??新智元報道??
來源:KDD
編輯:雅新、小勻
【新智元導讀】KDD 2020最佳論文新鮮出爐!最佳學生論文、最佳論文亞軍均被華人學生(一作)摘得,來看看這些論文出自誰之手吧!
KDD Best Paper?終于來了!
?
受疫情影響,今年第26屆國際數(shù)據(jù)挖掘頂會 ACM SIGKDD 于8月23日-27日以虛擬線上方式召開。

近日,KDD 2020公布了最佳論文獎、最佳學生論文獎等多個獎項。
?
其中由谷歌研究院的研究者Walid Krichene和Steffen Rendle獲得最佳論文獎,杜克大學的 Ang Li、Huanrui Yang、陳怡然和北航段逸驍、楊建磊獲得本屆會議的最佳學生論文獎。
?
此外,湯繼良、盛勝利、唐杰等華人學者在本屆 SIGKDD 大會上也獲得了多項大獎。
最佳論文
?
最佳論文獎由來自谷歌研究院的Walid Krichene和Steffen Rendle獲得,獲獎題目為「On Sampled Metrics for Item Recommendation」

論文鏈接:http://walid.krichene.net/papers/KDD-sampled-metrics.pdf
這篇論文主要對抽樣指標進行了詳細的研究。在該項目中是使用依賴于相關項目位置的排名指標算法來進行評估,在任務中需要在給定的上下文情況下來對大量的項目進行排序。結果發(fā)現(xiàn)這些抽樣指標與精確的度量值不一致,因為它們沒有保留相關的語句。而研究者證明了一種可行的方法就是通過應用一個修正項,即最小化不同的標準,如偏差或均方誤差,來提高抽樣指標的性能。最后通過對原始抽樣指標及其修正變量實證評估,研究者建議在度量計算中應避免抽樣,但是如果實驗研究需要抽樣,那么他們所提出的修正項可以提高估計的質(zhì)量。
?
最佳學生論文
?
杜克大學的 Ang Li、Huanrui Yang、陳怡然和北京航空航天大學的段逸驍、楊建磊摘得最佳學生論文獎,獲獎論文為「TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework for Deep Learning with Anonymized Intermediate Representations」。

論文鏈接:https://arxiv.org/pdf/2005.11480.pdf
這篇論文的研究人員提出了一種基于匿名中間表示的任務無關隱私的數(shù)據(jù)眾包框架TIPRDC。該框架的目標是學習一個特征抽取器,它可以隱藏中間表征中的隱私信息,同時最大限度地保留原始數(shù)據(jù)中嵌入的原始信息,供數(shù)據(jù)采集器完成未知的學習任務。
?
研究人員設計了一種混合訓練方法來學習匿名中間表示:
1 針對特征隱藏隱私信息的對抗性訓練過程
2 使用基于神經(jīng)網(wǎng)絡的互信息估計器最大限度地保留原始信息
?
通過對TIPRDC進行廣泛評估,并將其與使用兩個圖像數(shù)據(jù)集和一個文本數(shù)據(jù)集的現(xiàn)有方法進行了比較。結果表明,TIPRDC大大優(yōu)于其他現(xiàn)有的方法。
?
這篇論文第一作者 Ang Li 是杜克大學電子和計算機工程系的一名在讀博士,導師為陳怡然和 Hai (Helen) Li 教授。
?
Ang Li 的主要研究方向是移動和物聯(lián)網(wǎng)平臺上的深度學習系統(tǒng)。他曾在 2018 年獲得阿肯色大學計算機科學博士學位,2013 年獲得北京大學軟件工程碩士學位,2010 年獲得河南大學計算機科學本科學位。

Ang Li 目前還是阿里巴巴達摩院的一位實習生。

Ang Li 主頁:https://www.linkedin.com/in/ang-li-3658273b/
?
他的導師陳怡然教授還在微博上表示慶祝團隊成員摘得最佳學生論文獎。陳怡然教授現(xiàn)任杜克大學電子與計算機工程系教授、杜克大學計算進化智能中心主任、美國 NSF 新型可持續(xù)智能計算中心主任。

最佳論文亞軍
?
來自弗吉尼亞大學的 Mengdi Huai、Jianhui Sun、Renqin Cai、Aidong Zhang 和來自紐約州立大學布法羅分校的 Liuyi Yao 獲得了最佳論文的亞軍,獲獎論文是「Malicious Attacks against Deep Reinforcement Learning Interpretations」。
?

論文鏈接:https://dl.acm.org/doi/pdf/10.1145/3394486.3403089
?
這篇論文將深度學習和強化學習結合(DRL),并證明了其在眾多序列決策問題中動態(tài)建模的能力。為了提高模型的透明度,已經(jīng)有研究提出了針對 DRL 的各種解釋方法。但是,這些 DRL 解釋方法隱式地假定它們是在可靠和安全的環(huán)境中執(zhí)行的,但在實際應用中并非如此。弗吉尼亞大學的研究團隊調(diào)查了一些 DRL 解釋方法在惡意環(huán)境中的漏洞,他們提出了第一個針對 DRL 解釋的對抗性攻擊的研究,提出了一個優(yōu)化框架來解決所研究的對抗性攻擊問題。
?
論文第一作者Mengdi Huai 是弗吉尼亞大學計算機系在讀博士生,導師為Aidong Zhang。她的研究興趣是數(shù)據(jù)挖掘和ML,尤其是對可解釋機器學習,對抗性機器學習,隱私保護數(shù)據(jù)挖掘,深度強化學習,元學習,成對學習和醫(yī)療保健數(shù)據(jù)挖掘感興趣。
個人主頁:http://www.cs.virginia.edu/~mh6ck/
?
KDD 2020 全部論文摘要傳送門:
https://www.paperdigest.org/wp-content/uploads/2020/08/KDD-2020-Paper-Digests.pdf
KDD 2020 華人學者入選情況
據(jù)Aminer統(tǒng)計,來自美國伊利諾伊大學香檳分校計算機系教授韓家煒共入選7篇,位列華人榜首。曾發(fā)表過1244篇論文的他,如今論文引用數(shù)已達到了183044。

第二名是來自阿里集團的楊紅霞,現(xiàn)任阿里巴巴資深算法專家。共入選6篇,相較于去年增加了2篇。

與第二名并列的兩位學者,一位來自清華大學計算機科學與技術系的崔鵬教授,另一位是美國羅格斯-新澤西州立大學羅格斯商學院管理科學與信息系統(tǒng)系終身教授熊輝,現(xiàn)任百度研究院副院長。


共入選5篇論文的是美國密歇根大學終身教授葉杰平。

?
來自百度研究院的周景博共有4篇論文入選。

在一作華人學生榜單中,來自康奈爾大學威爾康奈爾醫(yī)學院 Chengxi Zang 入選4篇論文位列第一。

在Research track中,個人以及機構論文數(shù)量如下表:

KDD 2020:作者論文數(shù)量排行

KDD 2020:機構論文數(shù)量排行
值得一提的是,無論是從高校還是個人上來說,中國都遠遠領先其他國家。與ICML2020相比,MIT、斯坦福、Facebook等高?;虼笮涂萍脊?/span>明顯較少。
今年的KDD依然保持著申請量創(chuàng)歷史新高的趨勢,并刷新了最高紀錄。
總共進行了2035次有效提交,這是KDD歷史上的最高提交數(shù)量(比第二高的提交數(shù)量高出13%):Research track為1279,Applied Data Science track為756。經(jīng)過審查,最終接收了338篇論文(Research track為217篇,Applied Data Science track為121篇)。
讓我們來看一下今年的流行趨勢詞:

包括圖表、推薦、對抗攻擊、生成模型等。圖形與推薦系統(tǒng)一直是KDD的「寵兒」,其他熱門話題還包括聚類(Clustering)、算法的公平性(Fairness)和數(shù)據(jù)挖掘算法( Data Mining Algorithm)。
?
圖機器學習(Graph machine Learning)
?
與圖表相關的論文占接收總數(shù)的約30%。其中以用于實際應用為主題的新圖形神經(jīng)網(wǎng)絡模型居多,例如分子預測與推薦系統(tǒng)。
?
還有通過PageRank、最小方差抽樣、大、小、無冗余模型解決GNN模型計算的復雜性。
?
其他也包括網(wǎng)絡挖掘(Graph Mining)中的各種主題,包括聚類、繪圖、摘要
?
推薦系統(tǒng)(Recommender System)
?
旨在解決現(xiàn)代推薦系統(tǒng)問題約占15%。包括反事實學習,推薦解決Google云端硬盤位置偏見、優(yōu)化廣告和推薦策略的RL框架等。
四大主題演講
一年一度的SIGKDD會議是數(shù)據(jù)的「盛宴」。在數(shù)據(jù)科學、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、大規(guī)模數(shù)據(jù)分析和大數(shù)據(jù)領域等領域,SIGKDD會議會帶來最前沿的同行分享機會。四場主題演講如下:
?
用于智能金融服務的AI:示例和討論(AI for Intelligent Financial Services: Examples and Discussion)
狀態(tài)空間多錐度時頻分析(A Look at State-Space Multi-Taper Time-Frequency Analysis)
通過元起源產(chǎn)生重要的解釋(Generating Explanations that Matter?through Meta-Provenance)
基于COVID-19下的計算流行病學(Computational Epidemiology at the Time of COVID-19)
參考鏈接:
https://medium.com/criteo-labs/kdd-2020-highlights-f4de20af5d4
https://medium.com/criteo-labs/kdd-2020-highlights-f4de20af5d4
https://www.aminer.cn/conf/kdd2020


