青春期13分钟床戏被删减片段,中文字幕国产综合,在线免费亚洲视频,啊啊啊啊啊啊好深,www.四虎成人网站,日本囗交做爰视频,亚洲A∨网站,成人视频在线无码在线观看

↑ 點(diǎn)擊藍(lán)字?關(guān)注極市平臺

來源丨機(jī)器之心

編輯丨極市平臺

極市導(dǎo)讀

面對逐年增長的論文數(shù)量，AAAI、IJCAI、ICML 都是怎么審的？?>>加入極市CV技術(shù)交流群，走在計(jì)算機(jī)視覺的最前沿

近年來，各大著名人工智能會議提交的論文數(shù)量一直在穩(wěn)步增長。以 AAAI 為例，該會議前 33 年 (1980-2012 年) 收到的提交材料都不足 1000 份，到 2015 年收到的提交材料不足 2000 份，到 2018 年收到的提交材料不足 4000 份。但到了 AAAI 2021，已經(jīng)有超過 9000 份提交。

為了跟上日益增長的提交數(shù)量，AAAI 程序委員會也做出了相對調(diào)整，比如近 10000 名審稿人參與了 AAAI 2021 的會議審稿。鑒于這種大型會議的規(guī)模和緊迫的時(shí)間安排，分配審稿人并提供高質(zhì)量的 review 正成為一個(gè)越來越具有挑戰(zhàn)性的問題。

其中一些關(guān)鍵的問題包括：評估既有的審稿人如何審閱一篇論文；如何確定好的審稿人 - 論文匹配關(guān)系；確定哪些論文可能在沒有完整 review 的情況下被拒稿；以及鑒定參與 bid、review 或評分等影響論文結(jié)果的審稿人。

論文鏈接：https://arxiv.org/abs/2202.12273

在 AAAI 2021 的論文匹配過程中，官方組委會解決了這些挑戰(zhàn)，并提出了一個(gè)新穎的自動化 pipeline 審稿人。pipeline 由三個(gè)關(guān)鍵特征組成:

(1)收集和處理輸入數(shù)據(jù)，以識別有問題的匹配項(xiàng)，并產(chǎn)生審稿人的評審分?jǐn)?shù);?

(2)描述和解決了受限制的匹配問題;?

(3)將評審過程分為兩個(gè)階段，以便更好地將評審資源分配給 borderline paper。

這項(xiàng)研究引入了一種新穎的方法來替代摘要拒稿（summary rejection），稱為兩階段評審（two-phase reviewing）。不僅 AAAI 2022 延續(xù)了這一方法，IJCAI 2022 和 ICML 2022 也采用了這一方法。

大致而言，對于一篇投稿，最初只分配兩個(gè) review，而不是分配三個(gè) review。如果這兩個(gè) review 一致認(rèn)為一篇論文應(yīng)該被拒稿，那么它就不會得到進(jìn)一步的 review。審稿的第二階段是為剩下的論文分配兩個(gè)額外的 review。這種方法的意義在于：

a)將 review 重新分配給 borderline paper，同時(shí)保證給了第一階段被拒稿的論文作者提供有意義的反饋(兩次全面的 review) ;?

b)避免了單獨(dú)摘要拒稿階段的以同樣方式處理所有論文的成本;?

c)作為獎(jiǎng)勵(lì)，它會給程序主席第二次機(jī)會，為確定有問題或第一階段審稿人誤判的論文分配額外的審稿人。

在 AAAI 2021 的投稿中，2615 篇論文 (37%) 收到了兩個(gè)「建議拒稿」的 high-confidence 評論，因此在第一階段被拒稿了。這提供了剩余的 2615 個(gè) review 可供第二階段的 borderline paper 中使用。

當(dāng)然，一個(gè)關(guān)鍵的問題是，第一階段被拒稿的論文如果得到了 4 個(gè)完整 review，是否最終會被接收？因此這項(xiàng)研究也提供了一個(gè)對照組，對照組里的論文不需要經(jīng)過兩階段評審，即那些在第一階段沒有經(jīng)過兩次完整 review 的文件。通過對這些論文最終收到的大量 review 進(jìn)行二次抽樣，研究者估計(jì)，第一階段被拒稿的論文最終被 AAAI 2021 接收的概率只有 2.9% 。

研究的其余部分結(jié)構(gòu)如下：第 2 部分描述了數(shù)據(jù)收集和處理方法的細(xì)節(jié)；第 3 部分提出了審稿人 - 論文匹配問題的混合整數(shù)規(guī)劃公式；第 4 部分描述了兩階段評審方案；第 5 部分包括了 AAAI 2021 部署該方法后的詳盡實(shí)驗(yàn)分析數(shù)據(jù)；最后，第 6 部分總結(jié)了該方法的貢獻(xiàn)。在此之前，許多相關(guān)的工作已經(jīng)研究了審稿人與論文匹配問題的不同方面，研究者也在相應(yīng)的部分討論了相關(guān)的工作。

數(shù)據(jù)收集與處理

在論文中，研究者介紹了用于收集和處理有關(guān)審稿人及論文原始數(shù)據(jù)，并將其轉(zhuǎn)化為審稿人 - 論文匹配度總分的技術(shù)。

首先要關(guān)注的是「利益沖突」問題，如果審稿人由于與論文的一個(gè)或多個(gè)作者的關(guān)系而無法對論文提供公正的 review，那么審稿人和論文之間就存在利益沖突(COI，Conflict of Interest)，這些審稿人可能對論文的接收或拒稿更感興趣，甚至?xí)銎谕吹礁哔|(zhì)量論文發(fā)表的愿望。例如，假如一篇論文的作者是之前的導(dǎo)師，我們中的大多數(shù)人很難提供一個(gè)完全沒有偏見的意見。顯然，審稿人不應(yīng)該與他們擁有利益沖突的論文相匹配。?

此外，bid 中包含了關(guān)于審稿人偏好的重要信息。研究者認(rèn)為，將它們考慮在內(nèi)將大大有助于審稿人對分配的滿意度。但審稿人可能惡意誤報(bào) bid，以確保論文的接收或拒稿 [Noothigattu et al., 2021]。過去的大多數(shù)會議都試圖通過區(qū)域主席(AC) 監(jiān)督、抽查討論和告密者舉報(bào)來發(fā)現(xiàn)這種不當(dāng)行為。但是這些方法是勞動密集型的，也是不可擴(kuò)展的。

還有一個(gè)審稿人 - 論文自動匹配中的關(guān)鍵問題是，如何量化將審稿人與提交的論文進(jìn)行匹配的價(jià)值。簡而言之，如果審稿人對論文的主題有專業(yè)知識并且對論文感興趣，那么我們認(rèn)為，這次匹配就是好的。這項(xiàng)研究通過聚合三個(gè)互補(bǔ)的信號來評估專業(yè)知識: 多倫多論文匹配系統(tǒng) (TPMS) 分?jǐn)?shù); ACL 匹配分?jǐn)?shù); 論文主要和次要主題領(lǐng)域關(guān)鍵詞與審稿人關(guān)鍵詞的匹配程度。

研究者通過 bid 來評估審稿人對論文的興趣程度，先假設(shè)一個(gè)對論文感興趣的基線水平，對于這些論文，預(yù)計(jì)審稿人具備專業(yè)知識，而且審稿人沒有提交任何明確 (正面或負(fù)面) 的 bid。

兩階段審稿人分配

2014 NeurIPS 的組織者曾做過一個(gè)很有影響力的實(shí)驗(yàn) [Lawrence and Cortes, 2014] ，讓兩個(gè)獨(dú)立的項(xiàng)目委員會各自 review 10% 的提交材料。研究發(fā)現(xiàn)，最強(qiáng)的論文(一小部分) 和最弱的論文 (更多的一部分) 能被可靠地識別出來，但是許多靠近決策邊界（decision boundary）的論文，可能被一個(gè)項(xiàng)目委員會接收，卻被另一個(gè)項(xiàng)目委員會拒稿。自那時(shí)以來，會議組織者一直設(shè)法將幾乎肯定會被拒稿的論文的 review 資源重新分配給有現(xiàn)實(shí)機(jī)會被接收的文件，以提高后一類論文的 review 質(zhì)量。

其中一個(gè)比較受歡迎的方法是，采用簡單的啟發(fā)式設(shè)計(jì)來檢測低質(zhì)量的論文，這個(gè)過程被稱為「摘要拒稿（summary rejection）」或「直接拒稿（desk rejection）」。例如在 IJCAI 2020 中，區(qū)域主席被要求花費(fèi)一小段時(shí)間瀏覽每篇論文，以決定它是否值得更仔細(xì)的 review[Bessiere，2020]。Neurips 2020 采用了一個(gè)類似的系統(tǒng): 在三個(gè)星期內(nèi)，區(qū)域主席瀏覽了 9000 多份論文，以確定明確拒稿和高級區(qū)域主席交叉 review 等進(jìn)一步選擇，而 11% 的提交收到了摘要拒稿[Yuan, 2020]。

考慮到人工智能會議的規(guī)模，這樣的摘要拒稿程序?qū)τ趨^(qū)域主席來說是非常耗時(shí)的。此外，它們很可能是有噪聲的，也可能反映出對論文表面性質(zhì)的無意識偏見，這意味著它們可能不夠可靠，不足以拒掉相對較小的論文部分。最后，這樣的程序往往不受作者歡迎，沒有人喜歡他們的論文通過一個(gè)不透明的過程被拒稿，甚至沒有產(chǎn)生任何評論?；谶@些原因，NeurIPS 大會在 2020 年收到的負(fù)面反饋的基礎(chǔ)上，決定在 2021 年不采用這種方法。

他們提出了一種新的的提前拒稿方法，同時(shí)滿足幾點(diǎn)要求：將會議的審查預(yù)算集中在接近決策邊界的論文上，為提前拒稿論文的作者提供有意義的反饋，減少提前拒稿最終可能被接收的論文。

該方法將審稿分成兩個(gè)階段。在第一階段，每篇論文分配兩名審稿人，那些收到了兩份 high-confidence ?review 建議拒稿的論文會被拒稿，作者會立即收到這些全面的 review，并且沒有機(jī)會提出 rebuttal。然后，審稿過程進(jìn)入第二階段，為剩下的每篇論文分配兩個(gè)或兩個(gè)以上的額外審稿人。

在第二輪 review 之后，作者會進(jìn)行 rebuttal，兩個(gè)階段的審稿人都會被要求閱讀 rebuttal 和彼此的 review，參與由 SPCs 和 ACs 的討論，并最終相應(yīng)地修改他們的 review。然后，項(xiàng)目主席根據(jù)委員會的建議作出決定。

評估

匹配質(zhì)量分析

在 AAAI 2021 會議中，部署了這項(xiàng)研究中的審稿人 - 論文匹配方法。研究者分析了來自主會議 8072 個(gè)審稿人的 6729 個(gè)提交文件及其評論的數(shù)據(jù)集。受限于現(xiàn)實(shí)因素，此處不能公布用于任何分析的數(shù)據(jù)，因?yàn)殛P(guān)于會議審查過程的數(shù)據(jù)本質(zhì)上是敏感的，研究者將發(fā)現(xiàn)總結(jié)如下：

一個(gè)問題是，評分機(jī)制是否充分考慮到了審稿人的專業(yè)度？如圖 1 所示，越 confident 的審稿人傾向于給出的論文分?jǐn)?shù)分布越廣(更少給出臨界的 5 分和 6 分)?？紤]到 higher confidence 的 review 信息量更大，研究者研究了評分機(jī)制和報(bào)告的審稿人 confidence 程度之間的關(guān)系。如圖 2 所示，評分函數(shù)與 confidence 呈正相關(guān): 隨著 confidence 的增加，評分的第 25、50 和 75 百分比也增加了。

圖 1: 審稿人 confidence 的論文分?jǐn)?shù)分布。

圖 2：在 AAAI 2021 上匹配的所有審稿人 - 論文中，最終 review 的 confidence vs. 預(yù)測總分。

此外，研究者還評估了這一方法的 COI 檢測效果。這里將自我報(bào)告的沖突、明確給定的沖突以及提交給 AAAI 2021 的論文合著者之間的沖突視為「微不足道的」。研究者發(fā)現(xiàn)，在檢測出的總共 2674372 個(gè)沖突中，96.4% 都屬于此類。

其余 3.6% 的沖突中，2.8% 是由于未報(bào)告的合作關(guān)系，隨后通過 DBLP 驗(yàn)證。其余 0.8% 的沖突發(fā)生在被預(yù)測到的學(xué)生 - 導(dǎo)師組合或同一導(dǎo)師的學(xué)生之間。總的來說，該系統(tǒng)在大多數(shù) (78.8%) 的提交中檢測到了至少一個(gè)重要的沖突。

關(guān)于兩階段評審方法的評估

在第一階段拒掉論文最大的風(fēng)險(xiǎn)是，這篇論文如果有另一次審查、rebuttal 和討論的機(jī)會，能否被接收？

要估計(jì)這些論文最終被接收的概率，最簡單的方法就是隨機(jī)推廣一部分在第一階段被拒稿的論文，并觀察結(jié)果。研究者沒有進(jìn)行這個(gè)實(shí)驗(yàn)，但是用真實(shí)的數(shù)據(jù)提供了一個(gè)非常相似的自然實(shí)驗(yàn)。具體來說，可以考慮所有因?yàn)橐粋€(gè)或多個(gè) review 或?qū)徃迦?confidence 不足而被提升到第二階段的論文，并檢查最終被接收的這些論文的子集?？偣灿?231 份論文以這種方式推廣，其中 16 份最終被接收。

這些論文最終都得到了四次或更多的高 confidence 的 review，這樣就可以計(jì)算出兩次隨機(jī)選擇的 review 都是負(fù)評價(jià)的概率，也就是說，基于這些 review，論文在第一階段就會被拒。

在本文實(shí)驗(yàn)的數(shù)據(jù)中，這個(gè)概率大約是 2.9% ，這表明第一階段的拒稿的假陰性概率是很低的。

最后，研究者也評估了額外 review 的重要性，并將結(jié)果展示在圖 7 中。每一個(gè)點(diǎn)相當(dāng)于一篇論文的 3 次 review。X 軸給出論文在 AAAI 2021 會議上的得分(在那里它收到了超過 3 個(gè) review) ; y 軸給出了 3 個(gè) review 得分的范圍。雖然許多低于這個(gè)門檻的論文被接收，而且許多高于這個(gè)門檻的論文被拒稿，但決策邊界的錄取通過率降到了 6.4 左右。