
來源:Reddit
編輯:科雨
【新智元導讀】2020年AI領域有很多精彩的重要成果,想一覽究竟,卻沒有途徑詳細總結(jié)?小編已經(jīng)幫你準備好了!
2020年,想必各國的人民都被新冠病毒支配得瑟瑟發(fā)抖...不過,這并不影響科研工作者的工作態(tài)度和產(chǎn)出質(zhì)量。疫情之下,通過各種方式,全球的研究者繼續(xù)積極合作,發(fā)表了許許多多有影響力的成果——特別是在人工智能領域。
同時,AI偏見和AI倫理也開始逐漸引起大家的普遍重視。在今年新的研究成果中,那些匯集著科研工作者心血的精華部分,勢必會對未來幾年人工智能的發(fā)展,有著不小的影響。這篇文章就為您介紹了從2020年初到現(xiàn)在為止,在AI和數(shù)據(jù)科學領域,最有趣,最具突破性的論文成果:(小編給大家放上了每篇論文的Github代碼地址,對任意研究成果感興趣的小伙伴都可以前往一探究竟哦)
1、YOLOv4:目標檢測的最佳速度和精度

A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, Yolov4: Optimal speed and accuracy of object detection, 2020. arXiv:2004.10934 [cs.CV].2020年4月,Alexey Bochkovsky等人在論文“YOLOv4:目標檢測的最優(yōu)速度和精度”中正式引入了Yolo4。論文中算法的主要目標,是制作一個具有高質(zhì)量、高精度的超高速目標探測器。https://github.com/AlexeyAB/darknet2、DeepFace rawing:依據(jù)草圖的人臉圖像深度生成

S.-Y. Chen, W. Su, L. Gao, S. Xia, and H. Fu, “DeepFaceDrawing: Deep generation of face images from sketches,” ACM Transactions on Graphics (Proceedings of ACM SIGGRAPH2020), vol. 39, no. 4, 72:1–72:16, 2020.根據(jù)這種新的圖像到圖像轉(zhuǎn)換技術(shù),我們可以從粗糙的或甚至不完整的草圖出發(fā),來生成高質(zhì)量的面部圖像。不僅如此,我們甚至還可以調(diào)整眼睛、嘴巴和鼻子對最終圖像的影響。https://github.com/IGLICT/DeepFaceDrawing-Jittor
3、PULSE:通過生成模型的潛空間探索進行自我監(jiān)督照片上采樣

S. Menon, A. Damian, S. Hu, N. Ravi, and C. Rudin, Pulse: Self-supervised photo upsampling via latent space exploration of generative models, 2020. arXiv:2003.03808 [cs.CV].該算法可以將模糊的圖像轉(zhuǎn)換成高分辨率的圖像——它可以把一個超低分辨率的16x16圖像,轉(zhuǎn)換成1080p高清晰度的人臉。https://github.com/adamian98/pulse4、編程語言的無監(jiān)督翻譯

M.-A. Lachaux, B. Roziere, L. Chanussot, and G. Lample, Unsupervised translation of programming languages, 2020. arXiv:2006.03511 [cs.CL].這種新模型,可以將代碼從一種編程語言轉(zhuǎn)換為另一種編程語言,而不需要任何監(jiān)督。它可以接受Python函數(shù)并將其轉(zhuǎn)換為c++函數(shù),反之亦然,而不需要任何先前的示例。它理解每種語言的語法,因此可以推廣到任何編程語言。https://github.com/facebookresearch/TransCoder?utm_source=catalyzex.com
5、PIFuHD:多層次像素對齊隱式功能,用于高分辨率的3D人體重建

S. Saito, T. Simon, J. Saragih, and H. Joo, Pifuhd: Multi-level pixel-aligned implicit function for high-resolution 3d human digitization, 2020. arXiv:2004.00452 [cs.CV].這個技術(shù),可以根據(jù)2D圖像來重建3D高分辨率的人。你只需要提供一個單一的形象,就可以產(chǎn)生一個3D化身,哪怕從背后,也看起來像你。https://github.com/facebookresearch/pifuhd
6、迪士尼的百萬像素級換臉技術(shù)

J. Naruniec, L. Helminger, C. Schroers, and R. Weber, “High-resolution neural face-swapping for visual effects,” Computer Graphics Forum, vol. 39, pp. 173–184, Jul. 2020.doi:10.1111/cgf.14062.迪士尼在歐洲圖形學會透視研討會(EGSR)上發(fā)表研究,展示了首個百萬像素逼真換臉技術(shù)。他們提出了一種在圖像和視頻中實現(xiàn)全自動換臉的算法。據(jù)研究者稱,這是首個渲染百萬像素逼真結(jié)果的方法,且輸出結(jié)果具備時序一致性。https://studios.disneyresearch.com/2020/06/29/high-resolution-neural-face-swapping-for-visual-effects/
7、互換自動編碼器的深度圖像處理

T. Park, J.-Y. Zhu, O. Wang, J. Lu, E. Shechtman, A. A. Efros, and R. Zhang,Swappingautoencoder for deep image manipulation, 2020. arXiv:2007.00653 [cs.CV].這種新技術(shù),通過完全的無監(jiān)督訓練,可以改變?nèi)魏螆D片的紋理,同時還能保持真實性。結(jié)果看起來甚至比GAN還要好,并且速度要快得多。它甚至可以用來制作deepfakes。https://github.com/rosinality/swapping-autoencoder-pytorch?utm_source=catalyzex.com
8、GPT-3:實現(xiàn)小樣本學習的語言模型

T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P.Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S.Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei,“Language models are few-shot learners,” 2020. arXiv:2005.14165 [cs.CL].目前最先進的NLP系統(tǒng),都在努力推廣到不同的任務上去,而它們需要在數(shù)千個樣本的數(shù)據(jù)集上進行微調(diào),相比而言,人類只需要看到幾個例子,就可以執(zhí)行新的語言任務。這就是GPT-3背后的目標——改進語言模型的任務無關(guān)特性。https://github.com/openai/gpt-3
9、聯(lián)合時空變換的視頻繪制

Y. Zeng, J. Fu, and H. Chao, Learning joint spatial-temporal transformations for video in-painting, 2020. arXiv:2007.10247 [cs.CV].這種AI技術(shù),可以填補刪除移動物體后的缺失像素,并且可以重建整個視頻。這種方法,比之前的方法都要更準確,更清晰。https://github.com/researchmm/STTN?utm_source=catalyzex.com
10、像素級別的生成預處理

M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan, and I. Sutskever, “Generative pretraining from pixels,” in Proceedings of the 37th International Conference on Machine Learning, H. D. III and A. Singh, Eds., ser. Proceedings of Machine Learning Research, vol. 119, Virtual: PMLR, 13–18 Jul 2020, pp. 1691–1703. [Online].?一個好的AI,比如在Gmail中使用的AI,可以生成連貫的文本并補全短語。類似的,使用相同的原則,這個模型可以補全一個圖像。此外,所有這些都是在無監(jiān)督的訓練中完成的,根本不需要任何標簽!https://github.com/openai/image-gpt
11、使用白盒卡通表示,來學習卡通化的過程

Xinrui Wang and Jinze Yu, “Learning to Cartoonize Using White-box Cartoon Representations.”,?IEEE Conference on Computer Vision and Pattern Recognition, June 2020.只要輸入你想要的的卡通風格,這個AI技術(shù)可以將任何圖片或視頻卡通化。https://github.com/SystemErrorWang/White-box-Cartoonization
12、FreezeG凍結(jié)甄別器:一個簡單的基準來微調(diào)GAN

S. Mo, M. Cho, and J. Shin, Freeze the discriminator: A simple baseline for fine-tuning gans,2020. arXiv:2002.10964 [cs.CV].這個人臉生成模型,能夠?qū)⒄5娜四樥掌D(zhuǎn)換成獨特的風格,如Lee malnyeon,辛普森一家,藝術(shù)的風格,你甚至還可以試試狗! 這種新技術(shù)最好的地方,是它超級簡單,而且顯著優(yōu)于以前使用GAN的技術(shù)。https://github.com/sangwoomo/freezeD?utm_source=catalyzex.com
13、從單一圖像對人的神經(jīng)重新渲染

K. Sarkar, D. Mehta, W. Xu, V. Golyanik, and C. Theobalt, “Neural re-rendering of humans from a single image,” in European Conference on Computer Vision (ECCV), 2020.該算法將人體的姿態(tài)和形狀表示為一個參數(shù)網(wǎng)格,可以由單個圖像重建,并易于恢復。根據(jù)其他輸入圖片,給定一個人的圖像,此技術(shù)能夠創(chuàng)建這個人具有不同姿勢,身穿不同衣服的合成圖像。http://gvv.mpi-inf.mpg.de/projects/NHRR/
14、I2L-MeshNet:實現(xiàn)從單個RGB圖像出發(fā),來進行精確三維人體姿態(tài)和網(wǎng)格估計的mage-to-Lixel 預測網(wǎng)絡

G. Moon and K. M. Lee, “I2l-meshnet: Image-to-lixel prediction network for accurate 3d human pose and mesh estimation from a single rgb image,” in European Conference on ComputerVision (ECCV), 2020該論文研究者提出了一種從單一RGB圖像,來進行三維人體姿態(tài)和網(wǎng)格估計的新技術(shù),他們將其稱之為I2L-MeshNet。其中I2L表示圖像到lixel,類似于體素(體積+像素),研究者將lixel、一條線和像素定義為一維空間中的量化細胞。I2L-MeshNet: Image-to-Lixel Prediction Network for Accurate 3D Human Pose and Mesh Estimation from a Single RGB Image [14]https://github.com/mks0601/I2L-MeshNet_RELEASE
15、超級導航圖:連續(xù)環(huán)境中的視覺語言導航

J. Krantz, E. Wijmans, A. Majumdar, D. Batra, and S. Lee, “Beyond the nav-graph: Vision-and-language navigation in continuous environments,” 2020. arXiv:2004.02857 [cs.CV].語言導航是一個被廣泛研究且非常復雜的領域。事實上,對于一個人來說,穿過一間房子去取你放在床邊床頭柜上的咖啡似乎很簡單。但對于機器來說,情況就完全不同了。agent是一種自主的人工智能驅(qū)動系統(tǒng),使用深度學習來執(zhí)行任務。https://github.com/jacobkrantz/VLN-CE
16、RAFT:光流的循環(huán)全對場變換

Z. Teed and J. Deng, Raft: Recurrent all-pairs field transforms for optical flow, 2020. arXiv:2003.12039 [cs.CV].此篇論文來自于普林斯頓大學的團隊,并獲得ECCV 2020最佳論文獎。研究者開發(fā)了一種新的端到端可訓練的光流模型。他們的方法超越了最先進的架構(gòu)在多個數(shù)據(jù)集上的準確性,而且效率更高。https://github.com/princeton-vl/RAFT
17、眾包采樣全光功能

Z. Li, W. Xian, A. Davis, and N. Snavely, “Crowdsampling the plenoptic function,” inProc.European Conference on Computer Vision (ECCV), 2020.利用游客在網(wǎng)上公開的照片,他們能夠重建一個場景的多個視點,并保留真實的陰影和光線。對于photorealistic場景渲染來說,這是一個巨大的進步,象征著最先進的技術(shù)。他們的結(jié)果是驚人的。https://github.com/zhengqili/Crowdsampling-the-Plenoptic-Function
18、通過深度潛在空間翻譯來恢復老照片

Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao, and F. Wen, Old photo restoration via deep latent space translation, 2020. arXiv:2009.07047 [cs.CV].想象一下,僅僅靠那些舊的、折疊的、甚至撕破的照片,你就不留任何人工痕跡地可以擁有祖母18歲時的高清照——這就是所謂的舊照片恢復。https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life?utm_source=catalyzex.com
19、支持可審核自治的神經(jīng)回路策略

Lechner, M., Hasani, R., Amini, A.?et al.?Neural circuit policies enabling auditable autonomy.?Nat Mach Intell2,?642–652 (2020).?奧地利理工學院(IST Austria)和麻省理工學院(MIT)的研究人員利用一種新的人工智能系統(tǒng),是基于蠕蟲等微小動物的大腦,他們成功訓練了一輛自動駕駛汽車。與Inceptions、Resnets或VGG等流行的深度神經(jīng)網(wǎng)絡所需的數(shù)百萬神經(jīng)元相比,他們只需要少數(shù)神經(jīng)元,就能控制自動駕駛汽車。https://doi.org/10.1038/s42256-020-00237-3
20、了解不同歲數(shù)的你

R. Or-El, S. Sengupta, O. Fried, E. Shechtman, and I. Kemelmacher-Shlizerman, “Lifespanage transformation synthesis,” in Proceedings of the European Conference on Computer Vision(ECCV), 2020.想看看你40歲的時候長什么樣?現(xiàn)在可以了!Adobe研究院的一組研究人員開發(fā)了一種新技術(shù),僅根據(jù)一張真人照片,就可以合成此人在任何年齡的照片。https://github.com/royorel/Lifespan_Age_Transformation_Synthesis
21、DeOldify:為黑白圖像著色

DeOldify是一種對舊的黑白圖像或甚至電影膠片進行著色和恢復的技術(shù)。它由Jason Antic開發(fā),目前仍在更新中。這是現(xiàn)在給黑白圖像著色的最先進的方法,所有的東西都是開源的。https://github.com/jantic/DeOldify
22、COOT:視頻文本表示學習的協(xié)作層次變換

S. Ging, M. Zolfaghari, H. Pirsiavash, and T. Brox, “Coot: Cooperative hierarchical trans-former for video-text representation learning,” in Conference on Neural Information ProcessingSystems, 2020.顧名思義,通過輸入視頻和視頻的一般描述,此技術(shù)能使用轉(zhuǎn)換器,為視頻的每個序列生成準確的文本描述。https://github.com/gingsi/coot-videotext
22、像一個真正的畫家一樣變換圖片風格

Z. Zou, T. Shi, S. Qiu, Y. Yuan, and Z. Shi, Stylized neural painting, 2020. arXiv:2011.08114[cs.CV]這種從圖像到繪畫的轉(zhuǎn)換模型,使用了一種不涉及任何GAN架構(gòu)的新穎方法,在多種風格上模擬一個真正的畫家。https://github.com/jiupinjia/stylized-neural-painting
23、實時人像摳圖真的需要綠色屏幕嗎?

Z. Ke, K. Li, Y. Zhou, Q. Wu, X. Mao, Q. Yan, and R. W. Lau, “Is a green screen really necessary for real-time portrait matting?” ArXiv, vol. abs/2011.11961, 2020.人體摳圖是一項非常有趣的任務,它的目標是找到照片中的任何一個人,并將背景從照片中移除。由于任務的復雜性,要找到擁有完美輪廓的人是非常困難的。在這篇文章中,研究者回顧了這些年來使用的最佳技術(shù)和發(fā)表于2020年11月29日的一種新方法。https://github.com/ZHKKKe/MODNet
24、ADA: 使用有限數(shù)據(jù)訓練生成對抗網(wǎng)絡

T. Karras, M. Aittala, J. Hellsten, S. Laine, J. Lehtinen, and T. Aila, Training generative adversarial networks with limited data, 2020. arXiv:2006.06676 [cs.CV].使用這種由英偉達開發(fā)的新訓練方法,僅僅使用十分之一的圖像,您就可以訓練一個強大的生成模型!?
https://github.com/NVlabs/stylegan2-ada最后,大家也可以在在GitHub中訪問論文完整列表:https://github.com/louisfb01/Best_AI_paper_2020https://medium.com/towards-artificial-intelligence/2020-a-year-full-of-amazing-ai-papers-a-review-c42fa07aff4b
推薦閱讀:
「2020中國AI算力報告」重磅出爐:中國怎么解決GPT-3的算力難題?
