【2021】如何看待計算機視覺未來的走向?
本文節(jié)選了一些知乎上的高贊回答,分享給大家! 來源:知乎
作者:謝凌曦
鏈接:https://www.zhihu.com/question/436846337/answer/1655746348
來源:知乎
我沒看錯吧?NLP是一片藍海是自由之地?CV比較完善進入了深水區(qū)?一時間,我都不知道應(yīng)該從哪個點開始吐槽了。
因為題主問到了CV和NLP的比較。如果一定要橫向?qū)Ρ鹊脑?,那么CV和NLP長期以來是互相學習、互相趕超的關(guān)系。雖然同屬于AI這個大領(lǐng)域,也同樣具有不確定性因而概率類方法占據(jù)絕對優(yōu)勢,但兩者的性質(zhì)還是存在諸多不同。具體來說:
CV信號是天然存在的,而NLP信號是人類創(chuàng)造出來、用于存儲知識的。因此,CV信號維度高、信息密度低,而NLP信號維度低、信息密度高。這就意味著在NLP信號上進行自監(jiān)督學習更容易,也意味著要在CV信號上進行自監(jiān)督學習,需要事先進行某種意義上的信息提純。
CV信號描述了對象的細節(jié),具有一定的冗余度,而NLP信號是對象的抽象化描述,具有一定的模糊性。CV信號是層次化的,而NLP信號是結(jié)構(gòu)化的。這些明顯的對比,意味著要想在CV和NLP領(lǐng)域產(chǎn)生初級技術(shù)應(yīng)用,算法需要關(guān)注的點是不一樣的。CV更關(guān)注特征的抽象和domain之間的遷移,而NLP更關(guān)注單詞間的聯(lián)系和消歧義,等等。
當前,CV和NLP面臨的共同困難,都是標注信息的不完善——簡單地說,人類提供的標簽已經(jīng)無法很好地指導學習過程,具體描述可以參考我昨天寫的另一個回答:
目前計算機視覺中的很多自監(jiān)督方法的下游任務(wù)用有監(jiān)督分類的意義是什么?
鏈接:https://www.zhihu.com/question/436646583/answer/1654089369)
這也就意味著,有監(jiān)督學習的紅利已經(jīng)基本吃完,業(yè)界急需從無標簽數(shù)據(jù)中獲取邁向下一代人工智能的鑰匙。雖然這把鑰匙仍未找到,但是我們基本可以確定大規(guī)模上游預(yù)訓練+小規(guī)模下游微調(diào)的套路。NLP已經(jīng)部分走通了這條路——雖然現(xiàn)在的GPT-3被批評為只有記憶沒有常識,但是長遠看,這條路應(yīng)該是通的;而CV也需要迎頭趕上。
注意:以下是猜測
如果對CV的未來走向進行判斷,我認為一種很可能發(fā)生情況是復刻NLP的軌跡,由大廠完成超大規(guī)模圖像預(yù)訓練模型,隨后將模型release給廣大開發(fā)者使用。這條路一旦走通,將會深遠地改變當前CV的格局和開發(fā)模式。當然,對于廣大開發(fā)者而言,適應(yīng)新的算法并不困難,適應(yīng)新的生態(tài)可能會有一定的挑戰(zhàn)。
最后,談到內(nèi)卷的問題。內(nèi)卷永遠是存在的,只要大家認為這個領(lǐng)域的從業(yè)者的數(shù)量超過了它能夠?qū)嶋H養(yǎng)活的數(shù)量。我對這個問題的看法是,CV在實際應(yīng)用上的潛力遠沒有被發(fā)揮出來。如果更先進的技術(shù)路線能夠達成,那么整個行業(yè)能養(yǎng)活的工程師數(shù)量一定會增加,到時候還會不會卷,就看會不會有更多人跳進這個坑里來了。
作者:韋仕才
鏈接:https://www.zhihu.com/question/436846337/answer/1664879388
來源:知乎
作為一名入門煉丹師我來談?wù)勎业挠^點。
首先關(guān)于卷的這個問題,我覺得并不僅僅是因為或者所很大程度不是因為說cv入門門檻低,或者深度學習入門門檻低啥的,好歹它還需一塊1080ti+是吧??纯锤舯诘腏AVA,那個真是有手就行(狗頭),但是你看有人說開發(fā)崗卷嗎?想必無數(shù)學長學姐都告訴過大家,遇事不決就學JAVA,或者再加點c++。而大家,至少我應(yīng)該是幾乎沒聽過說JAVA開發(fā)崗一片紅海找不到工作啥的,至多就是入職的996,35歲的中年危機。甚至我認識的人很多是深度學習搞不下去了,找不到工作了,半年速成JAVA去找了開發(fā)的工作。同樣都是那么多人入門,甚至轉(zhuǎn)開發(fā)和JAVA的人更多,為啥就深度學習一片紅海,問題出在哪呢?
問題的核心其實在于供需失衡。首先是供給方,注意深度學習的紅利是真的曾經(jīng)存在過的?。?!,并不從一開始就是泡沫。在15-17年那會,前景看起來一片光明,學生們看到深度學習,計算機視覺帶來的巨大福利,老師們看到這個東西好發(fā)文章,申項目,于是紛紛轉(zhuǎn)向深度學習,計算機視覺。特別是隨著深度學習框架的普及和硬件資源的不斷升級, 深度學習的入門門檻越來越低, 兩個月入門真的不是夢想。就連李飛飛,吳恩達,bengio,blabla等各路大神都紛紛離校創(chuàng)業(yè)或從業(yè),所以大家沒忍住誘惑走進了這個坑真怪不了什么,我也沒忍住,畢竟那時候誰能想到會是現(xiàn)在這樣,一切看起來都非常美好,智能時代仿佛近在眼前。但是現(xiàn)在在呢? 李飛飛又回到了斯坦福, 吳恩達開始去搞教育, bengio的公司或許將要賤賣(以低于融資成本的價格賣出),知乎上開始出現(xiàn)如何看待2019年算法崗一篇紅海, 2020年算法崗灰飛煙滅, 而我前不久也還在吐槽如何看待深度學習復現(xiàn)難的問題。這中間發(fā)生了什么?
這就需要談到需求方的問題。首先很明顯的是目前公司對算法崗,深度學習需求并沒有像大家所想象的那么大,不然也不至于出現(xiàn)現(xiàn)在大家所說的一片紅?;绎w煙滅的問題??墒菫槭裁茨兀空f好的工業(yè)4.0呢,說好的光明前景呢?這就要談到另一個問題,什么決定了公司的需求?夢想?熱愛?不,是利益,99.9%公司都是如此。剩下的0.1%也會慢慢變成如此。這里我想起了之前和師兄的聊天
我的一個博士師兄是工作之后才來讀博的,他17年碩士畢業(yè)去了海信做圖像算法,后來有一天我們一起回寢室,師兄突然說起還好辭職,不然現(xiàn)在海信大裁員指不定就裁到他了。我說你們不是做算法的嗎,怎么會裁到你們。師兄說裁的就是研發(fā)部門…,也就是算法崗可能的來源。我當時心想,不應(yīng)該啊,研發(fā)部門不應(yīng)該都是像達摩院, FAIR這種,關(guān)乎一個公司能否把握未來機遇,抓住下一個風口的重要部門嗎,怎么說裁就裁。師兄說,因為不掙錢啊,我們公司墻上掛滿了各種專利,但是實際能用來產(chǎn)生效益的沒幾個。不是每一個公司都能有那么大的魄力和資金投入做自己的算法研發(fā)的。更多是用別人做好的接口開發(fā)產(chǎn)品。
而像阿里,曠視,商湯這種提供算法支持的不應(yīng)該有很大的算法崗需求嗎?為什么還是會卷。其實他們的需求也沒那么大,原因還是一樣的,計算機視覺,深度學習并沒能帶來大家所期望應(yīng)用和盈利。說到這,其實大家眼里的眼里這些公司也不容易,也卷的不行,那么多公司就分人臉識別,智能安防等幾個領(lǐng)域的蛋糕,而且技術(shù)壁壘也沒有大到非某家不可的地步。而這歸根到底就是現(xiàn)在深度學習,計算機視覺能落地的場景真的不多。
所以這就談到第二點了,現(xiàn)在計算機視覺的瓶頸。以下觀點更多是從算法落地角度考慮的,可能存在一些局限。
做過算法落地的人應(yīng)該都深有體會,那些頂刊頂會上的sota算法,你用到實際場景里,如果不適用額外數(shù)據(jù)做微調(diào),準確率掉一個30%到40%,再正常不過了。而且很多時候視任務(wù)的難易程度準確率從70%到85%甚至90%是可以靠數(shù)據(jù)堆出來的,但是再往上就沒那么容易了。當然千萬級別甚至更高數(shù)量級的數(shù)據(jù)那就另說了,畢竟人工智能人工智能,有多少人工就有多少智能。即使如此還會有極端情況存在你加數(shù)據(jù)可能都無法解決
研一那會跟著師兄參加過一個復雜環(huán)境下人臉檢測識別挑戰(zhàn)賽,做的就是監(jiān)控視頻下白天黑夜各種復雜場景下的人臉識別。大家一看人臉識別,這不是做爛了嗎,還有什么好做的?我當時也這么想,師兄可能開始也這么想,然后師兄兩年就花在了上面,后來表示非常后悔。當時的情況就是白天下還好,基本都能識別差不多,黑夜路燈下,準確率極劇降到了10%各種優(yōu)化弄到20%就已經(jīng)慘不忍睹了,就這還拿了第五名。前面的是一起參賽的還有大華,云從這些大廠,這里就說說大華,專業(yè)做安防的,他們最后黑夜環(huán)境下準確率大概是70%,而且這里還不確實他們是不是用了自己的數(shù)據(jù),總之我們是沒數(shù)據(jù)。
數(shù)據(jù)都不能解決,但還是要用,那怎么辦,一般就只能限制場景,麻煩用戶了。現(xiàn)在大家所能看到的落地應(yīng)用多半是在一個盡量不影響用戶體驗的場景限制里,采集海量數(shù)據(jù)集,擬合一個模型然后使用。這個過程中真正起了大作用的,不是大家以為的那些sota模型,而是那些場景的約束和海量數(shù)據(jù)。以我做的活體檢測為例,現(xiàn)在也有落地的應(yīng)用了,阿里,小視科技,但是你們?nèi)ビ玫臅r候它都會有請靠近遠離攝像頭讓你距離攝像頭的位置在指定距離,請保持禁止blabla一些限制,甚至有時候我都已經(jīng)在這個范圍里還不給我檢測,用的賊惡心。這些限制能不能不要?不行,因為不加這東西就解決不了。
緊接著上面就是關(guān)于計算機視覺的未來。我始終認為技術(shù)發(fā)展的終點就是產(chǎn)品,能夠切實的落地影響或改變?nèi)藗兊纳睿鉀Q人們的實際需求。所以我一直覺得我今后會是一個工程師而不是科學家。而如果從這個角度看計算機視覺的未來那就是這樣的。
我數(shù)據(jù)量不夠的怎么辦——小樣本學習,遷移學習。
數(shù)據(jù)標注成本高怎么辦——半監(jiān)督,無監(jiān)督。
我數(shù)據(jù)分布不均衡怎么辦——長尾分布。
如何利用各種可能的數(shù)據(jù)來優(yōu)化提高模型性能——多模態(tài)學習。
如何適應(yīng)復雜場景(自然的,人為的)——深度學習的魯棒性,泛化性研究,對抗學習。
算法出問題我怎么糾正和修改——深度學習可解釋性問題。
我的模型怎么快速高效部署用于實際產(chǎn)品——機器學習系統(tǒng),深度學習框架研究,模型壓縮
作者:二元倒回改造架構(gòu)
鏈接:https://www.zhihu.com/question/436846337/answer/1688862815
來源:知乎
就互聯(lián)網(wǎng)公司的而言,CV能提供的崗位數(shù)肯定遠不及NLP。這是由學科的根本性質(zhì)決定的。
目前CV的產(chǎn)出主要是感知智能,而NLP是認知智能,即用于“理解“的智能。可以說在整個AI鏈條里面,CV處在一個比較底層的位置,一般都是感知->理解->決策這樣的pipeline結(jié)構(gòu)。CV處在整個鏈條的底層,猶如操作系統(tǒng)之于計算機軟件。
為什么CV作為整個鏈條的底層,崗位反而那么少呢?這正如做操作系統(tǒng)開發(fā)的崗位也很少一樣?;ヂ?lián)網(wǎng)公司里,最重要、最耗費人力的事情是什么?是技術(shù)嗎?當然不。搞技術(shù)關(guān)鍵是要靠聰明的頭腦,而蠻力堆積是不行的。因此,CV這種處于技術(shù)鏈條底層的崗位,往往通過極少數(shù)關(guān)鍵的團隊就可以積累了,這種偏技術(shù)的團隊能提供的崗位很少,對求職者能力要求很高,是我等茫茫眾生可望不可即的。不要看招聘啟示上都寫的“研發(fā)工程師”,國內(nèi)絕大多數(shù)公司也只是把別人現(xiàn)成的技術(shù)拿過來用,擁有真正的技術(shù)部門的寥寥無幾。即使是像Google、Facebook這樣的大公司,技術(shù)部門也只占很少的比例。因為是整個系統(tǒng)的基石,CV的準確性、確定性都被提出了較高的要求,一般都做成一個功能非常純粹、明確的模塊,例如人臉識別、目標檢測之類。說白了做CV的就是“工具人”,少數(shù)人做出成熟的模塊,給下游使用,因此耗費不了多少人力。
真正提供崗位的,還是做業(yè)務(wù)的部門。這種部門一般都是現(xiàn)成的技術(shù)拿過來用,雖然平時也會有一些相關(guān)的技術(shù)積累,但那也是有余力的個人或團隊才能做的(一般這種團隊里能有專利或論文發(fā)表,那績效考核就可以拿到頂級的檔次了)。那么對于做業(yè)務(wù)的團隊,什么是核心呢?行內(nèi)有個專業(yè)術(shù)語叫做“用戶增長”,說白了其實就是蠱惑人心。人心是世界上最難測的東西,所以互聯(lián)網(wǎng)公司才要花那么多時間、創(chuàng)造這么多崗位,進行各種AB實驗、分層實驗、用戶分群實驗......
而NLP任務(wù)主要是認知智能任務(wù),其實從根源上就很有“摸透人心”的意味?,F(xiàn)代語言學的奠基人索緒爾就指出過語言符號的任意性:語言符號和客觀事物之間的聯(lián)系是約定俗成的,是不需要存在任何邏輯的。NLP中許多問題也是非常模糊、非常主觀的。例如:用戶搜索“香蕉”,應(yīng)該召回“香蕉味牛奶”嗎(只考慮召回,不考慮排序)?這些NLP的問題在不同場景下有不同的答案,很難有一個通用的解決方案,公司需要雇許多人、做許多實驗去摸透人心,也帶來了工作崗位的增加。
End 
聲明:部分內(nèi)容來源于網(wǎng)絡(luò),僅供讀者學術(shù)交流之目的。文章版權(quán)歸原作者所有。如有不妥,請聯(lián)系刪除。

