向AI轉(zhuǎn)型的程序員都關(guān)注了這個(gè)號(hào)??????

機(jī)器學(xué)習(xí)AI算法工程?? 公眾號(hào)：datayx

商品識(shí)別在零售行業(yè)的應(yīng)用

一、圖像識(shí)別的應(yīng)用場(chǎng)景，以及對(duì)零售行業(yè)的變革

1.以圖搜圖，拍照購(gòu)物

說(shuō)到圖像識(shí)別，大家可能馬上能想到以圖搜圖的方式，也就是“拍照購(gòu)”。這個(gè)想法出現(xiàn)的很早，在零幾年的時(shí)候就有很多公司開始做這方面的嘗試。

美國(guó)硅谷的snaptell，他們?cè)缭诹懔甑臅r(shí)候就開始做拍照購(gòu)物的應(yīng)用場(chǎng)景，他們做的大部分是一些書籍和CD類的簡(jiǎn)單物品識(shí)別，2009年被Amazon收購(gòu)。2015年Amazon收購(gòu)了另一家做圖像識(shí)別相關(guān)的華人公司Orbeus。到2016年后，像Google、Pinterest、Instagram，都開發(fā)了一些類似的功能。

國(guó)內(nèi)，淘寶是比較早開始涉及這個(gè)領(lǐng)域的。2014年，淘寶自己開始研發(fā)了拍立淘的功能，而另一家電商巨頭——京東，在2017年上線的“拍照購(gòu)”采用的是海深科技的算法。同時(shí)海深科技還服務(wù)了小紅書、搜狗圖像搜索等一些一線的互聯(lián)網(wǎng)企業(yè)。

2.貨架排面管理

貨架排面管理的需求主要來(lái)自品牌方，以前會(huì)有巡店的業(yè)務(wù)需求。比如商品擺到貨架上，需要知道占了多大的排面，是不是整齊擺放，以前是派員工巡店，后來(lái)是通過(guò)拍照的方式。現(xiàn)在出現(xiàn)了很多眾包公司，專門幫助品牌方拍攝門店的照片。

照片收到后如何處理是一個(gè)問(wèn)題，如果以人力來(lái)處理這些照片效率很低，無(wú)法及時(shí)反饋，所以在這樣的場(chǎng)景下，商品識(shí)別技術(shù)有很大的應(yīng)用需求。眾包公司負(fù)責(zé)拍照的人差異很大，拍照的方式、用的相機(jī)、照片的像素都不一樣，回傳圖片后審核，可能一周后發(fā)現(xiàn)有不符合要求的門店，需要再次跑到店里去解決。如果能在拍照后，實(shí)時(shí)通過(guò)圖像識(shí)別知道這個(gè)結(jié)果，對(duì)眾包的人員來(lái)說(shuō)，是非常高效和節(jié)省成本的方式。

這個(gè)領(lǐng)域有一家公司叫TRAX，他們用的是一個(gè)機(jī)器人來(lái)巡店，這是一家目前有一定規(guī)模的公司，總部在新加坡，核心研發(fā)人員是以色列的，與以色列的幾個(gè)學(xué)校在聯(lián)合做這個(gè)項(xiàng)目。國(guó)內(nèi)目前也有一些同行在做類似的自動(dòng)貨架拍攝的相關(guān)項(xiàng)目。

3.無(wú)人超市

說(shuō)到無(wú)人超市，Amazon Go是近幾年都很火的。當(dāng)然，Amazon Go用到的核心技術(shù)不止是圖像識(shí)別，更不止于商品識(shí)別。他們采取了很多手段，包括他們稱之為smart shelf，是采用了重力感應(yīng)技術(shù)，也有紅外技術(shù)，頂部是攝像頭用來(lái)跟拍店里的用戶，也做了很多Re-ID的工作。

Amazon Go的方案成本非常高，核心難點(diǎn)是人與貨的關(guān)聯(lián)。圖像識(shí)別的一個(gè)核心技術(shù)就是Re-ID——人的跟蹤，他們用了一些像紅外技術(shù)這樣的輔助手段來(lái)探測(cè)手的位置，用重量感應(yīng)來(lái)判斷商品是否被拿起來(lái)，然后后攝像頭來(lái)跟蹤人的位置。

我們也在研發(fā)類似的技術(shù)，目前在與百聯(lián)合作嘗試落地，但總體還是一個(gè)計(jì)算量非常大而且成本很高的項(xiàng)目。但是Amazon Go具體核心算法是怎么做的，我們也只能是一些猜測(cè)，他們做了這么長(zhǎng)時(shí)間，很多技術(shù)細(xì)節(jié)都是很值得研究的。Amazon Go是一個(gè)開放性的環(huán)境，雖然做了很多定制性的優(yōu)化，但整個(gè)店面環(huán)境以及與人的交互，實(shí)際問(wèn)題是非常難解決的。

4.無(wú)人零售柜

現(xiàn)在出現(xiàn)了一些無(wú)人零售柜，跟無(wú)人超市相比，是一個(gè)更小的單元，環(huán)境是更可控的。從應(yīng)用場(chǎng)景來(lái)看，很多人會(huì)跟以前傳統(tǒng)的販賣機(jī)Vending Machine去比較，其實(shí)在我的理解下它是一個(gè)新的形態(tài)，更像一個(gè)小的便利店，但是是一個(gè)更靈活的形態(tài)，商品的品類和擺放也會(huì)更自由，這是跟傳統(tǒng)販賣機(jī)最大的區(qū)別。

現(xiàn)在無(wú)人零售柜的技術(shù)實(shí)現(xiàn)有靜態(tài)圖像和動(dòng)態(tài)視覺(jué)兩種，海深科技采用的是靜態(tài)的方案，就是在關(guān)門之后拍照，跟關(guān)門前的圖片進(jìn)行對(duì)比，確認(rèn)用戶拿走哪些商品。因?yàn)檫@個(gè)方案用的是云端服務(wù)，所以成本會(huì)比較低。而動(dòng)態(tài)視頻無(wú)論是線上傳輸還是本地計(jì)算，都會(huì)產(chǎn)生更高的成本，而且準(zhǔn)確率無(wú)法保證。

5.無(wú)人結(jié)算臺(tái)

目前我們還在做的另一個(gè)設(shè)備，是無(wú)人結(jié)算臺(tái)。這樣的產(chǎn)品也有幾家公司在做，我們的不同點(diǎn)是，它是一個(gè)半封閉的場(chǎng)景，周圍的環(huán)境影響會(huì)更小，在技術(shù)實(shí)現(xiàn)上會(huì)更有優(yōu)勢(shì)。目前的深度學(xué)習(xí)模型的泛化能力還是比較有限的，我們會(huì)通過(guò)一些物理手段，或者其他技術(shù)手段來(lái)對(duì)環(huán)境做一些控制，會(huì)更有利于技術(shù)實(shí)現(xiàn)，或者是效率、準(zhǔn)確率的提升。

無(wú)人結(jié)算臺(tái)的商業(yè)化落地還在探索階段，并且還是會(huì)有一些限制。比如說(shuō)很大的商品，都沒(méi)有辦法放到這個(gè)結(jié)算臺(tái)上，當(dāng)然也沒(méi)有辦法做結(jié)算。未來(lái)的結(jié)算會(huì)以什么樣的方式，是人工的，還是需要把商品放在一個(gè)設(shè)備里，還是像Amazon Go這樣的完全無(wú)感知的結(jié)算方式，我們都不知道。當(dāng)然，從長(zhǎng)遠(yuǎn)來(lái)看，Amozon Go的方式肯定是一個(gè)方向，但是短期內(nèi)商業(yè)化落地是非常困難的，最大的問(wèn)題就是過(guò)高的成本。

6.線下數(shù)字化

在線上，所有的用戶信息是數(shù)字化的，比如購(gòu)物時(shí)，瀏覽過(guò)什么商品，點(diǎn)擊、停留時(shí)長(zhǎng)、購(gòu)買等等信息都是有記錄的。這方面今日頭條號(hào)稱是做的最好的，給用戶的內(nèi)容推薦相對(duì)比較精準(zhǔn)。對(duì)電商來(lái)說(shuō)，這樣的數(shù)字化數(shù)據(jù)可以幫助優(yōu)化運(yùn)營(yíng)策略，是很重要的一個(gè)方面。

在線下，用戶信息的數(shù)字化是很困難的。最早的時(shí)候，線下數(shù)字化是用探針的方式來(lái)做。探針最大的問(wèn)題就是精度，定位不準(zhǔn)確，即使是用兩三個(gè)點(diǎn)來(lái)共同定位，也只能簡(jiǎn)單定位人的位置，誤差還是比較大。

2017年開始，很多公司開始通過(guò)視頻分析用戶的行為，來(lái)做線下數(shù)字化。有一家海外數(shù)一數(shù)二的連鎖店希望跟我們合作，去做用戶路徑跟蹤、人與物的交互分析。這有點(diǎn)像Amazon Go的技術(shù)，但是他們需要做到結(jié)算，這樣的線下數(shù)字化只是做數(shù)據(jù)分析。

除此之外，線下還有兩個(gè)很大的需求就是防盜和員工管理。防盜的需求比較清晰，員工管理其實(shí)也很重要，比如員工與客戶溝通的熱情，甚至員工的異常行為等等。

做線下數(shù)字化的原因是什么呢？其實(shí)無(wú)人店的核心不是有人和無(wú)人，而是強(qiáng)制的會(huì)員制。Costaco為什么這么火爆，他做的最好的就是明確的用戶定位+會(huì)員制，然后只服務(wù)于這個(gè)群體。無(wú)人店通過(guò)強(qiáng)制的會(huì)員制，去繪制用戶畫像，對(duì)他進(jìn)行精準(zhǔn)定位，然后可以打通線上和線下，以定制化的服務(wù)來(lái)優(yōu)化商品、提高客單價(jià)。我覺(jué)得這是零售行業(yè)的趨勢(shì)，也是線下數(shù)字化的意義。

二、商品識(shí)別的技術(shù)難點(diǎn)

1.人臉識(shí)別難還是商品識(shí)別難

首先這個(gè)問(wèn)題不是很科學(xué)，任何一個(gè)問(wèn)題都可以變得容易，也可以很難。人臉識(shí)別一般是比較配合的，像第一個(gè)圖，相對(duì)來(lái)說(shuō)難度會(huì)比較低，現(xiàn)在方案也比較成熟。那如果大街上，下著雨，半遮著臉，距離很遠(yuǎn)，清晰度很低，這樣識(shí)別難度就很大了。那如果是看著后腦勺希望把人識(shí)別出來(lái)，就顯然不太合理。

商品識(shí)別也是類似，一個(gè)商品擺在面前來(lái)區(qū)分是比較容易的，但實(shí)際的場(chǎng)景中就會(huì)很困難。比如第二張圖的排面，這還是我們做過(guò)的項(xiàng)目里相對(duì)容易的，因?yàn)閿[的很整齊。第三張圖的難度就很大了，這是一個(gè)非常極端的例子。農(nóng)夫山泉和可樂(lè)都是紅色的蓋子，飲料的顏色是不同的，但左下角只露出了一個(gè)蓋子，就非常難識(shí)別了。所以人臉識(shí)別和商品識(shí)別哪個(gè)更難這個(gè)問(wèn)題，需要從不同的角度來(lái)看待。

2.準(zhǔn)確率 = 70%*數(shù)據(jù)+30%*算法

提升識(shí)別準(zhǔn)確率，核心是兩個(gè)部分，數(shù)據(jù)和算法。我們都非常關(guān)注的算法層面，可能只占30%的比例，數(shù)據(jù)可能要占70%。

3.目標(biāo)檢測(cè)往往是更難的

目標(biāo)檢測(cè)其實(shí)比識(shí)別更難，大部分的時(shí)間我們花在做目標(biāo)檢測(cè)上。零售行業(yè)的排面檢測(cè)相對(duì)要求還不會(huì)特別高，多一個(gè)小一個(gè)框不會(huì)構(gòu)成大的問(wèn)題。但比如像我們智能柜的場(chǎng)景，商品識(shí)別是用來(lái)做結(jié)算的，要求100%準(zhǔn)確，特別是密集擺放的情況下，難度就很高。

實(shí)際的場(chǎng)景中除了密集擺放，還會(huì)有傾倒重疊的情況出現(xiàn)。像下圖中的重疊，我們目前能夠識(shí)別，但如果出現(xiàn)一個(gè)商品比較長(zhǎng)，另一個(gè)商品完全覆蓋把商品截成兩段，人可以通過(guò)聯(lián)想知道是同一個(gè)商品，但是機(jī)器會(huì)識(shí)別為兩個(gè)商品。

再比如說(shuō)商店的排面，上圖左上角的牛奶只露出了不到1/20，商品識(shí)別很可能會(huì)出錯(cuò)，所以這不能只依靠商品識(shí)別來(lái)做。人會(huì)通過(guò)推理來(lái)判別，那么商品識(shí)別中也許可以增加近似的技術(shù)手段來(lái)優(yōu)化整個(gè)方案。

4.物體的重識(shí)別Re-ID

一般物體的識(shí)別，我們更多的解決的是一個(gè)攝像頭下的商品識(shí)別，還有一個(gè)常見但更復(fù)雜的場(chǎng)景，就是在更大的區(qū)域下，可能需要兩個(gè)攝像頭協(xié)同拍攝，每張圖分別拍到一部分，兩張圖還有重合的部分。如何在這樣的情況下精準(zhǔn)地識(shí)別，我們團(tuán)隊(duì)去年花了整整一年的時(shí)間，解決了這個(gè)問(wèn)題。

很多人馬上想到的是把兩張圖進(jìn)行拼接，但實(shí)際拼不起來(lái)，商品有高有矮，兩張圖也是不同的角度。實(shí)際要如何解決呢？其實(shí)跟人的推理方法是一樣的。首先我們比較確定的是一些邊緣的信息，比如兩張圖分別有哪些靠近邊緣，找到一些關(guān)鍵點(diǎn)，也就是說(shuō)，哪些商品在兩張圖里是同一個(gè)。簡(jiǎn)單地說(shuō)，人是如何理解這兩個(gè)畫面，那么讓算法也近似地去理解。

三、智能零售解決方案工程化落地關(guān)鍵

1.數(shù)據(jù)標(biāo)注的優(yōu)化

之前也提到，數(shù)據(jù)的重要程度非常高，如何提升數(shù)據(jù)質(zhì)量，采集、標(biāo)注數(shù)據(jù)策略的優(yōu)化，在什么場(chǎng)景下做采集，都是非常重要的方面。而后期，當(dāng)數(shù)據(jù)達(dá)到一定量的時(shí)候，如何實(shí)現(xiàn)數(shù)據(jù)工程化高效采集，也成為需要考慮的方面。

數(shù)據(jù)的采集沒(méi)有捷徑，高質(zhì)量的數(shù)據(jù)一定需要花費(fèi)很多時(shí)間。同時(shí)，優(yōu)質(zhì)的數(shù)據(jù)采集和標(biāo)注平臺(tái)，也是非常重要的。一個(gè)優(yōu)質(zhì)的數(shù)據(jù)平臺(tái)的開發(fā)，本身就可以成為一個(gè)獨(dú)立的產(chǎn)品。

我們也嘗試過(guò)3D建模，成本相抵會(huì)更低，可以迅速把準(zhǔn)確率提升到90%，甚至95%以上，但是要達(dá)到99%以上接近100%的水平，3D建模是不夠的，還是需要采集更多有效的數(shù)據(jù)。

2.場(chǎng)景限定與優(yōu)化

現(xiàn)在深度學(xué)習(xí)的能力其實(shí)還是有限，泛化能力還比較弱，只針對(duì)一些限定的場(chǎng)景會(huì)有比較好的結(jié)果。就像之前我們提到兩個(gè)例子，一個(gè)是Amazon Go，一個(gè)是我們的智能柜，整體的環(huán)境還是定制化的。比如外界的燈光、陽(yáng)光造成的光線差異，攝像頭的更換導(dǎo)致的色差，都會(huì)是影響結(jié)果的原因。

因而目前的商業(yè)落地，場(chǎng)景的限定與優(yōu)化是比較重要的，在深度學(xué)習(xí)還沒(méi)有達(dá)到一定強(qiáng)度的時(shí)候，外界的輔助手段可能是提升效果的重要輔助方式，場(chǎng)景、算法、應(yīng)用、硬件都需要協(xié)同配合。

3.數(shù)據(jù)共享

圖像識(shí)別能有今天的發(fā)展，很大程度上受益于李飛飛教授主持的ImageNet大量標(biāo)注圖片數(shù)據(jù)集，可以說(shuō)是現(xiàn)在所有圖像識(shí)別最根本的基礎(chǔ)。

同樣的道理，由于商品種類的繁多性，靠一個(gè)公司或者團(tuán)體的能力，很難提升算法的泛化能力，也就是單一算法只能適用于非常有限的場(chǎng)景，很難形成規(guī)?；?yīng)。其實(shí)我們這個(gè)行業(yè)也是類似，在數(shù)據(jù)層面其實(shí)可以合作共贏的方式來(lái)推進(jìn)整個(gè)行業(yè)的良性發(fā)展，數(shù)據(jù)共享和算法開放將會(huì)成為人工智能發(fā)展的一個(gè)重要趨勢(shì)。

RP2K是品覽基于零售商品識(shí)別能力發(fā)布的零售數(shù)據(jù)集。不同于一般聚焦新產(chǎn)品的數(shù)據(jù)集，RP2K收錄了超過(guò)50萬(wàn)張零售商品貨架圖片，商品種類超過(guò)2000種，該數(shù)據(jù)集是目前零售類數(shù)據(jù)集中產(chǎn)品種類數(shù)量TOP1，同時(shí)所有圖片均來(lái)自于真實(shí)場(chǎng)景下的人工采集，針對(duì)每種商品，我們提供了十分詳細(xì)的注釋。

RP2K數(shù)據(jù)集(https://arxiv.org/pdf/2006.12634.pdf)具有以下特性：

(1) 迄今為止，就產(chǎn)品類別而言，它是規(guī)模最大的數(shù)據(jù)集。

(2) 所有圖片均在實(shí)體零售店人工拍攝，自然采光，符合實(shí)際應(yīng)用場(chǎng)景。

(3) 為每個(gè)對(duì)象提供了豐富的注釋，包括大小、形狀和味道/氣味。

全部代碼獲取方式：

關(guān)注微信公眾號(hào) datanlp? 然后回復(fù)?商品識(shí)別?即可獲取。

數(shù)據(jù)分析

數(shù)據(jù)集中的一些樣本如下圖所示，大部分分布是細(xì)長(zhǎng)的，長(zhǎng)寬分布要比ImageNet等數(shù)據(jù)集更加分布不均勻：

此外，該數(shù)據(jù)集的數(shù)據(jù)量和類別數(shù)量也非常多，下圖展示了RP2K和其他零售數(shù)據(jù)集的對(duì)比，RP2K具有2388個(gè)類別的零售商品，屬于大規(guī)模分類問(wèn)題。

此外，數(shù)據(jù)集某一些類間分布差異較小，相同品牌不同子產(chǎn)品之間差異較小，可以歸屬為細(xì)粒度分類問(wèn)題。數(shù)據(jù)質(zhì)量也存在一定的問(wèn)題，比如光照，包裝差異，拍攝角度，標(biāo)注錯(cuò)誤等等問(wèn)題。

經(jīng)過(guò)統(tǒng)計(jì)，該數(shù)據(jù)集呈現(xiàn)明顯的長(zhǎng)尾分布：

數(shù)據(jù)預(yù)處理

1. Resize策略

Structure-Retention Resize策略，保留原有的結(jié)構(gòu)化信息。性能上能夠提升3個(gè)百分點(diǎn)，如下圖所示，也就是padding黑邊的方式。這個(gè)策略在比賽初期是最有效的策略，比傳統(tǒng)的resize方法能夠提高3.17%個(gè)百分點(diǎn)。

2. 數(shù)據(jù)增強(qiáng)

我們測(cè)試了三種經(jīng)典的數(shù)據(jù)增強(qiáng)方法：

Cutout數(shù)據(jù)增強(qiáng)策略，在隨機(jī)位置Crop正方形Patch。

AutoAugmentation策略，使用了針對(duì)ImageNet搜索得到的策略。

Random Erasing策略，隨機(jī)擦除原圖中的一個(gè)矩形區(qū)域，將區(qū)域內(nèi)部像素值替換為隨機(jī)值。

實(shí)驗(yàn)效果如下：

3 后處理方法FixRes

采用了NIPS19年Facebook提出的FixRes的后處理技巧，ImageNet上經(jīng)典的數(shù)據(jù)增強(qiáng)方式會(huì)導(dǎo)致訓(xùn)練時(shí)和測(cè)試時(shí)的模型看到的目標(biāo)尺寸出現(xiàn)差異。

之前寫過(guò)一篇文章解讀FixRes詳細(xì)內(nèi)容可以看這里：

https://blog.csdn.net/DD_PP_JJ/article/details/121202386?spm=1001.2014.3001.5501

簡(jiǎn)單來(lái)說(shuō)是由于ImageNet經(jīng)典的數(shù)據(jù)處理方法會(huì)導(dǎo)致Region of Classification，即模型看到的目標(biāo)尺寸不同。

可以看到，下圖中通過(guò)訓(xùn)練和測(cè)試過(guò)程得到的“7喜”的logo標(biāo)志大小存在差異，為了彌補(bǔ)兩者差異，最簡(jiǎn)單的方式是提高測(cè)試過(guò)程中分辨率。

FixRes有三步流程：

第一步，正常以224分辨率進(jìn)行訓(xùn)練
第二步，將測(cè)試分辨率調(diào)高到280
第三步，固定backbone，只對(duì)Linear層進(jìn)行finetune。

具體實(shí)驗(yàn)結(jié)果如下：

模型改進(jìn)

1 模型選擇

由于數(shù)據(jù)集規(guī)模比較大，為了快速測(cè)試各個(gè)模型的有效性，使用了50%的數(shù)據(jù)進(jìn)行快速驗(yàn)證，驗(yàn)證選擇的模型包括：

我們最終選擇了SEResNeXt50作為主要模型，并配合ResNet50_CBAM還有Inception_resNet_v2進(jìn)行模型集成。Swin Transformer和EfficientNet兩個(gè)模型由于其運(yùn)行速度太慢，在比賽時(shí)間限制下沒(méi)有使用兩者。

SEResNeXt模型有兩部分構(gòu)成

ResNeXt在ResNet基礎(chǔ)上引入了基數(shù), 通過(guò)引入組卷積讓模型能夠?qū)W到更diverse的表示。

Squeeze & Excitation Module讓模型能夠自適應(yīng)地調(diào)整各個(gè)通道的重要程度，學(xué)習(xí)到了通道之間的相關(guān)性，提升模型表達(dá)能力。

2 模型改進(jìn)

模型改進(jìn)部分是一個(gè)簡(jiǎn)單而符合直覺(jué)的方法，我們觀察到，現(xiàn)有的大部分模型都是針對(duì)ImageNet進(jìn)行設(shè)計(jì)的，而ImageNet類別數(shù)為1000個(gè)類別，但RP2K數(shù)據(jù)集規(guī)模比較大，擁有2388個(gè)類別。

我們關(guān)注大多數(shù)模型的最后一個(gè)linear層的設(shè)計(jì)，針對(duì)ImageNet設(shè)計(jì)的模型的Linear層通常由2048維度映射到1000維度，由高緯度映射到低緯度比較合理。

但是由于RP2K的規(guī)模較大，類別數(shù)量為2388，直接由2048映射至2388可能會(huì)導(dǎo)致容量不夠的問(wèn)題，由低緯度映射映射至高緯度則不太符合直覺(jué)。

針對(duì)此，我們進(jìn)行了簡(jiǎn)單而符合直覺(jué)的改進(jìn)，如下圖所示：

通過(guò)以上改進(jìn)，擴(kuò)充了模型的容量，取得了0.26%的提升。

3. 模型訓(xùn)練細(xì)節(jié)

錯(cuò)例分析

手工分析了一下錯(cuò)誤樣例（注：以上分析去除了others類別錯(cuò)分樣本），可以發(fā)現(xiàn)這個(gè)數(shù)據(jù)集比較難處理的是細(xì)粒度帶來(lái)的識(shí)別困難、疑似數(shù)據(jù)標(biāo)注錯(cuò)誤、以及長(zhǎng)尾分布的尾部類別，這也符合我們數(shù)據(jù)分析的結(jié)論。

MindSpore框架使用感受

本次比賽面向國(guó)產(chǎn)AI框架，基于MindSpore開發(fā)商品識(shí)別算法，必須在昇騰910平臺(tái)訓(xùn)練和部署模型，以官方復(fù)現(xiàn)結(jié)果為準(zhǔn)。

使用MindSpore的感受: