應(yīng)用深度學(xué)習(xí)進(jìn)行乳腺癌檢測
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達(dá)
本文轉(zhuǎn)自:AI算法與圖像處理

01.概述
癌癥是人類主要的死亡原因之一,僅次于心臟病[A]。美國2017年近60萬人死于癌癥。乳腺癌在癌癥排行榜中排名第二,也是女性最常見的疾病。組織學(xué)檢查通常是患者癌癥治療過程中的轉(zhuǎn)折點(diǎn)。如果常規(guī)的乳房X射線檢測到異常腫塊,則將進(jìn)行活檢以便進(jìn)一步確診。但是,復(fù)查和評估活檢玻片所需的時間很長,可能會給患者帶來巨大的壓力。一種能夠識別癌組織并減少誤診率的有效算法可使患者更早開始治療并改善患者預(yù)后效果。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)嘗試應(yīng)用于癌癥檢查,但是基于CNN模型的共同缺點(diǎn)是不穩(wěn)定性以及對訓(xùn)練數(shù)據(jù)的依賴。部署模型時,假設(shè)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)是從同一分布中提取的。這可能是醫(yī)學(xué)成像中的一個問題,在這些醫(yī)學(xué)成像中,諸如相機(jī)設(shè)置或化學(xué)藥品染色的年齡之類的元素在設(shè)施和醫(yī)院之間會有所不同,并且會影響圖像的顏色。這些變化對人眼來說可能并不明顯,但是它們可能會影響CNN的重要特征并導(dǎo)致模型性能下降。因此,重要的是要開發(fā)一種能夠適應(yīng)域之間差異的魯棒算法。
過去已經(jīng)舉行了數(shù)項(xiàng)競賽,以開發(fā)組織學(xué)幻燈片中的癌癥檢測算法,例如ICIAR系列(BACH)[C],乳腺癌組織病理學(xué)數(shù)據(jù)庫(BreakHist)[D]和Kaggle組織病理學(xué)癌癥檢測[E] 。在此項(xiàng)目中,我們將探索如何使用域適應(yīng)來開發(fā)更強(qiáng)大的乳腺癌分類模型,以便將模型部署到多個醫(yī)療機(jī)構(gòu)中。
02.背景
“癌癥是人體內(nèi)不受控制異常生長的細(xì)胞。當(dāng)人體的控制機(jī)制不工作的時候,癌癥就會發(fā)展?!?[G] 在美國,預(yù)計八分之一的女性都會患乳腺癌。到2020年,預(yù)計將識別出300,000例乳腺癌病例,結(jié)果38人中將有1人死亡。
組織學(xué)用于評估患者的身體組織并鑒定癌細(xì)胞。在評估之前,將組織樣本染色以突出顯示組織的不同部分。蘇木精和曙紅是常見的染色劑,因?yàn)樗鼈兛梢杂行У赝怀霎惓<?xì)胞團(tuán)。蘇木素是一個堿基,與嗜堿性結(jié)構(gòu)(如細(xì)胞核)結(jié)合,將它們?nèi)境勺仙锛t將嗜酸性結(jié)構(gòu)(如細(xì)胞質(zhì))染成粉紅色[H]。理想中,不同的顏色和結(jié)構(gòu)足以識別組織異常。但是,染色組織的確切陰影可能會根據(jù)變量(例如年齡,染色化學(xué)物質(zhì)的濃度,濕度和樣本大?。┒兓▓D1)。這些顏色變化可能會使CNN模型分辨不清。

圖1.薄和厚組織切片中的顏色差異[I]。
03.數(shù)據(jù)
我們使用了來自ICIAR BACH 2018案例競賽[C]和BreakHist數(shù)據(jù)庫[D]的數(shù)據(jù)。每張圖片都經(jīng)過幾位醫(yī)學(xué)專家的審查標(biāo)記。示例圖像可以在圖2中看到。

圖2. BreakHist數(shù)據(jù)庫的示例圖像。
BACH數(shù)據(jù)集提供了400張圖像,分為四類:正常,良性,原位和有創(chuàng)。良性腫瘤是異常的細(xì)胞團(tuán),對患者構(gòu)成最小的風(fēng)險。通常在被識別時,它就被單獨(dú)放置[J]。一個原位腫瘤是未跨過身體系統(tǒng)擴(kuò)散細(xì)胞的激進(jìn)組。通常,它被認(rèn)為是惡性前癌癥,隨著時間的流逝將變得惡性[J]。浸潤性癌癥是最嚴(yán)重的癌癥類型,因?yàn)樗艳D(zhuǎn)移至超出其在體內(nèi)原始位置的位置。對于此分析,我們將正常和良性標(biāo)簽視為健康組織,并將原位和浸潤性視為癌性組織。
BreakHist數(shù)據(jù)集提供了在多個縮放級別(40x,100x,200x和400x)下拍攝的約8000張良性和惡性腫瘤圖像。這些組中包括的不同類型的腫瘤在下面列出。
? 良性腫瘤:腺瘤,纖維腺瘤,葉狀腫瘤和腎小管腺瘤
? 惡性腫瘤:癌,小葉癌,粘液癌和乳頭狀癌(K)
04.預(yù)處理
為了開發(fā)用于領(lǐng)域適應(yīng)的強(qiáng)大模型,我們選擇將BreakHist數(shù)據(jù)用于我們的訓(xùn)練集。多個縮放級別是模型魯棒性的一個很好的起點(diǎn),因?yàn)榛脽羝瑘D像的大小/放大倍數(shù)在整個行業(yè)中通常沒有標(biāo)準(zhǔn)化。
為了減少計算時間,將所有圖像縮放到224x224像素。對于CNN模型,權(quán)重和節(jié)點(diǎn)的數(shù)量隨著輸入圖像大小的增加而呈指數(shù)增長。不幸的是,當(dāng)整個幻燈片圖像從其原始尺寸減小時,很多信息可能會丟失。因此,需要在模型復(fù)雜度和準(zhǔn)確性之間進(jìn)行權(quán)衡。
圖1和圖2展示了污漬中存在的各種顏色。為了使我們的模型可跨域使用,我們?yōu)橛?xùn)練集中的每個原始圖像實(shí)施了九種顏色增強(qiáng)。這些增色改變了圖像的顏色和強(qiáng)度。此外,我們對每個變換后的圖像進(jìn)行了3次旋轉(zhuǎn),以說明相機(jī)定位和組織樣本方向的差異。這些預(yù)處理步驟將我們的訓(xùn)練集的大小從7,909張圖像增加到285,000張圖像。

圖3.訓(xùn)練集中單個圖像的圖像增強(qiáng)摘要。
05.建模與訓(xùn)練
基準(zhǔn)模型
為了了解自適應(yīng)的優(yōu)勢,我們首先在原始BreakHist數(shù)據(jù)集上訓(xùn)練了CNN模型,并在ICIAR數(shù)據(jù)集上對該模型進(jìn)行了測試。此初始模型使我們能夠了解模型應(yīng)用于其他領(lǐng)域時的準(zhǔn)確性,而無需進(jìn)行設(shè)計考慮。
如前所述,BreakHist數(shù)據(jù)集包含大約8,000張圖像。每個圖像都從其原始尺寸縮小到224x224正方形圖像。因此,CNN的輸入是所有224x224像素的RGB值。ResNet34模型架構(gòu)經(jīng)過十個階段的培訓(xùn);并記錄了從原始BreakHist數(shù)據(jù)集中提取的驗(yàn)證集上模型的準(zhǔn)確性。為了確定模型的準(zhǔn)確性是否可以延續(xù)到另一個領(lǐng)域,在ICIAR數(shù)據(jù)集中的400張圖像上對模型進(jìn)行了測試。
方法1
為了提高我們在第二個領(lǐng)域中檢測癌癥的能力,我們使用了顏色歸一化技術(shù)和旋轉(zhuǎn)功能來增強(qiáng)BreakHist數(shù)據(jù)。處理完所有這些數(shù)據(jù)后,我們獲得了約285,000張圖像。有了這么多圖像,運(yùn)行一個歷時就花費(fèi)了七個多小時。為了找到一種在計算上更可行的解決方案,我們將訓(xùn)練數(shù)據(jù)降采樣為25,000張圖像的平衡集。
新的CNN接受了25,000張?jiān)鰪?qiáng)圖像的培訓(xùn)。所有其他模型參數(shù),例如ResNet34架構(gòu)和時期數(shù),都保持與以前相同。確定了該模型在驗(yàn)證集上的準(zhǔn)確性。然后,在ICIAR數(shù)據(jù)集上測試了該模型,以確定增強(qiáng)后的圖像是否提高了我們在不同領(lǐng)域中檢測癌癥的能力。
方法2
為了提高模型準(zhǔn)確性并進(jìn)一步探索領(lǐng)域適應(yīng)性,以與BreakHist訓(xùn)練集相同的方式對ICIAR測試集進(jìn)行了預(yù)處理。對測試集中的每個圖像進(jìn)行色彩增強(qiáng),以產(chǎn)生原始圖像的九種變體。這9個變體通過了CNN模型,并對其輸出進(jìn)行了多數(shù)表決,以確定原始圖像的預(yù)測標(biāo)簽。然后通過將多數(shù)投票標(biāo)簽與真實(shí)標(biāo)簽進(jìn)行比較來確定模型的準(zhǔn)確性。
06.結(jié)果
基準(zhǔn)模型
測試的第一個模型是我們的基準(zhǔn)模型,它使我們能夠量化域自適應(yīng)的優(yōu)勢。在包含來自與訓(xùn)練集相同來源的數(shù)據(jù)的驗(yàn)證集上對該模型進(jìn)行測試時,該模型達(dá)到了89.31%的準(zhǔn)確性。這表明該模型在用于培訓(xùn)的同一領(lǐng)域中使用時成功診斷了癌癥。但是,隨后對該模型進(jìn)行了不同領(lǐng)域的數(shù)據(jù)測試,僅產(chǎn)生了45%的準(zhǔn)確性。該準(zhǔn)確性比隨機(jī)猜測差,并且表明必須考慮設(shè)計因素才能生成可在多種醫(yī)療保健環(huán)境中使用的模型。這些不良結(jié)果的可能解釋包括掃描儀和染色技術(shù)的差異。此測試的混淆矩陣如圖4所示。該模型似乎沒有高估任何癌癥。

圖4:未增強(qiáng)/預(yù)處理的結(jié)果
方法1
先前的研究和期刊出版物已經(jīng)表明,域適應(yīng)可以提高乳腺癌分類器的準(zhǔn)確性。為了驗(yàn)證該想法,我們在增強(qiáng)圖像上訓(xùn)練了一個新模型,以使該模型對顏色和方向的變化更加魯棒。對來自不同域的數(shù)據(jù)進(jìn)行模型測試時,準(zhǔn)確性為55.25%。盡管此域中的性能仍然明顯小于原始域中的性能,但它確實(shí)證明了域自適應(yīng)可以對基線模型進(jìn)行一些改進(jìn)。此外,我們可以觀察到模型預(yù)測的巨大變化?;€模型傾向于高估沒有癌癥。但是,這種新模型存在相反的問題,并且高估了癌癥。該模型的混淆矩陣如圖5所示。

圖5.方法1的測試結(jié)果
方法2
為了使訓(xùn)練域和測試域更加相似,對測試圖像進(jìn)行了預(yù)處理,并對訓(xùn)練集使用了相同的增強(qiáng)方法。然后,將增強(qiáng)的測試圖像通過方法1的CNN模型傳遞。不幸的是,在這種方法下,模型精度降低到53.75%。該模型的混淆矩陣如圖6所示。

圖6.方法2的測試結(jié)果
07.未來工作
該項(xiàng)目的目的是了解醫(yī)療領(lǐng)域中算法的域適應(yīng)帶來的挑戰(zhàn)。先前的研究表明,深度學(xué)習(xí)模型可以有效地緩解醫(yī)師緩慢而單調(diào)的工作,但在實(shí)際應(yīng)用中必須經(jīng)過充分的培訓(xùn)和測試。從我們的模型可以看出,驗(yàn)證準(zhǔn)確度(最少的預(yù)處理/擴(kuò)充)為89%,但在不同的領(lǐng)域中使用時,很快下降到了45%。這凸顯了域適應(yīng)的挑戰(zhàn)。一旦我們考慮到了領(lǐng)域變化而進(jìn)行了設(shè)計考慮,我們模型的測試準(zhǔn)確性就提高到了55.25%。這表明,通過更多的數(shù)據(jù),準(zhǔn)備工作和培訓(xùn),我們可以提高模型的準(zhǔn)確性。
但是,在將該模型用于診斷癌癥之前,有必要進(jìn)行進(jìn)一步的改進(jìn)。由于項(xiàng)目的限制,我們將訓(xùn)練集從285,000張圖像減少到25,000張圖像。此外,每個圖像的大小均縮小到224x224像素。這些修改可能會限制我們模型的性能,尤其是在此域中,因?yàn)樯A看起來與人眼非常相似,并且縮小尺寸可能導(dǎo)致過多的信息丟失,尤其是在數(shù)據(jù)集之間。未來的工作應(yīng)該探索使用更多的可用數(shù)據(jù),并且在尋找精細(xì)細(xì)節(jié)時,關(guān)于顏色排列和大量相同顏色如何影響模型和各種類型的CNN濾鏡,可以做更多的研究。此分析的另一個局限性是我們無法解釋模型錯誤的可能原因,因?yàn)榻M織學(xué)切片的解釋需要一定程度的主題專業(yè)知識。對于更大范圍的解釋,讓病理學(xué)家識別潛在趨勢并提供見解會有所幫助。
也可以使用其他方法來潛在地提高模型的準(zhǔn)確性。例如,可以對來自多個域的數(shù)據(jù)進(jìn)行訓(xùn)練。我們希望該模型能夠展示出更高的性能,因?yàn)檫@將減輕對特定來源特有模式的過度擬合。對于乳腺癌,這必須由醫(yī)院提供,并且由于HIPAA代碼的緣故,通常無法免費(fèi)獲得。
該項(xiàng)目證明了CNN模型可能非常脆弱,領(lǐng)域適應(yīng)性至關(guān)重要,并強(qiáng)調(diào)了魯棒性的需求,尤其是在醫(yī)療領(lǐng)域,決策可能會對患者的生活產(chǎn)生重大影響。我們希望將來可以改進(jìn)此模型,以提高乳腺癌診斷的準(zhǔn)確性并為癌癥患者提供更好的結(jié)果。
資源:
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

