阿里醫(yī)療NLP實(shí)踐與思考

來源:DataFunTalk 本文約8000字,建議閱讀10+分鐘 本文將從數(shù)據(jù)、算法、知識(shí)3個(gè)層面帶來阿里在醫(yī)療NLP領(lǐng)域的工作、遇到的問題以及相應(yīng)的思考。

醫(yī)學(xué)影像(國(guó)內(nèi)較為成功的醫(yī)療AI公司基本都是醫(yī)學(xué)影像方向); 文本信息抽取和疾病預(yù)測(cè)(我們今天分享的重點(diǎn)); 病患語(yǔ)音識(shí)別和機(jī)器翻譯(三甲醫(yī)院醫(yī)生用話筒講話,然后ASR語(yǔ)音識(shí)別轉(zhuǎn)錄成電子病歷的內(nèi)容,通常用到RNN或Seq2Seq的技術(shù)實(shí)現(xiàn)); 體征監(jiān)測(cè)和疾病風(fēng)險(xiǎn)評(píng)估(應(yīng)用場(chǎng)景包括慢病評(píng)估,健康管理等); 新藥研發(fā)(新冠疫情之后逐漸興起,目前該領(lǐng)域較為火爆) 手術(shù)機(jī)器人(交叉學(xué)科,一般會(huì)涉及到增強(qiáng)學(xué)習(xí)技術(shù))。

阿里云:面向B端,主要服務(wù)于公衛(wèi)領(lǐng)域如醫(yī)院、衛(wèi)健委等智慧醫(yī)療的應(yīng)用場(chǎng)景。 阿里健康:可分為兩部分,包括電商售藥和互聯(lián)網(wǎng)在線問診,其中線上問診涉及到的自動(dòng)問答技術(shù)與NLP強(qiáng)相關(guān)。 螞蟻保險(xiǎn):在智能理賠過程中,患者上傳病歷或收據(jù),經(jīng)OCR識(shí)別、文本信息抽取后被用于服務(wù)核保核賠預(yù)測(cè)模型。 夸克瀏覽器:面向醫(yī)療的垂直搜索。 達(dá)摩院:兩個(gè)團(tuán)隊(duì)在做醫(yī)療AI的業(yè)務(wù)。①NLP團(tuán)隊(duì):主要負(fù)責(zé)NLP原子技術(shù)能力,服務(wù)于阿里集團(tuán)內(nèi)的一些業(yè)務(wù)方、以及阿里云的生態(tài)合作伙伴。②華先勝博士所負(fù)責(zé)的城市大腦團(tuán)隊(duì):主要負(fù)責(zé)醫(yī)學(xué)影像,根據(jù)影像圖片做輔助診療。 天池:天池大賽的定位是針對(duì)人工智能技術(shù)尚未成熟的行業(yè),先通過來源于真實(shí)場(chǎng)景的數(shù)據(jù)集把問題提出來,然后征募選手來做比賽方案,相當(dāng)于做一個(gè)先期的技術(shù)驗(yàn)證。天池開放了很多行業(yè)稀缺的數(shù)據(jù)集,尤其是醫(yī)療行業(yè)。
電子病歷數(shù)據(jù):是講者處理較多的數(shù)據(jù),特點(diǎn)是數(shù)據(jù)的非標(biāo)準(zhǔn)化和多樣性。 藥品說明書,檢查報(bào)告單和體檢報(bào)告:這3類數(shù)據(jù)比較規(guī)范。 在線問診,論壇問答:數(shù)據(jù)質(zhì)量較差,其特點(diǎn)是口語(yǔ)多,噪音大?;颊呔驮\過程中涉及較多不相關(guān)信息,醫(yī)生的工作主要負(fù)責(zé)識(shí)別、總結(jié)有效信息,然后我們?cè)賾?yīng)用NLP去做后續(xù)的分析處理。 醫(yī)學(xué)教科書、科研文獻(xiàn):數(shù)據(jù)比較規(guī)范。我們應(yīng)用NLP技術(shù)把文本類內(nèi)容解析出來。

一致性矛盾:患者一開始疼痛的部位是“右”上腹,后來經(jīng)過治療“左”上腹疼痛緩解。我們的產(chǎn)品準(zhǔn)確的捕捉到患者初始癥狀出現(xiàn)的部位以及治療改善的部位不一致。 診斷依據(jù)不充分:住院病歷中的初步診斷寫的是膽囊結(jié)石,但是下一步診療計(jì)劃里卻出現(xiàn)了腹部B超,可見該患者尚不能明確診斷為膽囊結(jié)石。如果臨床高度懷疑膽囊結(jié)石,初步診斷可寫“腹痛待查,膽囊結(jié)石?”,而不能只寫“膽囊結(jié)石”。我們的產(chǎn)品準(zhǔn)確的捕捉了診斷依據(jù)的不充分。

實(shí)體屬性:如當(dāng)前疾病是現(xiàn)病史(現(xiàn)在發(fā)生的)還是既往史(過去就有的),癥狀是陽(yáng)性(肯定)還是陰性(否定)。傳統(tǒng)的方法是使用關(guān)系抽取模型,但我們的產(chǎn)品為了追求效率沒有用關(guān)系抽取的方式,而是用了下圖中的模型。 嵌套:如圖中的癥狀中就包含了身體部位,醫(yī)學(xué)文本中有大量嵌套類型的實(shí)體存在。 非連續(xù):在藥品說明書中大量存在。


② 基于嵌套實(shí)體構(gòu)建模型:
我們針對(duì)醫(yī)學(xué)嵌套實(shí)體的特點(diǎn)開展了很多研究的工作,上圖是我們發(fā)表在AAAI2021的一個(gè)工作。我們將嵌套 NER識(shí)別問題看作是經(jīng)典的句法成分分析(constituent parsing)問題, 根據(jù)嵌套實(shí)體的特點(diǎn)將其視為部分觀察(partial observed)到的樹,進(jìn)行選區(qū)解析,并使用部分觀察到的 TreeCRF 對(duì)其進(jìn)行建模。具體來說,將所有標(biāo)記的實(shí)體span視為選區(qū)樹中的觀察節(jié)點(diǎn)(黑點(diǎn)),將其他跨度視為潛在節(jié)點(diǎn)(白點(diǎn))。該模型其中的一個(gè)優(yōu)點(diǎn)是,實(shí)現(xiàn)了一種統(tǒng)一的方式來聯(lián)合建模觀察到的和潛在的節(jié)點(diǎn)。而另外一個(gè)優(yōu)點(diǎn)是,在進(jìn)行選區(qū)分析時(shí),通過Batchfied將模型復(fù)雜度從O(n^3)降為O(nⅹlogn)。


是PTLM應(yīng)用的另一個(gè)場(chǎng)景。例如盡管開塞露的藥品說明書的適應(yīng)癥只有便秘,但醫(yī)生給診斷是腸梗阻的患者使用開塞露也是合理的。這是因?yàn)殡m然醫(yī)生的診斷與藥品說明書字面上不match,但腸梗阻實(shí)際上會(huì)導(dǎo)致便秘,所以經(jīng)過推理醫(yī)生用藥是合理的,而這個(gè)推理過程用到的就是醫(yī)學(xué)知識(shí)。



CBLUE地址:
https://tianchi.aliyun.com/specials/promotion/2021chinesemedicalnlpleaderboardchallenge

編輯:黃繼彥
校對(duì):汪雨晴
評(píng)論
圖片
表情
