1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        阿里醫(yī)療NLP實(shí)踐與思考

        共 9466字,需瀏覽 19分鐘

         ·

        2021-09-22 00:41

        來源:DataFunTalk

        本文約8000字,建議閱讀10+分鐘 
        本文將從數(shù)據(jù)、算法、知識(shí)3個(gè)層面帶來阿里在醫(yī)療NLP領(lǐng)域的工作、遇到的問題以及相應(yīng)的思考。



        [ 導(dǎo)讀 ]NLP技術(shù)在智慧醫(yī)療領(lǐng)域有著越來越多的應(yīng)用場(chǎng)景,本文將從數(shù)據(jù)、算法、知識(shí)3個(gè)層面帶來阿里在醫(yī)療NLP領(lǐng)域的工作、遇到的問題以及相應(yīng)的思考。主要內(nèi)容包括:① 阿里醫(yī)療業(yè)務(wù)介紹;② NLP賦能醫(yī)療行業(yè);③ 醫(yī)療+NLP(醫(yī)療NLP本質(zhì)是什么);④ 中文醫(yī)療信息處理標(biāo)準(zhǔn)數(shù)據(jù)集。

        01 阿里醫(yī)療業(yè)務(wù)介紹


        醫(yī)療AI(即深度學(xué)習(xí)技術(shù))在醫(yī)療領(lǐng)域的應(yīng)用場(chǎng)景包括:

        • 醫(yī)學(xué)影像(國(guó)內(nèi)較為成功的醫(yī)療AI公司基本都是醫(yī)學(xué)影像方向);
        • 文本信息抽取和疾病預(yù)測(cè)(我們今天分享的重點(diǎn));
        • 病患語(yǔ)音識(shí)別和機(jī)器翻譯(三甲醫(yī)院醫(yī)生用話筒講話,然后ASR語(yǔ)音識(shí)別轉(zhuǎn)錄成電子病歷的內(nèi)容,通常用到RNN或Seq2Seq的技術(shù)實(shí)現(xiàn));
        • 體征監(jiān)測(cè)和疾病風(fēng)險(xiǎn)評(píng)估(應(yīng)用場(chǎng)景包括慢病評(píng)估,健康管理等);
        • 新藥研發(fā)(新冠疫情之后逐漸興起,目前該領(lǐng)域較為火爆)
        • 手術(shù)機(jī)器人(交叉學(xué)科,一般會(huì)涉及到增強(qiáng)學(xué)習(xí)技術(shù))。


        阿里巴巴在醫(yī)療健康賽道有較多布局:

        • 阿里云:面向B端,主要服務(wù)于公衛(wèi)領(lǐng)域如醫(yī)院、衛(wèi)健委等智慧醫(yī)療的應(yīng)用場(chǎng)景。
        • 阿里健康:可分為兩部分,包括電商售藥和互聯(lián)網(wǎng)在線問診,其中線上問診涉及到的自動(dòng)問答技術(shù)與NLP強(qiáng)相關(guān)。
        • 螞蟻保險(xiǎn):在智能理賠過程中,患者上傳病歷或收據(jù),經(jīng)OCR識(shí)別、文本信息抽取后被用于服務(wù)核保核賠預(yù)測(cè)模型。
        • 夸克瀏覽器:面向醫(yī)療的垂直搜索。
        • 達(dá)摩院:兩個(gè)團(tuán)隊(duì)在做醫(yī)療AI的業(yè)務(wù)。①NLP團(tuán)隊(duì):主要負(fù)責(zé)NLP原子技術(shù)能力,服務(wù)于阿里集團(tuán)內(nèi)的一些業(yè)務(wù)方、以及阿里云的生態(tài)合作伙伴。②華先勝博士所負(fù)責(zé)的城市大腦團(tuán)隊(duì):主要負(fù)責(zé)醫(yī)學(xué)影像,根據(jù)影像圖片做輔助診療。
        • 天池:天池大賽的定位是針對(duì)人工智能技術(shù)尚未成熟的行業(yè),先通過來源于真實(shí)場(chǎng)景的數(shù)據(jù)集把問題提出來,然后征募選手來做比賽方案,相當(dāng)于做一個(gè)先期的技術(shù)驗(yàn)證。天池開放了很多行業(yè)稀缺的數(shù)據(jù)集,尤其是醫(yī)療行業(yè)。

        講者今天的分享主要介紹了在達(dá)摩院和在阿里云天池團(tuán)隊(duì)所做的醫(yī)療NLP工作。


        02 NLP賦能醫(yī)療行業(yè)


        NLP處理醫(yī)療行業(yè)數(shù)據(jù)時(shí),首先要分析數(shù)據(jù)的特點(diǎn),其次選擇適合這批數(shù)據(jù)的模型,或者做一些模型改良。

        醫(yī)療數(shù)據(jù)包括:

        • 電子病歷數(shù)據(jù):是講者處理較多的數(shù)據(jù),特點(diǎn)是數(shù)據(jù)的非標(biāo)準(zhǔn)化和多樣性。
        • 藥品說明書,檢查報(bào)告單和體檢報(bào)告:這3類數(shù)據(jù)比較規(guī)范。
        • 在線問診,論壇問答:數(shù)據(jù)質(zhì)量較差,其特點(diǎn)是口語(yǔ)多,噪音大?;颊呔驮\過程中涉及較多不相關(guān)信息,醫(yī)生的工作主要負(fù)責(zé)識(shí)別、總結(jié)有效信息,然后我們?cè)賾?yīng)用NLP去做后續(xù)的分析處理。
        • 醫(yī)學(xué)教科書、科研文獻(xiàn):數(shù)據(jù)比較規(guī)范。我們應(yīng)用NLP技術(shù)把文本類內(nèi)容解析出來。


        電子病歷數(shù)據(jù)的主要應(yīng)用場(chǎng)景是電子病歷質(zhì)檢。電子病歷質(zhì)檢指的是根據(jù)各個(gè)省市衛(wèi)建委發(fā)布的電子病歷書寫規(guī)范對(duì)醫(yī)生書寫的電子病歷進(jìn)行質(zhì)檢,其中浙江省的電子病歷書寫規(guī)范比較領(lǐng)先,大概有240多項(xiàng)檢測(cè)點(diǎn)。傳統(tǒng)的做法是醫(yī)院設(shè)置專門的質(zhì)檢科,由質(zhì)檢科醫(yī)生將每份病歷按照質(zhì)檢點(diǎn)進(jìn)行人工檢查,因此存在效率低、查全率低的痛點(diǎn)。阿里云智能電子病歷質(zhì)檢就是幫助醫(yī)院質(zhì)檢科解決這個(gè)痛點(diǎn)的產(chǎn)品。舉個(gè)例子,在上圖這份病歷中我們檢測(cè)到兩個(gè)不合規(guī)的點(diǎn)。

        • 一致性矛盾:患者一開始疼痛的部位是“右”上腹,后來經(jīng)過治療“左”上腹疼痛緩解。我們的產(chǎn)品準(zhǔn)確的捕捉到患者初始癥狀出現(xiàn)的部位以及治療改善的部位不一致。
        • 診斷依據(jù)不充分:住院病歷中的初步診斷寫的是膽囊結(jié)石,但是下一步診療計(jì)劃里卻出現(xiàn)了腹部B超,可見該患者尚不能明確診斷為膽囊結(jié)石。如果臨床高度懷疑膽囊結(jié)石,初步診斷可寫“腹痛待查,膽囊結(jié)石?”,而不能只寫“膽囊結(jié)石”。我們的產(chǎn)品準(zhǔn)確的捕捉了診斷依據(jù)的不充分。

        電子病歷是一種半結(jié)構(gòu)化的文本,章節(jié)標(biāo)題可以認(rèn)為是結(jié)構(gòu)化的信息,而醫(yī)生書寫的文字是無結(jié)構(gòu)化的信息。針對(duì)第一個(gè)檢測(cè)點(diǎn),我們需要運(yùn)用NLP對(duì)這種半結(jié)構(gòu)化的信息進(jìn)行文本結(jié)構(gòu)化,同時(shí)對(duì)術(shù)語(yǔ)進(jìn)行歸一化。而針對(duì)第二個(gè)檢測(cè)點(diǎn),我們需要構(gòu)建醫(yī)學(xué)知識(shí)圖譜。

        阿里云智能電子病歷質(zhì)檢的核心模塊兒是醫(yī)療實(shí)體、屬性的聯(lián)合抽取,醫(yī)學(xué)文本的實(shí)體識(shí)別有如下3種特點(diǎn):

        • 實(shí)體屬性:如當(dāng)前疾病是現(xiàn)病史(現(xiàn)在發(fā)生的)還是既往史(過去就有的),癥狀是陽(yáng)性(肯定)還是陰性(否定)。傳統(tǒng)的方法是使用關(guān)系抽取模型,但我們的產(chǎn)品為了追求效率沒有用關(guān)系抽取的方式,而是用了下圖中的模型。
        • 嵌套:如圖中的癥狀中就包含了身體部位,醫(yī)學(xué)文本中有大量嵌套類型的實(shí)體存在。
        • 非連續(xù):在藥品說明書中大量存在。

        攻堅(jiān)上述產(chǎn)品核心內(nèi)容過程中,我們的工作成果有以下4個(gè):

        ① 基于實(shí)體屬性構(gòu)建模型:

        我們選擇了一個(gè)非常樸素自然的idea,即span-based模型(邱錫鵬老師團(tuán)隊(duì)最近推出的unified model可以把所有的情況cover掉,感興趣的可以去了解一下)。該模型采用BERT作為語(yǔ)義建模模型,取一個(gè)start位置,再取一個(gè)end位置去形成一個(gè)span,如圖中W1-W2或W3-W6就是1個(gè)span。我們通過枚舉所有的span去學(xué)習(xí)span的表示,模型的特點(diǎn)是可以天然的解決嵌套實(shí)體類型,接下來再對(duì)span表示去做分類,采用MLP或其他的分類方法進(jìn)行實(shí)體類別判斷。

        屬性判斷是在此基礎(chǔ)上再多一個(gè)分支判斷,這樣一個(gè)非常簡(jiǎn)單的聯(lián)合學(xué)習(xí)的框架就是span-based backbone模型,其最下面一層是embedding 層(線上的話我們會(huì)應(yīng)用預(yù)訓(xùn)練模型),上面一層是文本表示層,再上面一層是分類層。這里先拋出了一個(gè)問題,枚舉span會(huì)導(dǎo)致模型的復(fù)雜度為O(N^2),與傳統(tǒng)模型相比其復(fù)雜度較高,那么如果想將其用于線上的話,應(yīng)該怎么處理?


        講者的答案是要對(duì)這個(gè)模型做改良(2020年講者將其工作成果發(fā)表在AAAI上)。如上圖所示,改良span-based模型的motivation是增強(qiáng)span的表示。這里主要借鑒了MRC的思路,即把start及end形成一個(gè)span的概率設(shè)計(jì)進(jìn)來,我們通過計(jì)算“start的概率”ⅹ“end的概率”ⅹ“span表示的概率”進(jìn)行最終的判斷。

        這個(gè)模型的benefit是在推理階段進(jìn)行加速,通過為“start的概率”和“end的概率”設(shè)定閾值(高于閾值將被預(yù)測(cè),而低于閾值會(huì)被剝離掉),將模型復(fù)雜度由O(n^2)降為O(mⅹN)。m表示句子里的實(shí)體個(gè)數(shù),N表示句子token的長(zhǎng)度,這樣在線上應(yīng)用的話,效率還是非常高的。圖中的表格是AAAI20的實(shí)驗(yàn)結(jié)果,之后我們又不斷探索其他模型,在某些數(shù)據(jù)集上結(jié)果已經(jīng)超過了這個(gè)實(shí)驗(yàn)結(jié)果。


        ② 基于嵌套實(shí)體構(gòu)建模型:


        我們針對(duì)醫(yī)學(xué)嵌套實(shí)體的特點(diǎn)開展了很多研究的工作,上圖是我們發(fā)表在AAAI2021的一個(gè)工作。我們將嵌套 NER識(shí)別問題看作是經(jīng)典的句法成分分析(constituent parsing)問題, 根據(jù)嵌套實(shí)體的特點(diǎn)將其視為部分觀察(partial observed)到的樹,進(jìn)行選區(qū)解析,并使用部分觀察到的 TreeCRF 對(duì)其進(jìn)行建模。具體來說,將所有標(biāo)記的實(shí)體span視為選區(qū)樹中的觀察節(jié)點(diǎn)(黑點(diǎn)),將其他跨度視為潛在節(jié)點(diǎn)(白點(diǎn))。該模型其中的一個(gè)優(yōu)點(diǎn)是,實(shí)現(xiàn)了一種統(tǒng)一的方式來聯(lián)合建模觀察到的和潛在的節(jié)點(diǎn)。而另外一個(gè)優(yōu)點(diǎn)是,在進(jìn)行選區(qū)分析時(shí),通過Batchfied將模型復(fù)雜度從O(n^3)降為O(nⅹlogn)。



        ③ 醫(yī)學(xué)術(shù)語(yǔ)歸一化:

        是醫(yī)療行業(yè)領(lǐng)域里面非常重要、非常核心的任務(wù),這是因?yàn)橥环N診斷、手術(shù)、藥品、檢查、化驗(yàn)、癥狀可能有多達(dá)幾十到上百種不同的寫法。比如,診斷“上感”,也可以稱為“上呼吸道感染”,ICD編碼是J06.903。診斷“膽囊結(jié)石”=”結(jié)石性膽囊炎”=“膽囊結(jié)石伴膽囊炎” ,ICD編碼是K80.002。藥品“氟哌酸”=“諾氟沙星”,國(guó)藥準(zhǔn)字H10910059。能把這個(gè)問題解決好,是一個(gè)非常有挑戰(zhàn)的工作。

        為了實(shí)現(xiàn)醫(yī)學(xué)術(shù)語(yǔ)歸一化,我們分兩步進(jìn)行。如上圖所示,第一步Retrieval,從詞典里面通過BM25算法篩選候選詞;第二步ReRank,通過預(yù)訓(xùn)練語(yǔ)言模型(PTLM,指的是Pre-trained Language Model)如Bert進(jìn)行排序,其中mention就是要?dú)w一化的原詞,而concept則是我們這邊篩出來一些候選詞,然后進(jìn)行打分,分?jǐn)?shù)比較高的將作為備選方案。


        醫(yī)學(xué)術(shù)語(yǔ)歸一化的技術(shù)在我們的業(yè)務(wù)場(chǎng)景里面用的還是比較多的。第一種是跟大家生活息息相關(guān)的醫(yī)?;蛏瘫5暮怂?,其主要根據(jù)ICD編碼進(jìn)行DRGs付費(fèi)及核算。第二種是數(shù)據(jù)治理,例如不同醫(yī)院間的數(shù)據(jù)互聯(lián)互通。第三種是醫(yī)學(xué)科研統(tǒng)計(jì),如醫(yī)生要篩選“2型糖尿病”的患者來做隊(duì)列,“II型糖尿病”也要被識(shí)別成同一個(gè)術(shù)語(yǔ)。


        ④ 合理用藥判斷:

        是PTLM應(yīng)用的另一個(gè)場(chǎng)景。例如盡管開塞露的藥品說明書的適應(yīng)癥只有便秘,但醫(yī)生給診斷是腸梗阻的患者使用開塞露也是合理的。這是因?yàn)殡m然醫(yī)生的診斷與藥品說明書字面上不match,但腸梗阻實(shí)際上會(huì)導(dǎo)致便秘,所以經(jīng)過推理醫(yī)生用藥是合理的,而這個(gè)推理過程用到的就是醫(yī)學(xué)知識(shí)。

        另外合理用藥還涉及到用法及劑量的合理,如診斷為“成人不能進(jìn)食”的患者需要鼻飼給藥,兒童用藥需要根據(jù)體重計(jì)算劑量,還有藥物需要首劑負(fù)荷用藥。因此我們現(xiàn)在的工作是將說明書等原始文本,用文本生成的方法轉(zhuǎn)化成邏輯表達(dá)式(logic expression),如決策樹等。因?yàn)閷?shí)驗(yàn)結(jié)果目前在投稿階段,所以本文就先不展示模型了。此外講者提出一個(gè)問題,醫(yī)學(xué)知識(shí)圖譜是醫(yī)學(xué)知識(shí)最基礎(chǔ)的一種知識(shí)表示方式,而一個(gè)全面和專業(yè)的醫(yī)學(xué)知識(shí)庫(kù)需要融合多種知識(shí)表示方式,那么如何用一個(gè)新的結(jié)構(gòu)來表示醫(yī)學(xué)知識(shí)庫(kù)呢?


        03 醫(yī)療+NLP(醫(yī)療NLP本質(zhì)是什么)



        醫(yī)療NLP的本質(zhì)是醫(yī)療,如果把NLP比做錘子的話,那么醫(yī)療領(lǐng)域相關(guān)問題就是釘子,我們要做的就是拿著錘子找釘子。我們前期做的一些嘗試工作就靠近醫(yī)學(xué)本質(zhì)(偏臨床一些),包括醫(yī)學(xué)臨床試驗(yàn)結(jié)果預(yù)測(cè)模型的建立以及融入知識(shí)的醫(yī)學(xué)預(yù)訓(xùn)練語(yǔ)言模型的建立。


        醫(yī)學(xué)臨床試驗(yàn)結(jié)果預(yù)測(cè)模型的建立:

        受疫情的啟發(fā),我們做了一個(gè)比較有意義的工作,即研發(fā)醫(yī)學(xué)臨床試驗(yàn)結(jié)果預(yù)測(cè)模型。臨床試驗(yàn)是循證醫(yī)學(xué)的一個(gè)重要組成部分,主要目的是驗(yàn)證某種干預(yù)手段(手術(shù)、化療、放療或藥物)是否有效。臨床試驗(yàn)首先需要召集很多志愿者或患者,然后做對(duì)照試驗(yàn),最后統(tǒng)計(jì)得出結(jié)果,整個(gè)試驗(yàn)過程比較漫長(zhǎng)。設(shè)計(jì)有缺陷或者難以成功的臨床試驗(yàn)占用了寶貴的病人資源及珍貴的時(shí)間,可能會(huì)使亟待實(shí)施的臨床試驗(yàn)因招募不到足夠的患者或時(shí)間的緊缺而被迫終止。

        所以,研究者如果在臨床試驗(yàn)方案設(shè)計(jì)階段就就預(yù)測(cè)出臨床試驗(yàn)的結(jié)果,并優(yōu)先進(jìn)行成功概率較高的臨床試驗(yàn)是非常有意義的工作。舉個(gè)例子,美國(guó)吉利德科學(xué)公司研發(fā)的針對(duì)MERS和SARS的藥品瑞德西韋曾被科學(xué)家們認(rèn)為是對(duì)抗新冠病毒最有希望的藥物,這是因?yàn)镸ERS、SARS和新冠病毒同屬冠狀病毒科且在埃博拉(另一種冠狀病毒)感染患者的緊急治療中也積累了有效的臨床結(jié)果,這為新冠疫情篩選新藥提供了方向??茖W(xué)家的這種思考是根據(jù)既往的研究經(jīng)驗(yàn)和醫(yī)學(xué)知識(shí)得出的,這使得在臨床試驗(yàn)開展前評(píng)估臨床試驗(yàn)所研究問題的可行性成為可能。

        NLP可以基于科學(xué)家們的研究經(jīng)驗(yàn)以及現(xiàn)有的醫(yī)學(xué)知識(shí)來輔助地預(yù)測(cè)臨床試驗(yàn)的結(jié)果,從而大大提高臨床試驗(yàn)實(shí)施的效率,由此我們抽象出一個(gè)問題,即BPICO。B是Background(研究背景,如研究經(jīng)驗(yàn)、醫(yī)學(xué)知識(shí)),P是Population(或者Patient,代表試驗(yàn)組人群,如新冠患者),I是Intervention(干預(yù)手段,如瑞德西韋),C是Comparison(對(duì)照組,如安慰劑),O是Outcome(需要觀測(cè)的試驗(yàn)指標(biāo),如血氧飽和度)??偟膩碚f,就是首先給出background,然后給定患者,最后比較治療方案相對(duì)于對(duì)照方案的觀測(cè)指標(biāo)是上升/下降/不變,上升代表有效,下降或不變代表無效。

        我們的工作是把上述問題BPICO轉(zhuǎn)化成語(yǔ)言模型,即基于大規(guī)模隱式臨床證據(jù)預(yù)訓(xùn)練的模型EBM-Net(隱式證據(jù)指的是含有“than”,“greater”,“l(fā)ower”的試驗(yàn)結(jié)果),如下圖所示。Pubmed等數(shù)據(jù)庫(kù)的文獻(xiàn)里面會(huì)有臨床試驗(yàn),我們把其中有對(duì)比關(guān)系的句子(比如說含有“greater”的句子)抽取出來,并把中間的比較詞mask掉,向構(gòu)建好的模型輸入給定的兩組數(shù)據(jù)(一個(gè)是對(duì)照組,一個(gè)是試驗(yàn)組),然后推斷它們之間被mask的關(guān)系。

        接下來,我們進(jìn)一步改進(jìn)了上述模型。我們對(duì)調(diào)了偏序關(guān)系,lower變成greater,greater變成lower,即先用正序的隱式證據(jù)預(yù)測(cè)其結(jié)果,再用反序的隱式證據(jù)預(yù)測(cè)相反的結(jié)果。這樣一來,加入反序的例子將有利于模型學(xué)到治療組和對(duì)照組之間的比較,而不是語(yǔ)言模型里的共現(xiàn)關(guān)系,使得模型更健壯。

        總得來說,當(dāng)我們固定了想要研究的疾病人群(P)和觀察指標(biāo)(O)后,可以固定以現(xiàn)有的標(biāo)準(zhǔn)治療為對(duì)照(C),遍歷每種可能的新型治療方式(I)以及其相關(guān)的背景介紹(B),用模型預(yù)測(cè)其成功的概率,優(yōu)先選取所有可能的治療方式中成功概率高的做臨床試驗(yàn)。上述工作成果被EMNLP2020錄取,其實(shí)際的應(yīng)用場(chǎng)景可進(jìn)一步擴(kuò)展到新藥研發(fā)及老藥新用。


        融入知識(shí)的醫(yī)學(xué)訓(xùn)練語(yǔ)言模型的建立:

        區(qū)別于通用文本,醫(yī)學(xué)文本有獨(dú)特的術(shù)語(yǔ)和風(fēng)格;并且醫(yī)學(xué)領(lǐng)域中已經(jīng)構(gòu)建了含有大量醫(yī)學(xué)實(shí)體和知識(shí)?;谶@兩點(diǎn),該工作首先在英文領(lǐng)域里進(jìn)行了嘗試,提出了KeBioLM來增強(qiáng)醫(yī)學(xué)預(yù)訓(xùn)練模型。KeBioLM利用醫(yī)學(xué)論文數(shù)據(jù)庫(kù)PubMed作為訓(xùn)練語(yǔ)料,通過SciSpaCy將自由文本與UMLS知識(shí)圖譜中的醫(yī)學(xué)實(shí)體知識(shí)相結(jié)合。KeBioLM含有兩個(gè)Transformers層:第一個(gè)層用于從文本中提取醫(yī)學(xué)實(shí)體并學(xué)習(xí)實(shí)體表示;第二個(gè)層用于融合文本和實(shí)體的信息來增強(qiáng)文本表示,如圖所示。

        盡管上述模型在英文領(lǐng)域有效果,但在中文領(lǐng)域里效果反而下降,主要原因可能是中文醫(yī)學(xué)知識(shí)庫(kù)未成體系,所以如何構(gòu)建中文醫(yī)學(xué)知識(shí)庫(kù)是需要進(jìn)一步探討的。


        04 中文醫(yī)療信息處理標(biāo)準(zhǔn)數(shù)據(jù)集


        在中文醫(yī)療信息處理標(biāo)準(zhǔn)數(shù)據(jù)集相關(guān)工作中,講者簡(jiǎn)要介紹了3個(gè)方面。


        醫(yī)療行業(yè)缺乏標(biāo)準(zhǔn)數(shù)據(jù)集,目前公開的中文醫(yī)療數(shù)據(jù)集主要有3個(gè)來源,即CCKS/CHIP會(huì)議組織的學(xué)術(shù)評(píng)測(cè)任務(wù), 競(jìng)賽類醫(yī)療數(shù)據(jù)集(如天池大賽)和部分醫(yī)學(xué)論文數(shù)據(jù)集。同時(shí),中文醫(yī)療NLP暫無多任務(wù)評(píng)測(cè)基準(zhǔn)榜單,業(yè)界已有的GLUE/SuperGLUE/CLUE(中文領(lǐng)域)以及BLURB(微軟開發(fā)的醫(yī)療榜單)均推動(dòng)了領(lǐng)域技術(shù)的快速發(fā)展。在此背景下,由天池平臺(tái)聯(lián)合中國(guó)中文信息學(xué)會(huì)醫(yī)療健康與生物信息處理專業(yè)委員會(huì)在合法開放共享的理念下發(fā)起了中文醫(yī)療信息處理挑戰(zhàn)榜CBLUE榜單(Chinese Biomedical Language Understanding Evaluation Benchmark),榜單任務(wù)包括醫(yī)學(xué)信息抽取、醫(yī)學(xué)問答、醫(yī)學(xué)文本分類和醫(yī)學(xué)術(shù)語(yǔ)歸一化等,目的是推動(dòng)中文醫(yī)學(xué)NLP技術(shù)和社區(qū)的發(fā)展。榜單上線后比較受關(guān)注,截止7月底,已收到400多組打榜申請(qǐng),并且150多隊(duì)伍成功提交了打榜結(jié)果,打榜隊(duì)伍涵蓋了產(chǎn)學(xué)研界的知名機(jī)構(gòu)。

        CBLUE地址:

        https://tianchi.aliyun.com/specials/promotion/2021chinesemedicalnlpleaderboardchallenge


        天池?cái)?shù)據(jù)集:

        天池平臺(tái)在舉辦天池大賽的同時(shí),我們也開放了很多數(shù)據(jù)集。天池?cái)?shù)據(jù)集的定位是做專業(yè)的科研數(shù)據(jù)集平臺(tái)。和競(jìng)品相比天池?cái)?shù)據(jù)集的特點(diǎn)是涵蓋了上百個(gè)行業(yè)稀缺數(shù)據(jù)集。部分行業(yè)如電商、金融、物流的數(shù)據(jù)集均來源于真實(shí)的脫敏過的阿里真實(shí)業(yè)務(wù)場(chǎng)景, 比如天池團(tuán)隊(duì)與這次會(huì)議主持人林俊旸老師就聯(lián)合開放了一個(gè)多模態(tài)理解與生成的評(píng)測(cè)榜單MUGE(Multimodal Understanding and Generation Evaluation Benchmark), 這些數(shù)據(jù)集/挑戰(zhàn)榜開放的目的是促進(jìn)相關(guān)領(lǐng)域技術(shù)的研究發(fā)展。

        MUGE地址:
        https://tianchi.aliyun.com/specials/promotion/mugemultimodalunderstandingandgenerationevaluation


        05 問答環(huán)節(jié)


        Q:醫(yī)療數(shù)據(jù)一般是在內(nèi)網(wǎng)文件當(dāng)中,達(dá)摩院是怎么解決數(shù)據(jù)的問題?

        A:首先醫(yī)療數(shù)據(jù)我們是拿不到的,雖然我們和醫(yī)院合作了很多模型,但數(shù)據(jù)的歸屬權(quán)屬于醫(yī)院,數(shù)據(jù)都是基于內(nèi)網(wǎng)去展開的。一般我們會(huì)找一些類似的語(yǔ)料(維基百科、論壇)來做模擬,也在嘗試一些保護(hù)數(shù)據(jù)安全的技術(shù)方案如聯(lián)邦學(xué)習(xí)來做模型改進(jìn)。

        Q:醫(yī)療NLP的標(biāo)注需要比較強(qiáng)的專業(yè)知識(shí),達(dá)摩院的標(biāo)注是如何開展的?

        A:我們跟天貓精靈團(tuán)隊(duì)合作,他們的標(biāo)注平臺(tái)對(duì)接了很多標(biāo)注專家,有醫(yī)學(xué)生、護(hù)士,還有一些真正的醫(yī)生,我們數(shù)據(jù)標(biāo)注基本還是以專家為主。算法人員也會(huì)參與到標(biāo)注里面去。舉個(gè)例子,醫(yī)生從專業(yè)知識(shí)角度來標(biāo)注的話,會(huì)將一個(gè)很長(zhǎng)的句子標(biāo)注成一個(gè)癥狀或者一個(gè)診斷,但對(duì)于模型來說其實(shí)非常不友好,所以我們進(jìn)行標(biāo)注的時(shí)候,一般都是算法人員和專家一塊來把關(guān)的。以保證標(biāo)注的準(zhǔn)確度和專業(yè)度,還要保證模型上線落地的效果。

        Q:CBLUE后續(xù)還會(huì)引入哪一些任務(wù)類型?

        A:CBLUE是我們和CHIP(China Health Information Procesing Conference)學(xué)會(huì)共建的。2.0版計(jì)劃在今年11月份推出。2.0會(huì)拓寬任務(wù)類型(如增加NLG類型任務(wù))和增加任務(wù)數(shù),大概會(huì)擴(kuò)展到15到16個(gè)評(píng)測(cè)任務(wù)。提到生成類數(shù)據(jù)集,在醫(yī)學(xué)領(lǐng)域里生成技術(shù)的應(yīng)用還是有的,但為什么生成技術(shù)這塊兒沒有太多標(biāo)準(zhǔn)化的數(shù)據(jù),原因主要還是在生成的評(píng)估指標(biāo)。雖然生成的是通順的,也符合語(yǔ)法邏輯的,但它其實(shí)不符合醫(yī)學(xué)常識(shí)的,后續(xù)需要醫(yī)學(xué)NLP社區(qū)來共同解決這個(gè)問題。

        Q:CBLUE存在標(biāo)注不全,從模型的角度上如何改進(jìn)?

        A:首先醫(yī)學(xué)領(lǐng)域的標(biāo)注是非常困難的,不同標(biāo)注專家對(duì)同一份標(biāo)注規(guī)范會(huì)有不同的理解,很難保證完美的一致性。

        CBLUE榜單在上線前,我們基本上是會(huì)檢查過一次的,除了把有些特別明顯的錯(cuò)誤挑出,還有把一些不太健康的語(yǔ)料,如來源于夸克搜素的語(yǔ)料(搜索是千奇百怪的)剔除掉。數(shù)據(jù)質(zhì)量是一個(gè)需要長(zhǎng)期優(yōu)化的問題。

        在榜單上線后,我們也收集打榜選手的反饋,比如大家覺得有一些漏標(biāo)的情況。我們也跟及時(shí)反饋給每個(gè)數(shù)據(jù)的提供單位,來保持緊密合作的關(guān)系。在2.0發(fā)布的時(shí)候,我們也會(huì)更新現(xiàn)有數(shù)據(jù)集中有缺陷的標(biāo)注。數(shù)據(jù)集質(zhì)量的提升是一個(gè)長(zhǎng)期的工作。

        CBLUE的上線,我們和CHIP學(xué)會(huì)做了非常多的努力,期待能結(jié)合社區(qū)的力量一起把CBLUE建設(shè)的更好。

        Q:CBLUE能否推進(jìn)開放一些脫敏的病歷數(shù)據(jù)集?

        A:國(guó)家的法律法規(guī)規(guī)定病歷數(shù)據(jù)屬于患者個(gè)人,醫(yī)院和醫(yī)生都沒有權(quán)利去使用這個(gè)數(shù)據(jù),所以直接開放脫敏病歷是不太可行的。

        Q:是否考慮做多模態(tài)的榜單?

        A:是有這個(gè)規(guī)劃的,但不會(huì)放到CBLUE榜單里面,而會(huì)新起一個(gè)榜單。

        Q:術(shù)語(yǔ)標(biāo)準(zhǔn)化怎么做?

        A:我們目前是在中文領(lǐng)域上去做術(shù)語(yǔ)歸一化的。它是一個(gè)框架。第一步的話就是粗排即檢索。我們有標(biāo)準(zhǔn)詞庫(kù),一般來說是ICD詞典。從詞典里選出TOP10或TOP20的候選詞。第二步做精排即rerank,mention就是歸一化的原詞,而concept是候選詞,每一個(gè)候選詞都會(huì)經(jīng)過Bert打分,按照置信度排序選出TOP3。

        Q:術(shù)語(yǔ)歸一化在做rerank的時(shí)候大概用了多少數(shù)據(jù)來做訓(xùn)練?

        A:每一種類型的話都不一樣。診斷方面是4,000多條診斷的數(shù)據(jù),而手術(shù)方面是參照CHIP數(shù)據(jù)集的標(biāo)注規(guī)范,我們自己標(biāo)注了近三萬(wàn)條。每一類術(shù)語(yǔ)歸一都分別訓(xùn)練單獨(dú)的模型。檢查化驗(yàn)這兩個(gè)是比較麻煩的,因?yàn)閲?guó)家沒有標(biāo)準(zhǔn)規(guī)范,一般來說電子病歷廠商(如東軟、衛(wèi)寧)是有一個(gè)標(biāo)準(zhǔn)庫(kù)的,我們第一步就是基于一些中心的三甲醫(yī)院,去建檢查檢驗(yàn)庫(kù)的標(biāo)準(zhǔn)詞典。

        Q:數(shù)據(jù)治理在解決映射問題的時(shí)候是怎么去解決數(shù)據(jù)標(biāo)注的問題的?

        A:術(shù)語(yǔ)歸一化中我們一般是給出top3的結(jié)果,然后讓醫(yī)生、審核人員或數(shù)據(jù)治理人員去做要判斷。數(shù)據(jù)標(biāo)注時(shí)如果有編碼規(guī)范表(ICD詞典)的話,其實(shí)相對(duì)來說還是比較好標(biāo)注的。ICD編碼表的特點(diǎn)是分段的,有一級(jí)二級(jí)三級(jí)這樣的類目的。

        我們比較期望能直接映射到最下面層級(jí)的類目上的,但如果實(shí)在是搞不定的話,或?qū)嵲谂袛嗖涣说脑?,可以往二?jí)或者再上一級(jí)目錄上去做標(biāo)注。整體來說在ICD上的標(biāo)注,經(jīng)專家測(cè)評(píng)后的準(zhǔn)確率相對(duì)來說是比較高的。檢查化驗(yàn)其實(shí)沒有統(tǒng)一的標(biāo)準(zhǔn)規(guī)范的,一般來說的話都是基于一個(gè)區(qū)域去建標(biāo)準(zhǔn)規(guī)范。如果我們基于一些區(qū)域即一些中心的三甲醫(yī)院來制定標(biāo)準(zhǔn)的話,那么在區(qū)域里面它的認(rèn)可度還是比較高的。

        Q:近百種類別的細(xì)粒度,實(shí)體識(shí)別就有沒有什么比較好的方法?

        A:我們做了20幾種實(shí)體,和9種屬性,可能還沒有達(dá)到上百種。分享一下我們上線的效果,在電子病歷文書類型上,最終F1得分在70到80之間。在一些學(xué)術(shù)數(shù)據(jù)集上(CCKS,4類實(shí)體類型),用我們這個(gè)模型的話,大概是已經(jīng)上到91了。講者的建議是,第一點(diǎn)根據(jù)你的業(yè)務(wù)場(chǎng)景去做,你是不是真的要去標(biāo)這么多類型,類似我們病歷質(zhì)檢的簡(jiǎn)單的情景需求,可能實(shí)際上都不需要30多種實(shí)體。

        我們這30多種實(shí)體類型其實(shí)服務(wù)了很多的業(yè)務(wù)場(chǎng)景,包括病歷質(zhì)檢、 DRGS、健康檔案。百度相應(yīng)的競(jìng)品的實(shí)體類型差不多是50多種。第二點(diǎn)這種細(xì)粒度怎么去做。先找一些中心實(shí)體,再用一些后處理或者規(guī)則的手段,挖一些更細(xì)粒度的實(shí)體。我們?cè)谏夏P颓坝蓄A(yù)處理階段,模型走完以后,還要加一些后續(xù)的規(guī)則,上線后還有一些人工干預(yù)的機(jī)制等。這是一個(gè)體系,不是僅用模型就可以的。

        Q:實(shí)體屬性的話都是轉(zhuǎn)化成這種嵌套NER,沒有做關(guān)系抽取嗎?

        A:是的。沒有考慮關(guān)系抽取的模型是因?yàn)榭紤]到關(guān)系抽取的在線復(fù)雜度會(huì)比較高。我們是統(tǒng)一到一個(gè)框架上的,它滿足我們業(yè)務(wù)需求的同時(shí)也順帶把其他實(shí)體給解決掉了。我們這個(gè)框架在線上運(yùn)行效率相對(duì)來說是比較可觀的。

        Q:病歷抽取信息的時(shí)候有沒有用閱讀理解的方法?性能是怎么樣的?

        A:MRC的方法中,李紀(jì)為老師在去年ACL上的一個(gè)工作達(dá)到了一個(gè)比較好的SOTA。我們其實(shí)做過調(diào)研,我們做研究的時(shí)候也對(duì)比過李老師的工作,但實(shí)際上線的時(shí)候是沒有這樣去用。主要考慮的因素是性能,因?yàn)獒t(yī)院機(jī)器是比較弱的,一般都是兩核4G的或者四核8G的機(jī)器,且兩核4G的比較多一些。所以最終的話,雖然我們研究過MRC,但是并沒有把它上線。

        Q:術(shù)語(yǔ)標(biāo)準(zhǔn)化里邊的癥狀有沒有相應(yīng)的標(biāo)準(zhǔn),前期出牌具體怎么做的,有沒有用一些規(guī)則?

        A:癥狀這塊其實(shí)是沒有標(biāo)準(zhǔn)的。我們現(xiàn)在是這樣解決癥狀的,第一步先看它是否在ICD表里面,如果有就把它并入疾病里,如果沒有就定義為癥狀。我們基于歷史經(jīng)驗(yàn)已經(jīng)積累了一些癥狀的詞匯,但同時(shí)我們針對(duì)各??埔怖^續(xù)進(jìn)行專科癥狀詞匯的積累。癥狀這方面的詞匯我們內(nèi)部在用,沒有公開。


        今天的分享就到這里,謝謝大家。

        分享嘉賓:



        編輯:黃繼彥

        校對(duì):汪雨晴

        瀏覽 77
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            成人无码免费在线观看 | 边打电话边被躁在线播放 | 一级肉体全黄裸片高潮不断 | 校花脱了内裤打开腿让人的桶 | 久久大香蕉视频 | 午夜三级做爰高潮 | 国模操逼 | 一区二区三区精密机械 | 久热免费在线观看 | 色播激情 |