1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        Google Research進(jìn)軍蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè):為Pfam數(shù)據(jù)庫(kù)新增680萬(wàn)標(biāo)注數(shù)據(jù)

        共 2837字,需瀏覽 6分鐘

         ·

        2022-03-10 14:27



        ??新智元報(bào)道??

        編輯:LRS

        【新智元導(dǎo)讀】用深度學(xué)習(xí)模型來(lái)預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)和功能已經(jīng)取得了不小的進(jìn)展,但還缺乏優(yōu)質(zhì)的數(shù)據(jù)。最近Google開(kāi)源了一個(gè)模型ProtENN,提供了680萬(wàn)條蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)Pfam-E,約等于之前十年的工作量。

        ?

        蛋白質(zhì)是所有生物體中的重要分子,在我們身體的結(jié)構(gòu)和功能中都發(fā)揮著核心作用。并且從藥物到洗衣粉等日常生活用品中,蛋白質(zhì)也無(wú)處不在。

        ?

        雖然每個(gè)蛋白質(zhì)都是由氨基酸構(gòu)成的鏈,但不同的氨基酸序列導(dǎo)致了不同的蛋白質(zhì)結(jié)構(gòu),也導(dǎo)致了不同蛋白質(zhì)具有不同的功能。

        ?

        了解蛋白質(zhì)的結(jié)構(gòu)和功能之間的關(guān)系,是一項(xiàng)具有深遠(yuǎn)科學(xué)意義的長(zhǎng)期研究。

        ?

        ?

        2018年,DeepMind推出第一版AlphaFold模型,采用深度學(xué)習(xí)+傳統(tǒng)算法結(jié)合的方式,借助大算力的優(yōu)勢(shì),成功取得第13屆蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)CASP競(jìng)賽的冠軍,AlphaFold僅需數(shù)天即可完成科學(xué)家數(shù)年的工作。

        ?

        而后2020年的AlphaFold2模型則使用更大的算力,訓(xùn)練更大的模型,準(zhǔn)確率遠(yuǎn)遠(yuǎn)超越其他競(jìng)爭(zhēng)對(duì)手,也正式掀起了大規(guī)模深度學(xué)習(xí)模型進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的熱潮。

        ?

        ?

        除了廣為人知的AlphaFold外,科學(xué)界在使用計(jì)算工具直接從序列中推斷蛋白質(zhì)功能方面也有很長(zhǎng)的歷史。

        ?

        例如,著名的蛋白質(zhì)家族數(shù)據(jù)庫(kù)Pfam包含許多高度詳細(xì)的計(jì)算注釋?zhuān)枋隽艘粋€(gè)蛋白質(zhì)域的功能,如球蛋白和胰蛋白酶家族。

        ?

        ?

        雖然現(xiàn)有的方法已經(jīng)成功地預(yù)測(cè)了數(shù)以?xún)|計(jì)的蛋白質(zhì)的功能,但仍然有許多功能未知的蛋白質(zhì),研究顯示,至少有三分之一的微生物蛋白質(zhì)沒(méi)有得到可靠的注釋。

        ?

        隨著公共數(shù)據(jù)庫(kù)中蛋白質(zhì)序列的數(shù)量和多樣性繼續(xù)迅速增加,準(zhǔn)確預(yù)測(cè)高度多樣化氨基酸序列的功能變得越來(lái)越緊迫。

        ?

        ?

        最近,Google Research在Nature Biotechnology(近兩年影響因子54.908)上發(fā)表了一篇論文,提出了一個(gè)機(jī)器學(xué)習(xí)模型ProtENN,能夠可靠地預(yù)測(cè)蛋白質(zhì)的功能,并且為Pfam新增了大約680萬(wàn)條蛋白質(zhì)功能注釋?zhuān)蠹s相當(dāng)于過(guò)去十年進(jìn)展的總和。研究人員把新數(shù)據(jù)集發(fā)布為Pfam-N。

        ?

        ?

        為了鼓勵(lì)在這個(gè)方向上的進(jìn)一步研究,研究人員發(fā)布了ProtENN模型和一篇類(lèi)似distill的交互式文章。用戶(hù)只需要在該互動(dòng)工具輸入一個(gè)序列,就能夠在瀏覽器中實(shí)時(shí)獲得預(yù)測(cè)的蛋白質(zhì)功能的結(jié)果,而不需要其他設(shè)置。

        ?

        ?

        結(jié)構(gòu)預(yù)測(cè)就是分類(lèi)


        在計(jì)算機(jī)視覺(jué)中,常用的流程就是先為圖像分類(lèi)任務(wù)訓(xùn)練一個(gè)模型,如CIFAR-100,然后將其作為預(yù)訓(xùn)練模型再擴(kuò)展到更具體的任務(wù),如物體檢測(cè)和定位。

        ?

        研究人員也采用這種模式,先開(kāi)發(fā)了一個(gè)蛋白質(zhì)結(jié)構(gòu)域的分類(lèi)模型,作為下一步對(duì)整個(gè)蛋白質(zhì)序列進(jìn)行分類(lèi)的模型的預(yù)訓(xùn)練。

        ?

        在訓(xùn)練過(guò)程中,把這個(gè)問(wèn)題看作是一個(gè)多類(lèi)分類(lèi)任務(wù),類(lèi)別標(biāo)簽包含所有從Pfam數(shù)據(jù)庫(kù)中提取的17929個(gè)類(lèi)。

        ?

        ?

        下一步就需要一個(gè)模型將蛋白質(zhì)序列與蛋白質(zhì)功能聯(lián)系起來(lái)。

        ?

        雖然目前有許多模型可用于蛋白質(zhì)結(jié)構(gòu)域分類(lèi),但它們都一個(gè)明顯的缺點(diǎn):基于線性序列的排列,而沒(méi)有考慮蛋白序列中不同部分的氨基酸之間的相互作用。蛋白質(zhì)并不只是停留在一排氨基酸上,它們會(huì)自行折疊,這樣不相鄰的氨基酸就會(huì)對(duì)彼此產(chǎn)生強(qiáng)烈的影響。

        ?

        一些sota模型會(huì)將新的查詢(xún)序列(query sequence)與一個(gè)或多個(gè)具有已知功能的序列進(jìn)行比對(duì)。

        ?

        但如果新序列與任何具有已知功能的序列高度不相似的話(huà),那這種對(duì)具有已知功能的序列的依賴(lài)性就會(huì)使得預(yù)測(cè)一個(gè)新序列的蛋白質(zhì)功能更具有挑戰(zhàn)性。

        ?

        此外,基于對(duì)齊的方法是計(jì)算密集型的,如果想要把這個(gè)算法應(yīng)用于大型數(shù)據(jù)集,如元基因組數(shù)據(jù)庫(kù)MGnify,其中包含超過(guò)10億條蛋白質(zhì)序列,成本過(guò)高的話(huà)就失去了實(shí)用價(jià)值。

        ?

        為了應(yīng)對(duì)這些挑戰(zhàn),研究人員建議使用卷積神經(jīng)網(wǎng)絡(luò)(CNN),很適合于模擬非局部的成對(duì)氨基酸相互作用,并且可以在GPU硬件上快速運(yùn)行。

        ?

        研究人員訓(xùn)練一維CNN來(lái)預(yù)測(cè)蛋白質(zhì)序列的分類(lèi),稱(chēng)之為ProtCNN;以及多個(gè)獨(dú)立訓(xùn)練的ProtCNN的集成模型,稱(chēng)之為ProtENN。

        ?

        ?

        這種方法的目的是通過(guò)開(kāi)發(fā)一種可靠的ML方法,補(bǔ)充傳統(tǒng)的基于對(duì)齊的方法,為了證明效果,研究人員還提出了一種方法來(lái)測(cè)量預(yù)測(cè)準(zhǔn)確性。

        ?

        蛋白質(zhì)的進(jìn)化也要考慮


        與其他領(lǐng)域的分類(lèi)問(wèn)題類(lèi)似,蛋白質(zhì)功能預(yù)測(cè)的挑戰(zhàn)不在于為任務(wù)開(kāi)發(fā)一個(gè)全新的模型,而在于創(chuàng)建公平的、大規(guī)模的訓(xùn)練和測(cè)試集,以確保模型對(duì)未見(jiàn)過(guò)的數(shù)據(jù)做出準(zhǔn)確的預(yù)測(cè)。

        ?

        由于蛋白質(zhì)基本都是從共同的祖先演變而來(lái)的,不同的蛋白質(zhì)往往共享其氨基酸序列中的相當(dāng)大的一部分。如果沒(méi)有特意調(diào)整數(shù)據(jù)分布,測(cè)試集可能會(huì)被與訓(xùn)練數(shù)據(jù)高度相似的樣本所支配,這也可能會(huì)導(dǎo)致模型通過(guò)簡(jiǎn)單地「記憶」訓(xùn)練數(shù)據(jù)就能準(zhǔn)確預(yù)測(cè),而沒(méi)有學(xué)會(huì)更廣泛地歸納。

        ?

        ?

        為了防止這種情況的出現(xiàn),必須使用多個(gè)獨(dú)立的設(shè)置來(lái)評(píng)估模型的性能。對(duì)于每一次評(píng)估,研究人員將模型的準(zhǔn)確性作為每個(gè)被保留的測(cè)試序列與訓(xùn)練集中最近的序列之間的相似性的函數(shù)來(lái)分層。

        ?

        第一個(gè)評(píng)估包括一個(gè)聚類(lèi)的分割訓(xùn)練和測(cè)試集,蛋白質(zhì)序列樣本按序列相似度進(jìn)行聚類(lèi),整個(gè)聚類(lèi)被放入訓(xùn)練集或測(cè)試集。因此,每個(gè)測(cè)試實(shí)例與每個(gè)訓(xùn)練實(shí)例至少有75%的差異。這個(gè)任務(wù)下的更強(qiáng)的性能表明,一個(gè)模型可以概括地對(duì)分布外的數(shù)據(jù)做出準(zhǔn)確的預(yù)測(cè)。

        ?

        在第二個(gè)評(píng)估中,研究人員使用隨機(jī)分割的訓(xùn)練和測(cè)試集,根據(jù)對(duì)實(shí)例分類(lèi)難度的估計(jì)對(duì)其進(jìn)行分層。難度的衡量標(biāo)準(zhǔn)包括測(cè)試?yán)雍妥罱挠?xùn)練例子之間的相似性,以及來(lái)自真實(shí)類(lèi)別的訓(xùn)練例子的數(shù)量(只給少量的訓(xùn)練例子,要準(zhǔn)確預(yù)測(cè)功能就更難了)。

        ?

        ?

        除此之外,研究人員還與Pfam團(tuán)隊(duì)合作,測(cè)試文中提出的方法學(xué)概念證明是否可用于標(biāo)記真實(shí)世界的序列。結(jié)果證明了ProtENN可以學(xué)習(xí)到基于對(duì)齊的方法的補(bǔ)充信息,比任何一個(gè)方法學(xué)到的信息都要多。

        ?

        在看到這些方法和分類(lèi)任務(wù)的成功后,研究人員還建立了一個(gè)工具,使用戶(hù)能夠探索模型預(yù)測(cè)、embedding和輸入序列之間的關(guān)系,在前文提到的交互式網(wǎng)頁(yè)中可以體驗(yàn)這項(xiàng)功能,可以發(fā)現(xiàn)類(lèi)似的序列在embedding空間中被聚在一起。

        ?

        ?

        從AlphaFold和CAFA到會(huì)議上專(zhuān)門(mén)討論這一主題的大量研討會(huì)和研究報(bào)告,深度學(xué)習(xí)預(yù)測(cè)蛋白質(zhì)的相關(guān)工作也逐漸增加。

        ?

        研究人員認(rèn)為在這項(xiàng)工作的基礎(chǔ)上,可以繼續(xù)與整個(gè)領(lǐng)域的科學(xué)家合作,利用他們的專(zhuān)業(yè)知識(shí)和數(shù)據(jù),結(jié)合機(jī)器學(xué)習(xí)模型的進(jìn)步,將幫助人類(lèi)進(jìn)一步揭示蛋白質(zhì)的世界。


        參考資料:

        https://ai.googleblog.com/2022/03/using-deep-learning-to-annotate-protein.html

        https://google-research.github.io/proteinfer/



        瀏覽 17
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            老外a级片 | 五月丁香婷婷基地 | 九七无码 | ass日本少妇pics | 偷拍与自拍视频 | 天天色咪咪 | 豆花视频成人版视频在线观看 | 国产精品V欧美精品∨日韩 | 主播福利在线 | 欧美变态口味重另类hd |