1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        多模態(tài)深度學習:用深度學習的方式融合各種信息

        共 1880字,需瀏覽 4分鐘

         ·

        2020-12-18 07:40

        點擊上方小白學視覺”,選擇加"星標"或“置頂

        重磅干貨,第一時間送達

        本文轉載自AI公園。

        作者:Purvanshi Mehta

        編譯:ronghuaiyang

        導讀

        使用深度學習融合各種來源的信息。

        多模態(tài)數(shù)據(jù)

        我們對世界的體驗是多模態(tài)的 —— 我們看到物體,聽到聲音,感覺到質地,聞到氣味,嘗到味道。模態(tài)是指某件事發(fā)生或經(jīng)歷的方式,當一個研究問題包含多個模態(tài)時,它就具有多模態(tài)的特征。為了讓人工智能在理解我們周圍的世界方面取得進展,它需要能夠同時解釋這些多模態(tài)的信號。

        例如,圖像通常與標簽和文本解釋相關聯(lián),文本包含圖像,以更清楚地表達文章的中心思想。不同的模態(tài)具有非常不同的統(tǒng)計特性。

        多模態(tài)深度學習

        雖然結合不同的模態(tài)或信息類型來提高效果從直觀上看是一項很有吸引力的任務,但在實踐中,如何結合不同的噪聲水平和模態(tài)之間的沖突是一個挑戰(zhàn)。此外,模型對預測結果有不同的定量影響。在實踐中最常見的方法是將不同輸入的高級嵌入連接起來,然后應用softmax。

        多模態(tài)深度學習的例子,其中使用不同類型的神經(jīng)網(wǎng)絡提取特征

        這種方法的問題是,它將給予所有子網(wǎng)絡/模式同等的重要性,這在現(xiàn)實情況中是非常不可能的。

        所有的模態(tài)對預測都有相同的貢獻

        對網(wǎng)絡進行加權組合

        我們采用子網(wǎng)絡的加權組合,以便每個輸入模態(tài)可以對輸出預測有一個學習貢獻(Theta)。

        我們的優(yōu)化問題變成-

        對每個子網(wǎng)絡給出Theta權值后的損失函數(shù)。

        將權值附加到子網(wǎng)后預測輸出。

        把所有的都用起來!

        準確性和可解釋性

        我們在兩個現(xiàn)實多模態(tài)數(shù)據(jù)集上得到了SOTA:

        Multimodal Corpus of Sentiment Intensity(MOSI) 數(shù)據(jù)集 —— 有417個標注過的視頻,每毫秒標注的音頻特征。共有2199個標注數(shù)據(jù)點,其中情緒強度定義為從strongly negative到strongly positive,線性尺度從- 3到+3。

        模態(tài)包括:

        1、文本

        2、音頻

        3、語言

        每種模態(tài)對情緒預測的貢獻量

        Transcription Start Site Prediction(TSS)數(shù)據(jù)集 ——?Transcription是基因表達的第一步,在這一步中,特定的DNA片段被復制到RNA (mRNA)中。Transcription起始位點是transcription開始的位置。DNA片段的不同部分具有不同的特性,從而影響其存在。我們將TSS分為三個部分:

        1. 上游DNA
        2. 下游DNA
        3. TSS位置

        我們取得了前所未有的改善,比之前的最先進的結果3%。使用TATA box的下游DNA區(qū)域對這一過程影響最大。

        英文原文:https://towardsdatascience.com/multimodal-deep-learning-ce7d1d994f4

        下載1:OpenCV-Contrib擴展模塊中文版教程
        在「小白學視覺」公眾號后臺回復:擴展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內容。

        下載2:Python視覺實戰(zhàn)項目31講
        小白學視覺公眾號后臺回復:Python視覺實戰(zhàn)項目31講,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。

        下載3:OpenCV實戰(zhàn)項目20講
        小白學視覺公眾號后臺回復:OpenCV實戰(zhàn)項目20講即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學習進階。

        下載4:leetcode算法開源書
        小白學視覺公眾號后臺回復:leetcode,即可下載。每題都 runtime beats 100% 的開源好書,你值得擁有!



        交流群


        歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內發(fā)送廣告,否則會請出群,謝謝理解~


        瀏覽 60
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            魅影直播游客免登录 | 亚洲在线无码视频 | 女久久| 日韩极品一区 | 自拍偷拍第一页 | 日向雏田裸体 | 我要看美女操逼 | 欧美性猛交XXXX乱大交3喷潮 | japanesegay筋肉失禁 | 久久精品三级 |