1. 多模態(tài)視頻分類系列:簡單綜述

        共 1258字,需瀏覽 3分鐘

         ·

        2021-09-29 23:58

        大家好,我是DASOU;

        最近在做多模態(tài)視頻分類,有一些感悟會通過文章分享給大家,今天先發(fā)一個簡單的綜述;

        對我朋友圈的朋友可以加我微信【dasounlp】或者公眾號主頁右下角點擊【聯(lián)系我】,我隨時發(fā)一些我看過的論文或者感悟,比如下面這種:

        然后我插一句哈,有些時候問我問題我沒回復(fù)不是我高冷~~

        一般三種情況,1. 是真的沒時間,2. 信息太多我忘了回復(fù),現(xiàn)在每天問我問題的每天幾十個信息,有些時候看完沒回之后就忘了回復(fù)了,3.我覺得問題很簡單百度一下就知道;

        我也是有工作的,而且賊忙,也比較菜,不是啥都會的,大家也見諒一下~~~~

        正文開始:

        先從單模態(tài)視頻分類說起,它分為三個方向去掌握:

        1. 雙流網(wǎng)絡(luò);一支走圖像,一支走光流,然后兩支結(jié)果做融合;

        2. 3D卷積,就是在2D卷積的基礎(chǔ)上加一個時間維度;

        3. CNN-RNN系列,通過CNN獲取圖片特征,進而使用RNN獲取圖片特征之間的時序特征;

        上面談到的這三種方式,其實比較適合很短的視頻;

        我自己的應(yīng)用場景其實是長視頻,十幾分鐘甚至幾十分鐘的視頻;視頻時間長了,抽取的幀就會相應(yīng)的變多,那么處理起來就會相當(dāng)?shù)穆闊?/p>

        在工業(yè)界用到的長視頻分類的方法,據(jù)我所知,大體是兩個重點,一個重點是使用多模態(tài),最重要的是加上文本信息,有的也會加上音頻信息;

        這點其實很好理解,比如一個【母嬰育兒】方向的視頻,抽取的幀最好包含母親或者嬰兒或者一些相關(guān)物品,才可能會被判定為【母嬰育兒】的領(lǐng)域;

        但是文字可能就簡簡單單的幾個字就能把【母嬰育兒】這個領(lǐng)域的概率拉上去;

        所以基于我自己的應(yīng)用場景,一定要明確一個概念,視頻信息只能作為一種補充信息,而不是主要信息來源;

        而在推理的時候,我也只會用到哪些 hard examples 進到多模態(tài)視頻分類這一支網(wǎng)絡(luò);

        第二個重點也很類似,因為視頻信息只能作為補充,所以視頻這邊的網(wǎng)絡(luò)最大的作用就是能更好的融合視頻信息;

        如果視頻長度長達幾十分鐘,資源有限,為了提高推理速度,抽取的幀數(shù)也不能太多,比如控制在50個,其實光流信息基本就沒啥了,RGBDiff這種基本也沒啥了,唯一剩下點的就是時間信息,可能還不多;

        所以重點就要放在提取幀的圖像信息上,外加看能不能通過網(wǎng)絡(luò)再把時間信息補充進來,有最好,沒有感覺就轉(zhuǎn)為了多模態(tài)圖片分類;

        所以幀的融合方式就會變得很重要;

        簡單來說,我這個文章的重點就是說,針對長視頻,幀數(shù)控制在不太大的情況下,常規(guī)的網(wǎng)絡(luò)基本不太實用,要把重點放在圖像特征的提取和幀的融合;

        特征提取一般就是CNN預(yù)訓(xùn)練模型,幀的融合一般就是使用lstm或者NetVlad等;

        這個文章算是多模態(tài)視頻分類的一個開篇,后續(xù)會把一些論文文章分享一下,transformer在圖像和視頻的應(yīng)用這一塊我也在慢慢看一些論文,后續(xù)有時間會試試效果。

        瀏覽 236
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
          
          

            1. 久草麻豆| 国内精品久久久久久久久久 | 国产999精品视频 | 国产无码人妻 | 亚洲黄色一级电影 |