中文多模態(tài)CLIP,它終于有開源了
大家好,我是DASOU。
前段時(shí)間發(fā)現(xiàn)在Github上有位同學(xué)開源了中文的CLIP,包括權(quán)重和微調(diào)代碼。但是可惜的是,這個(gè)倉(cāng)庫后續(xù)被關(guān)閉了,很奇怪~~

所以這個(gè)倉(cāng)庫就不能用了。
當(dāng)時(shí)是分享到朋友圈了,所以看到就是賺到:

不過后來有朋友書說看到了另一個(gè)同學(xué)開源了同樣的項(xiàng)目,我fork了一下,大家可以去我Github看下,應(yīng)該也能用~~
然后,這兩天在知乎看到又有位同學(xué)開源了CLIP的中文權(quán)重,比較方便的一點(diǎn)是在hugging face可以直接調(diào)用使用。
hugging face是有預(yù)留CLIPModel的接口的,所以開源的權(quán)重可以直接被使用。
我看作者的描述,「在預(yù)訓(xùn)練的時(shí)候,對(duì)于image encoder,直接加載openAI的權(quán)重,而且是凍住,并沒有參與訓(xùn)練。對(duì)于text encoder, 則是加載中文robert預(yù)訓(xùn)練模型作為初始化權(quán)重進(jìn)行訓(xùn)練。所以放出來的開源模型只有text encoder,image encoder直接用openAI的權(quán)重即可」
emm......好吧。

模式是基于wukong數(shù)據(jù)集訓(xùn)練的,這個(gè)數(shù)據(jù)集在剛出來的時(shí)候,我也公眾號(hào)分享了一下,看這里 這個(gè)數(shù)據(jù)集,絕了。
總的來說,有大規(guī)模的多模態(tài)中文模型開源出來總歸是好的。因?yàn)閷?duì)于一些同學(xué)來說,從零訓(xùn)練一個(gè)多模態(tài)模型,實(shí)在是太耗資源了,也是一個(gè)小門檻。
我之前用訓(xùn)練一個(gè)后融合的多模態(tài)模,4張V100/32G顯存,訓(xùn)練了快2周,還沒訓(xùn)練好~~
辛苦求個(gè)三連
權(quán)重地址:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-Chinese
如果想第一時(shí)間看到一些比較好的技術(shù)/論文的分享,可以加我微信圍觀朋友圈~~
