日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

Pine 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

支持10余種圖像文本任務(wù),囊括20多種數(shù)據(jù)集,還提供SOTA模型性能和可復(fù)現(xiàn)預(yù)訓(xùn)練及微調(diào)實驗配置

沒錯,這是一個視覺語言深度學(xué)習(xí)框架就可以擁有的。

這個庫的廬山真面目是:Salesforce亞洲研究院推出的LAVIS。

并且,它還統(tǒng)一了接口,降低開發(fā)成本和入門門檻。

最重要的是:已開源!

LAVIS全?位?持視覺語?任務(wù)、數(shù)據(jù)集、模型。

如果還不能看不出它的優(yōu)勢,那話不多說,直接看LAVIS與現(xiàn)有多模態(tài)庫的對比圖。

相較之下,現(xiàn)存的視覺語?框架只?持較少?部分任務(wù)和數(shù)據(jù)集,遜色了不少。

除此之外,LAVIS還附帶了豐富的開源資源和?具,就比如說它提供了一個圖形化的工具,可以可視化數(shù)據(jù)集的樣本,以便于能更好的預(yù)覽、理解數(shù)據(jù)。

并且隨著LAVIS一起開源的還有GUI demo,它的功能就有這么多。(看圖)

具體LAVIS有何過人之處?一起來看看吧~

?站式視覺語?框架

LAVIS概括下來,可以用三個數(shù)字來表示:四、十、二十

先來說說,它表示LAVIS支持四種領(lǐng)先的基礎(chǔ)視覺語?模型架構(gòu),包括ALBEF、BLIP、CLIP和ALPRO。

其中ALBEF和CLIP主要支持圖像文本任務(wù),ALPRO?持視頻?本任務(wù),BLIP對這兩項任務(wù)都能夠提供?持。

也正是有了這些視覺語言模型做基礎(chǔ),LAVIS才能夠運行這余種視覺語言任務(wù)。

具體來講,它可以進行圖?描述?成、圖像?本檢索、視頻?本檢索、圖像問答、視頻問答、多模態(tài)分 類、多模態(tài)圖像、視頻對話、視覺語?推理、多模態(tài)預(yù)訓(xùn)練等實?任務(wù)。

除此之外,LAVIS還具備多模態(tài)特征提取等功能。

講完模型架構(gòu)和任務(wù),就還差數(shù)據(jù)集了,不過這就不必?fù)?dān)心,因為LAVIS能夠支持二十多種數(shù)據(jù)集。

想實現(xiàn)各項任務(wù)都能夠找到合適的數(shù)據(jù)集進行訓(xùn)練。

不過,這些都還只是LAVIS的開碟小菜,它還“憋了個大招”:

統(tǒng)一接口。

這對初學(xué)者和跨領(lǐng)域研究者來說是相當(dāng)友好了,許多深度學(xué)習(xí)庫的模型、數(shù)據(jù)集以及任務(wù)評估接口都不一致,這就導(dǎo)致學(xué)習(xí)成本大大提高。

而統(tǒng)一接口之后,就會極?簡化模型訓(xùn)練評測,并且能夠最?化重復(fù)開發(fā)成本。

話說回來,這里的統(tǒng)一接口具體方便了什么呢?

主要分為兩部分。

第一部分是用于加載數(shù)據(jù)集和模型的統(tǒng)一接口,模型及其相關(guān)的預(yù)處理器也可以通過一個統(tǒng)一的接口來加載,從而便于對自定義數(shù)據(jù)進行分析和推斷。

第二部分是實現(xiàn)多模態(tài)特征提取的統(tǒng)一接口,這些特性對于端到端微調(diào)的離線應(yīng)用程序尤其有用。通過更改名稱和模式,用戶可以選擇使用不同的模型架構(gòu)和預(yù)先訓(xùn)練的權(quán)重。

這樣一來,?戶便可以利?LAVIS提供的load_model(), load_dataset() ,?鍵加載所需模型和數(shù)據(jù)集。

比如說,加載COCO captioning數(shù)據(jù)集,只需要輸入load_dataset(“coco_caption”);加載BLIP captioning模型只需要輸入model=load_model(name=“blip_caption”)。

此外,LAVIS還能實現(xiàn)數(shù)據(jù)到訓(xùn)練?定制化,給予開發(fā)者充分空間研究新模型、新多模態(tài)能?、新引?場景。

不過,實現(xiàn)LAVIS這樣一站式的視覺語言框架,是怎樣做到的呢?

模塊化的結(jié)構(gòu)

其實從LAVIS的構(gòu)造就能夠看出,LAVIS深度學(xué)習(xí)庫的整個構(gòu)造很簡潔,用三個字就可以概括:模塊化

在整個庫中,將關(guān)鍵組件模塊化后再進行組織。

這樣一來,就可以對單個組件的現(xiàn)成訪問、快速開發(fā)以及新組件或外部組件的輕松集成,還能夠模型推斷,例如多模態(tài)特征提取。

具體是怎樣的?可以一起看看。

LAVIS共分為六個關(guān)鍵模塊(詳見下圖)。

其中比較核心的就是runners模塊,它負(fù)責(zé)管理整個訓(xùn)練的評估的過程,RunnerBase和RunnerIters也各司其職,一個負(fù)責(zé)基于epoch的訓(xùn)練,一個負(fù)責(zé)基于迭代的訓(xùn)練。

tasks模塊會對每個任務(wù)執(zhí)行具體的訓(xùn)練和評估邏輯,以適應(yīng)特定的任務(wù)。

datasets顧名思義就是負(fù)責(zé)創(chuàng)建數(shù)據(jù)集。

models模塊中,它保存了其支持的四個模型以及共享模型層的定義。

processors模塊用來處理多模態(tài)輸入的預(yù)處理,處理器將輸入的圖像、視頻和文本轉(zhuǎn)換為模型可以使用的形式。

common則是LAVIS提供的工具包和一些應(yīng)用程序。

這些模塊之間相互依賴,由此便形成了一個簡單而統(tǒng)一的庫,進而可以更方便地訓(xùn)練和評估模型;訪問所支持的模型和數(shù)據(jù)集以及擴展新模型、任務(wù)和數(shù)據(jù)集。

目前,開發(fā)人員表示將持續(xù)更新維護LAVIS,在未來它將會支持更多更強大的視覺語言預(yù)訓(xùn)練模型,和更多的視覺語言任務(wù),比如文本圖像生成。

聽完是不是心癢癢了?

下方就有開源鏈接以及詳細(xì)文檔,感興趣的朋友可以試試~

Github:https://github.com/salesforce/LAVIS

技術(shù)報告:https://arxiv.org/abs/2209.09019

?持?檔:https://opensource.salesforce.com/LAVIS//latest/index.html

官?博客:https://blog.salesforceairesearch.com/lavis-language-vision-library/

— 完 —

量子位 QbitAI · 頭條號簽約

分享到:
標(biāo)簽:深度 學(xué)習(xí)
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定