日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

機(jī)器之心報(bào)道

機(jī)器之心編輯部

 

CV 研究者接下來的路要怎么走?

 


 

「這下 CV 是真不存在了。

如標(biāo)題所述,這篇論文只做了一件事情:(零樣本)分割一切。類似 GPT-4 已經(jīng)做到的「回答一切」。


 

Meta 表示,這是第一個(gè)致力于圖像分割的基礎(chǔ)模型。自此,CV 也走上了「做一個(gè)統(tǒng)一某個(gè)(某些?全部?)任務(wù)的全能模型」的道路。


 

在此之前,分割作為計(jì)算機(jī)視覺的核心任務(wù),已經(jīng)得到廣泛應(yīng)用。但是,為特定任務(wù)創(chuàng)建準(zhǔn)確的分割模型通常需要技術(shù)專家進(jìn)行高度專業(yè)化的工作,此外,該項(xiàng)任務(wù)還需要大量的領(lǐng)域標(biāo)注數(shù)據(jù),種種因素限制了圖像分割的進(jìn)一步發(fā)展。

Meta 在論文中發(fā)布的新模型名叫 Segment Anything Model (SAM) 。他們?cè)诓┛椭薪榻B說,「SAM 已經(jīng)學(xué)會(huì)了關(guān)于物體的一般概念,并且它可以為任何圖像或視頻中的任何物體生成 mask,甚至包括在訓(xùn)練過程中沒有遇到過的物體和圖像類型。SAM 足夠通用,可以涵蓋廣泛的用例,并且可以在新的圖像『領(lǐng)域』上即開即用,無需額外的訓(xùn)練。」在深度學(xué)習(xí)領(lǐng)域,這種能力通常被稱為零樣本遷移,這也是 GPT-4 震驚世人的一大原因。


 

論文地址:
https://arxiv.org/abs/2304.02643

項(xiàng)目地址:
https://Github.com/facebookresearch/segment-anything

Demo 地址:
https://segment-anything.com/

除了模型,Meta 還發(fā)布了一個(gè)圖像注釋數(shù)據(jù)集 Segment Anything 1-Billion (SA-1B),據(jù)稱這是有史以來最大的分割數(shù)據(jù)集。該數(shù)據(jù)集可用于研究目的,并且 Segment Anything Model 在開放許可 (Apache 2.0) 下可用。

我們先來看看效果。如下面動(dòng)圖所示,SAM 能很好的自動(dòng)分割圖像中的所有內(nèi)容:


 

SAM 還能根據(jù)提示詞進(jìn)行圖像分割。例如輸入 Cat 這個(gè)提示詞,SAM 會(huì)在照片中的幾只貓周圍繪制框并實(shí)現(xiàn)分割:


 

SAM 還能用交互式點(diǎn)和框的方式進(jìn)行提示:


 


 

此外,SAM 還能為不明確的提示生成多個(gè)有效掩碼:


 

英偉達(dá)人工智能科學(xué)家 Jim Fan 表示:「對(duì)于 Meta 的這項(xiàng)研究,我認(rèn)為是計(jì)算機(jī)視覺領(lǐng)域的 GPT-3 時(shí)刻之一。它已經(jīng)了解了物體的一般概念,即使對(duì)于未知對(duì)象、不熟悉的場(chǎng)景(例如水下圖像)和模棱兩可的情況下也能進(jìn)行很好的圖像分割。最重要的是,模型和數(shù)據(jù)都是開源的。恕我直言,Segment-Anything 已經(jīng)把所有事情(分割)都做的很好了。」


 

推特地址:
https://Twitter.com/DrJimFan/status/1643647849824161792

還有網(wǎng)友表示,NLP 領(lǐng)域的 Prompt 范式,已經(jīng)開始延展到 CV 領(lǐng)域了,可以預(yù)想,今年這類范式在學(xué)術(shù)界將迎來一次爆發(fā)。


 

更是有網(wǎng)友表示蚌不住了,SAM 一出,CV 是真的不存在了。投稿 ICCV 的要小心了。


 

不過,也有人表示,該模型在生產(chǎn)環(huán)境下的測(cè)試并不理想。或許,這個(gè)老大難問題的解決仍需時(shí)日?


 

方法介紹

此前解決分割問題大致有兩種方法。第一種是交互式分割,該方法允許分割任何類別的對(duì)象,但需要一個(gè)人通過迭代細(xì)化掩碼來指導(dǎo)該方法。第二種,自動(dòng)分割,允許分割提前定義的特定對(duì)象類別(例如,貓或椅子),但需要大量的手動(dòng)注釋對(duì)象來訓(xùn)練(例如,數(shù)千甚至數(shù)萬個(gè)分割貓的例子)。這兩種方法都沒有提供通用的、全自動(dòng)的分割方法。

SAM 很好的概括了這兩種方法。它是一個(gè)單一的模型,可以輕松地執(zhí)行交互式分割和自動(dòng)分割。該模型的可提示界面允許用戶以靈活的方式使用它,只需為模型設(shè)計(jì)正確的提示(點(diǎn)擊、boxes、文本等),就可以完成范圍廣泛的分割任務(wù)。

總而言之,這些功能使 SAM 能夠泛化到新任務(wù)和新領(lǐng)域。這種靈活性在圖像分割領(lǐng)域尚屬首創(chuàng)。

Meta 表示,他們受到語(yǔ)言模型中提示的啟發(fā),因而其訓(xùn)練完成的 SAM 可以為任何提示返回有效的分割掩碼,其中提示可以是前景、背景點(diǎn)、粗框或掩碼、自由格式文本,或者說能指示圖像中要分割內(nèi)容的任何信息。而有效掩碼的要求僅僅意味著即使提示不明確并且可能指代多個(gè)對(duì)象(例如,襯衫上的一個(gè)點(diǎn)可能表示襯衫或穿著它的人),輸出也應(yīng)該是一個(gè)合理的掩碼(就如上面動(dòng)圖「SAM 還能為為不明確的提示生成多個(gè)有效掩碼」所示)。此任務(wù)用于預(yù)訓(xùn)練模型并通過提示解決一般的下游分割任務(wù)。

如下圖所示,在引擎蓋(hood)下,圖像編碼器為圖像生成一次性嵌入,而輕量級(jí)編碼器將提示實(shí)時(shí)轉(zhuǎn)換為嵌入向量。然后將這兩個(gè)信息源組合在一個(gè)預(yù)測(cè)分割掩碼的輕量級(jí)解碼器中。在計(jì)算圖像嵌入后,SAM 可以在 50 毫秒內(nèi)根據(jù)網(wǎng)絡(luò)瀏覽器中的任何提示生成一個(gè)分割。


 

在 web 瀏覽器中,SAM 有效地映射圖像特征和一組提示嵌入以產(chǎn)生分割掩碼

1100 萬張圖片,1B+ 掩碼

數(shù)據(jù)集是使用 SAM 收集的。標(biāo)注者使用 SAM 交互地注釋圖像,之后新注釋的數(shù)據(jù)又反過來更新 SAM,可謂是相互促進(jìn)。

使用該方法,交互式地注釋一個(gè)掩碼只需大約 14 秒。與之前的大規(guī)模分割數(shù)據(jù)收集工作相比,Meta 的方法比 COCO 完全手動(dòng)基于多邊形的掩碼注釋快 6.5 倍,比之前最大的數(shù)據(jù)注釋工作快 2 倍,這是因?yàn)橛辛?SAM 模型輔助的結(jié)果。

最終的數(shù)據(jù)集超過 11 億個(gè)分割掩碼,在大約 1100 萬張經(jīng)過許可和隱私保護(hù)圖像上收集而來。SA-1B 的掩碼比任何現(xiàn)有的分割數(shù)據(jù)集多 400 倍,并且經(jīng)人工評(píng)估研究證實(shí),這些掩碼具有高質(zhì)量和多樣性,在某些情況下甚至在質(zhì)量上可與之前更小、完全手動(dòng)注釋的數(shù)據(jù)集的掩碼相媲美 。


 


 

Segment Anything 對(duì)使用數(shù)據(jù)引擎收集的數(shù)百萬張圖像和掩碼進(jìn)行訓(xùn)練的結(jié)果,得到一個(gè)包含 10 億個(gè)分割掩碼的數(shù)據(jù)集,是以往任何分割數(shù)據(jù)集的 400 倍。

SA-1B 的圖像來自跨不同地理區(qū)域和收入水平的多個(gè)國(guó)家或地區(qū)的照片提供者,在擁有更多圖像的同時(shí)對(duì)所有地區(qū)的總體代表性也更好。Meta 分析了其模型在感知性別表現(xiàn)、感知膚色和年齡范圍方面的潛在偏差,結(jié)果發(fā)現(xiàn) SAM 在不同群體中的表現(xiàn)類似。

SA-1B 可以幫助其他研究人員訓(xùn)練圖像分割的基礎(chǔ)模型。Meta 也進(jìn)一步希望這些數(shù)據(jù)能夠成為帶有附加注釋的新數(shù)據(jù)集的基礎(chǔ),例如與每個(gè) mask 相關(guān)的文本描述。

未來展望

通過研究和數(shù)據(jù)集共享,Meta 希望進(jìn)一步加速對(duì)圖像分割以及更通用圖像與視頻理解的研究。可提示的分割模型可以充當(dāng)更大系統(tǒng)中的一個(gè)組件,執(zhí)行分割任務(wù)。作為一種強(qiáng)大的工具,組合(Composition)允許以可擴(kuò)展的方式使用單個(gè)模型,并有可能完成模型設(shè)計(jì)時(shí)未知的任務(wù)。

Meta 預(yù)計(jì),與專門為一組固定任務(wù)訓(xùn)練的系統(tǒng)相比,基于 prompt 工程等技術(shù)的可組合系統(tǒng)設(shè)計(jì)將支持更廣泛的應(yīng)用。SAM 可以成為 AR、VR、內(nèi)容創(chuàng)建、科學(xué)領(lǐng)域和更通用 AI 系統(tǒng)的強(qiáng)大組件。比如 SAM 可以通過 AR 眼鏡識(shí)別日常物品,為用戶提供提示。


 

SAM 還有可能在農(nóng)業(yè)領(lǐng)域幫助農(nóng)民或者協(xié)助生物學(xué)家進(jìn)行研究。


 

未來在像素級(jí)別的圖像理解與更高級(jí)別的視覺內(nèi)容語(yǔ)義理解之間,我們將看到更緊密的耦合,進(jìn)而解鎖更強(qiáng)大的 AI 系統(tǒng)。

https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/

https://www.zhihu.com/question/593914819

分享到:
標(biāo)簽:CV
用戶無頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定