近日,國內(nèi)企業(yè)聯(lián)匯科技OmAgent開源智能體核心模型OmDet-Turbo模型憑借在技術(shù)領(lǐng)域的算法創(chuàng)新和卓越性能,正式收錄進(jìn)入Transformers。OmDet-Turbo模型開源項目自在GitHub發(fā)布以來,迅速獲得了業(yè)界的廣泛認(rèn)可與好評,目前在已在GitHub獲得了超1500 star。
Transformers庫是由Hugging Face公司維護(hù)的開源項目,它提供了豐富的預(yù)訓(xùn)練模型和工具,被全球數(shù)百萬開發(fā)者用于自然語言處理和其他機(jī)器學(xué)習(xí)任務(wù)。本次OmDet-Turbo模型憑借其高效的目標(biāo)檢測能力和出色的算法優(yōu)化與在實際應(yīng)用中的高效、穩(wěn)定,獲得Transformers官方青睞。
隨著正式收錄進(jìn)Transformers,這一先進(jìn)目標(biāo)檢測技術(shù)將為全球的研究人員和開發(fā)提供更加強大和便捷的開放技術(shù),為深度學(xué)習(xí)和計算機(jī)視覺任務(wù)領(lǐng)域的技術(shù)創(chuàng)新與進(jìn)步提供了強大的算法支持。
了解OmDet-Turbo
OmDet-Turbo 是一種實時的 transformer-based 開放詞表目標(biāo)檢測大模型,結(jié)合了強大的 OVD 能力和快速的推理速度。該模型通過引入高效融合頭(Efficient Fusion Head, EFH)模塊,顯著降低了特征編碼和多模態(tài)融合的計算復(fù)雜性,同時保持了良好的泛化能力和檢測精度。
具體來說,EFH 使用高效的語言感知編碼器(ELA-Encoder)和解碼器(ELA-Decoder)來替代傳統(tǒng)的重型編碼器和 ROIAlign 模塊,從而實現(xiàn)更高效的視覺-語言融合。OmDet-Turbo 在 COCO 和 LVIS 數(shù)據(jù)集上的零樣本檢測性能接近當(dāng)前最先進(jìn)的監(jiān)督模型,并在 ODinW 和 OVDEval 數(shù)據(jù)集上創(chuàng)下了新的性能基準(zhǔn),分別達(dá)到了 30.1 和 26.86 的 AP 分?jǐn)?shù)。此外,OmDet-Turbo-Base 在 A100 GPU 上的推理速度可以達(dá)到 100.2 FPS,展示了其在實際應(yīng)用中的卓越性能,解決了OVD模型在實際應(yīng)用中的推理速度慢的痛點。OmDet-Turbo 通過創(chuàng)新的架構(gòu)設(shè)計和高效的計算方法,成為實時目標(biāo)檢測任務(wù)中的一個強力選擇。
OmDet-Turbo開源項目將在未來開源更多、更強的模型,敬請關(guān)注聯(lián)匯GitHub項目,獲取最新動態(tài)和資源。github開源倉庫搜索OmDet即可體驗。