10月15日消息,火山引擎在視頻云技術(shù)大會(huì)上發(fā)布了大模型訓(xùn)練視頻預(yù)處理方案。目前,該技術(shù)方案已應(yīng)用于豆包視頻生成模型。
火山引擎總裁譚待在活動(dòng)致辭表示,在AIGC、多模態(tài)等技術(shù)的共同推動(dòng)下,用戶體驗(yàn)在多個(gè)維度上經(jīng)歷著深刻轉(zhuǎn)變,“基于抖音業(yè)務(wù)實(shí)踐和與行業(yè)客戶共創(chuàng),火山引擎視頻云正積極探索AI大模型與視頻技術(shù)的深度融合,在技術(shù)底座、處理鏈路和業(yè)務(wù)增長(zhǎng)層面為企業(yè)尋找解法。”譚待說(shuō)。
據(jù)介紹,對(duì)訓(xùn)練視頻進(jìn)行預(yù)處理是保障大模型訓(xùn)練效果的重要前提。預(yù)處理過(guò)程可以統(tǒng)一視頻的數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量、實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化、減少數(shù)據(jù)量以及處理標(biāo)注信息,從而使模型能更高效地學(xué)習(xí)視頻中的特征和知識(shí),提升訓(xùn)練效果和效率。
抖音集團(tuán)視頻架構(gòu)負(fù)責(zé)人王悅表示,對(duì)大模型廠商而言,上述過(guò)程中面臨著諸多挑戰(zhàn)。
“首先,超大規(guī)模視頻訓(xùn)練數(shù)據(jù)集導(dǎo)致計(jì)算和處理成本激增,”王悅說(shuō),“其次是視頻樣本數(shù)據(jù)參差不齊,然后是處理鏈路環(huán)節(jié)多、工程復(fù)雜,最后還面臨著對(duì)GPU、CPU、ARM等多種異構(gòu)算力資源的調(diào)度部署。”
借助Intel的CPU、GPU等不同資源,火山引擎此次發(fā)布的大模型訓(xùn)練視頻預(yù)處理方案依托于自研的多媒體處理框架BMF,能有效應(yīng)對(duì)模型訓(xùn)練的算力成本挑戰(zhàn)。此外,該方案還在算法和工程方面進(jìn)行了調(diào)優(yōu),可以對(duì)海量視頻數(shù)據(jù)高質(zhì)量預(yù)處理,短時(shí)間內(nèi)實(shí)現(xiàn)處理鏈路的高效協(xié)同,提高模型訓(xùn)練效率。值得一提的是,火山引擎本次還發(fā)布并開(kāi)源了移動(dòng)端后處理解決方案BMF lite版本。BMF lite支持端側(cè)大模型接入和算子加速,更加輕量、通用。
據(jù)了解,豆包視頻生成模型PixelDance于9月24日發(fā)布,該模型采用 DiT 架構(gòu),通過(guò)高效的DiT融合計(jì)算單元和全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法,突破了多主體運(yùn)動(dòng)的復(fù)雜交互、多鏡頭切換的內(nèi)容一致性難題。目前,豆包視頻生成模型已通過(guò)火山引擎面向企業(yè)開(kāi)啟邀測(cè)。
【來(lái)源:網(wǎng)易科技】