【ITBEAR】在視頻云技術(shù)大會(huì)上,火山引擎推出了一項(xiàng)針對(duì)大模型訓(xùn)練視頻預(yù)處理的新方案,該方案已被應(yīng)用于豆包視頻生成模型。火山引擎總裁譚待在活動(dòng)中表示,受AIGC和多模態(tài)技術(shù)推動(dòng),用戶體驗(yàn)正經(jīng)歷深刻變革。他強(qiáng)調(diào),火山引擎視頻云正基于抖音業(yè)務(wù)實(shí)踐,探索AI大模型與視頻技術(shù)的深度融合,旨在從技術(shù)底座、處理鏈路和業(yè)務(wù)增長層面為企業(yè)提供解決方案。
預(yù)處理訓(xùn)練視頻是確保大模型訓(xùn)練效果的關(guān)鍵步驟。通過預(yù)處理,可以統(tǒng)一視頻數(shù)據(jù)格式、提升數(shù)據(jù)質(zhì)量、實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化、減少數(shù)據(jù)量以及處理標(biāo)注信息,使模型能夠更高效地學(xué)習(xí)和提取視頻中的特征和知識(shí),從而提升訓(xùn)練效果和效率。
抖音集團(tuán)視頻架構(gòu)負(fù)責(zé)人王悅指出,大模型廠商在視頻預(yù)處理過程中面臨多重挑戰(zhàn),包括超大規(guī)模視頻訓(xùn)練數(shù)據(jù)集帶來的高昂計(jì)算和處理成本、視頻樣本數(shù)據(jù)的質(zhì)量參差不齊、處理鏈路環(huán)節(jié)眾多且工程復(fù)雜,以及需要調(diào)度部署多種異構(gòu)算力資源,如GPU、CPU和ARM。
為了應(yīng)對(duì)這些挑戰(zhàn),火山引擎依托自研的多媒體處理框架BMF,發(fā)布了新的大模型訓(xùn)練視頻預(yù)處理方案。該方案能夠有效降低模型訓(xùn)練的算力成本,同時(shí)在算法和工程方面進(jìn)行了優(yōu)化,能夠高質(zhì)量地預(yù)處理海量視頻數(shù)據(jù),并在短時(shí)間內(nèi)實(shí)現(xiàn)處理鏈路的高效協(xié)同,從而提升模型訓(xùn)練效率。火山引擎還發(fā)布并開源了BMF lite版本,這是一個(gè)移動(dòng)端后處理解決方案,支持端側(cè)大模型接入和算子加速,更加輕量且通用。
豆包視頻生成模型PixelDance于9月24日發(fā)布,采用DiT架構(gòu),并通過高效的DiT融合計(jì)算單元和全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法,解決了多主體運(yùn)動(dòng)的復(fù)雜交互和多鏡頭切換的內(nèi)容一致性難題。目前,豆包視頻生成模型已通過火山引擎向企業(yè)開放邀測(cè)。