百度商業研發團隊近期宣布了兩項創新成果:自研視頻生成模型“MuseSteamer”及配套的創作平臺“繪想”。這一突破性技術標志著全球首個中文音視頻一體化生成視頻模型的誕生,它顛覆了傳統AIGC視頻制作中畫面與音效、人聲臺詞分步進行的舊模式,實現了兩者的協同創作。
“MuseSteamer”在技術上取得了顯著成就,于權威評測VBench I2V中榮獲全球榜首,總分高達89.38%。該模型不僅能夠根據一張圖片生成長達10秒、分辨率為1080p的電影級畫質視頻,而且在人物微表情和運鏡效果方面達到了專業影視制作的標準。這些卓越表現得益于其背后的強大技術支撐,包括億級中文多模態數據的精細處理、創新的視頻結構化描述語言,以及多目標強化學習算法的不斷優化。
“MuseSteamer”模型家族涵蓋了Turbo、Lite、Pro及全系列有聲版,旨在滿足不同創作者的需求,從普通用戶到專業影視機構均可找到適合自己的版本。目前,Turbo版已在“繪想”平臺上開放限時免費公測,吸引了大批創作者體驗。其余版本也計劃在8月陸續與用戶見面。為進一步激發創作熱情,“繪想”平臺還啟動了“跨次元捏合”AI視頻創作大賽,用戶只需上傳一張圖片,即可生成富有創意的動態視頻作品參與競賽。