近日,在2024世界移動通信大會(MWC 2024)期間,慧鯉科技與聯(lián)發(fā)科技再次聯(lián)袂推出生成式AI在端側的創(chuàng)新應用。基于聯(lián)發(fā)科技天璣 9300 集成的新一代 AI 處理器和慧鯉科技LoRA 融合的技術整合,用戶在端側設備上錄制影像時,可以實時生成不同動畫風格的視頻。這也是業(yè)內(nèi)首個基于LoRA融合技術在端側實時生成視頻的應用,為端側生成式AI落地進一步刷新了應用邊界。

端側處理,秒速生成,慧鯉LoRA融合技術實時生成趣味視頻
作為聯(lián)發(fā)科技在生成式AI技術領域的重要合作伙伴,慧鯉科技結合聯(lián)發(fā)科技生成式AI模型端側“技能擴充”技術NeuroPilot Fusion,在基礎模型上持續(xù)擴展AI應用和功能,并于移動終端裝置成功實現(xiàn)多種風格化視頻的實時生成能力,開辟出一系列手機AI應用新玩法。
在風格化基礎模型以及風格LoRA模型訓練過程中,慧鯉通過一致性蒸餾算法大幅減少了擴散模型的運行步數(shù),并依托聯(lián)發(fā)科技NeuroPilot框架,以無分類器指導蒸餾進一步降低擴散模型的單步耗時。在保證輸出質(zhì)量的同時,慧鯉實現(xiàn)了手機端接近1幀/s在線風格化生成效果,使生成體驗更加自然流暢。
在現(xiàn)場體驗中,用戶可以通過該功能在手機拍攝過程中精準識別人物影像,并轉化為各種風格的趣味視頻。除此之外,模型還可以將畫面中的背景、人物手持的物品等,穩(wěn)定細致地轉化為與畫風調(diào)性相契合的背景和道具,讓整體視頻效果更自然協(xié)調(diào)。例如,用戶手持圓盤形物品拍攝視頻時,在油畫風格的視頻中,圓盤被識別并再創(chuàng)作為調(diào)色盤,而在賽博朋克風格中,圓盤則被定義并展示為一個盾牌。

以往在手機端的應用中,由于LoRA和基礎模型綁定,切換不同藝術風格的LoRA時需要替換整個模型才能實現(xiàn)驅動,在實際視頻拍攝中難以實時切換及加載。當應用中包含多種風格LoRA時,則需要占用大量內(nèi)存,導致安裝包對內(nèi)存的要求為GB級別?,F(xiàn)在,慧鯉結合NeuroPilot框架的lora fusion功能,將自主訓練的多種藝術風格LoRA模型尺寸壓縮至10MB級別,不同LoRA配合單個基礎大模型使用,可以讓用戶在極短時間內(nèi)隨意切換,運行處理速度更加快捷,充分滿足端側AI用戶的個性化體驗需求。
激活生成式AI創(chuàng)作熱度,搶灘AI自媒體時代
近年來,生成式AI在內(nèi)容創(chuàng)作賽道的持續(xù)火熱,內(nèi)容創(chuàng)作者和消費者都在迫切呼喚更新穎、更前沿的應用體驗?;埘幎藗萀oRA融合的應用成果,在“人人都是自媒體”的時代開啟了更具想象力的創(chuàng)作空間。
在抖音、小紅書等內(nèi)容社交平臺中,此前的手機拍攝創(chuàng)作玩法,主要以美顏濾鏡、添加掛件等為主。端側LoRA 融合帶來的視頻生成新玩法,為用戶的內(nèi)容靈感、拍攝風格提供了更多新選項,并極大提升創(chuàng)作效率。基于實時視頻生成功能,用戶在實時拍攝中可自由選擇賽博朋克、水彩、油畫、水墨、卡通等多種畫風,拍攝結束后視頻即時生成,元素豐富、高質(zhì)高效,體驗感極佳。
另外,在文旅等落地場景中,手機拍攝實時生成視頻的應用前景更為廣泛。創(chuàng)作者打卡過程中,僅需實地錄制一個畫面,即可通過該功能選項創(chuàng)作不同風格作品,任意穿越各種畫風的異次元世界,為用戶帶來更多充滿創(chuàng)意的沉浸式體驗。
伴隨著端側生成式AI的發(fā)展,移動端AI賽道潛力正在充分顯現(xiàn)。LoRA融合等技術的應用升級,將進一步挖掘AI在手機等端側設備的應用潛力,并賦能各領域賽道選手加速入場,開拓更大的參與空間。作為大模型時代的探索家和建設者,慧鯉科技將繼續(xù)加碼技術賦能,為伙伴和用戶帶來更多前沿AI應用體驗。