【ITBEAR】近日,科技媒體MSPoweruser報道了一項微軟新獲得的專利,該專利描述了一種能夠根據(jù)用戶實時語音輸入生成圖片的技術(shù)。據(jù)悉,這項專利于2023年4月5日提交申請,并于10月10日獲得美國商標(biāo)和專利局的批準(zhǔn),共計20頁。
根據(jù)專利描述,這一創(chuàng)新系統(tǒng)能夠在會議或講座中實時捕捉音頻,通過語言模型進(jìn)行總結(jié),并據(jù)此生成相應(yīng)的AI圖像,以增強視覺溝通效果。
具體工作流程包括三個步驟:首先,用戶通過麥克風(fēng)發(fā)言,系統(tǒng)實時記錄并轉(zhuǎn)化為文本;其次,分段記錄文本,并通過語言模型對每段內(nèi)容進(jìn)行總結(jié);最后,根據(jù)這些總結(jié)生成的提示,系統(tǒng)創(chuàng)建并實時顯示AI生成的圖像。
預(yù)計這一功能將主要應(yīng)用于Microsoft Teams平臺。隨著演講者話題的變化,實時生成的圖像也會隨之更新,有助于澄清概念,尤其適合需要視覺輔助學(xué)習(xí)的用戶。
微軟表示,這種創(chuàng)新技術(shù)不僅能夠提升溝通效率,還能為學(xué)習(xí)者提供更加直觀、生動的視覺輔助,有望在未來的在線會議和教育領(lǐng)域發(fā)揮重要作用。