【ITBEAR】近日,科技媒體MSPoweruser報道了一項微軟新獲得的專利,該專利描述了一種能夠根據用戶實時語音輸入生成圖片的技術。據悉,這項專利于2023年4月5日提交申請,并于10月10日獲得美國商標和專利局的批準,共計20頁。
根據專利描述,這一創新系統能夠在會議或講座中實時捕捉音頻,通過語言模型進行總結,并據此生成相應的AI圖像,以增強視覺溝通效果。
具體工作流程包括三個步驟:首先,用戶通過麥克風發言,系統實時記錄并轉化為文本;其次,分段記錄文本,并通過語言模型對每段內容進行總結;最后,根據這些總結生成的提示,系統創建并實時顯示AI生成的圖像。
預計這一功能將主要應用于Microsoft Teams平臺。隨著演講者話題的變化,實時生成的圖像也會隨之更新,有助于澄清概念,尤其適合需要視覺輔助學習的用戶。
微軟表示,這種創新技術不僅能夠提升溝通效率,還能為學習者提供更加直觀、生動的視覺輔助,有望在未來的在線會議和教育領域發揮重要作用。