利用深度學習來提升語音增強效果和魯棒性,已成為實時音視頻通信領域研究的熱點之一。釘釘蜂鳴鳥音頻實驗室提出了一種新的窄帶濾波網絡架構,可大幅提升去噪和去混響聯合語音增強效果,提升音頻質量,相關論文已被語音領域頂會INTERSPEECH 2022收錄。
INTERSPEECH是由國際語音通訊協會(ISCA)創辦的頂級學術會議,也是全球最大的綜合性語音領域的科技盛會,在國際上享有極高盛譽并具有廣泛的學術影響力,歷屆INTERSPEECH會議都倍受全球各地語音研究領域人士的關注。
不同于目前普遍以全頻帶語音信息作為輸入的實現方式,釘釘蜂鳴鳥音頻實驗室提出的窄帶濾波網絡架構,是以每個頻帶信息作為輸入,讓每個頻帶共享網絡參數,并引入聽覺研究領域的頻-時調制譜感受區(spectro-temporal receptive fields,STRFs)。
窄帶濾波網絡架構的目的,是從本質上提高輸入的頻帶信息對語音和非語音的鑒別力,從而大幅提升窄帶濾波網絡消除噪音和混響的算法效能。
測試證明,相比帶寬濾波網絡,這種輕量的模型能得到更好的實時單通道語音增強效果,可提升20%的語音質量,并減少約70%的網絡模型大小,大幅降低推理的復雜度,可應用于在噪雜的辦公室、大會議室等復雜場景中提升語音質量。
值得一提的是,該研究也驗證了僅用一個神經網絡模型進行多項語音增強任務的可行性。過去,在音頻鏈路中部署過多不同神經網絡模型,會導致消耗過多的運算資源,而采用一個模型,將有效緩解神經網絡在落地過程中遇到的難點。
據介紹,釘釘蜂鳴鳥音頻實驗室提出的關于「兼容指向型麥克風的波達方向與距離的聯合估計框架」的論文一并入選INTERSPEECH,該框架是用于提升聲源定位的精度和效果。
實驗室研究人員表示:“波達方向與距離估計對于聲源定位技術是相當關鍵的信息。我們提出的算法首先對聲音信號傳播進行建模,融合不同傳感器/麥克風類型(全向和指向型),再利用稀疏貝葉斯學習框架準確地聯合判斷出波達方向與距離信息,可應用于多聲源定位。”
實驗證明,在雙聲源場景下,當信噪比(signal-to-noise ratio SNR)達到8dB,波達方向估計誤差即能控制在1度以內,距離估計誤差能控制在0.1米之內。
釘釘蜂鳴鳥音頻實驗室旨在用傳統信號處理結合深度學習算法,來解決實時語音通信碰到的復雜問題,提升釘釘會議、直播以及合作會議硬件的產品體驗,并探索下一代音視頻形態。其重點研究方向包括音頻3A算法、單通道/多通道語音增強、聲源定位等。