隨著智能語音技術應用場景的日益豐富,多人交互場景下的智能語音處理技術受到了越來越多的關注。其中,最為常見的就是會議場景。
當下,會議已經成為職場人日常工作中不可缺少的溝通交流方式。每周大會小會不斷,接入會議的方式也越來越多樣,例如現場參會、電腦入會、手機入會、電話入會等。而多人會議場景普遍存在語音口語化、環境噪聲、房間混響和人聲重疊等問題,都會影響會議音頻數據采集效果,給實時語音識別、錄音文件轉寫等需求帶來挑戰。
尤其近幾年,疫情影響下,“云辦公”需求呈現爆發式增長,越來越多的企業衍生出線上線下協同開會的混合式會議形式。隨之而來的,是如何有效應對企業在不同會議場景下的開會需求,減少會議流程、提高溝通效率成為重點關注話題。
無論是線下會議還是線上會議,提供高品質音頻都是其核心能力。而且會議形式越多,對于會議音頻采集能力的要求就越高。標貝科技深耕AI數據服務領域多年,積累了豐富的復雜場景多人會議數據制作項目經驗,可支持多設備多通道的語音錄制、覆蓋金融保險、醫療、教育、政府機關、房地產等數十個行業領域會話內容。
標貝科技多人會議音頻采集方案
標貝科技多人會議音頻采集方案模擬真實會議場景,包括大型會議、中型會議和小型會議等多人會議類型,采用線性和環形16麥克風錄制,可以有效增強噪聲環境中參會人說話聲音信號,提升音頻采集質量。并將采集到的實時語音數據切分為標準的語音數據包,便于語音處理引擎對語音數據包進行識別處理。
▍方案特點
◆ 模擬會場真實環境,包括會議室墻面(水泥墻、玻璃墻等),會議室裝飾(沙發、電視、電子屏幕、空調、植物等);
◆搭配會議系統,適應室內輕微噪音,包含參會人員非刻意鍵盤敲擊、開關門、空調等聲音,拾音清晰;
◆語種支持中文普通話,包含部分中英混場景;
◆錄音設備為16麥線性、16麥環形、近講耳麥手機數據時間對齊誤差差小于10ms,說話人角度誤差小于10°;
◆可以針對各個角色的語音實時識別,生成單獨的錄音文件;
◆自研的多設備多通道對齊技術,有效解決時鐘不同步問題。
▍適用場景
會議作為多人對話領域中組織高效協同的核心場景,對語音轉文字相關應用有著強需求。標貝科技多人會議音頻采集方案適用于包括會議紀要、培訓記錄、實時演講字幕、訪談錄音轉寫、法庭庭審實時記錄等多個場景,為語音識別需求提供高質量音頻數據。
政企會議:用于政府和企業的重要會議、公檢法庭審等會議內容記錄等場景,高效采集多人發言音頻,便于速記并輸出與會者發言內容或庭審內容。
演講培訓:用于企業和個人的公開演講或內部培訓記錄等場景,可完整的采集演講音頻內容,用于轉寫存量音頻以及后期校對和整理語音記錄。
交流訪談:用于律師取證、咨詢顧問、企業面試、課題等專業領域的訪談語音采集記錄,輸出訪談內容文稿并轉寫存量音頻。
標貝科技多人會議數據集
眾所周知,基于機器學習的各種技術,往往都離不開算法和數據的積累。想要提高會議場景下語音識別的準確率,就需要采集大量的優質會議場景數據作為模型訓練支撐。
除了提供多人會議音頻采集方案,標貝科技還針對不同的會議主題,精心制作了高質量的多人會議語音數據集,包括了實際會議場景下各種特性,例如停頓、重疊、說話人輪轉、噪聲等,提高會議場景語音識別準確性。
中文普通話會議音頻數據集
語種:中文普通話
錄音環境:室內會場真實環境
數據時長:100小時
錄音語料:不同主題的自由對話
文件格式:WAV, TXT
語音參數:16 kHz/16 bits
適用領域:語音識別
歡迎對以上數據集感興趣的行業伙伴聯系我們~