日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

  10月31日上午,科大訊飛和搜狗兩家公司幾乎在同一時間,都表示自己獲得了IWSLT2018國際口語機器翻譯評測比賽的第一名。看到這個奪冠“撞車”的消息,讓網友們不禁產生了強烈的疑惑:又不是并列第一名(搜狗明確說明了擊敗訊飛),這一個比賽里為什么會有兩個世界冠軍呢?

  隨后,我們通過IWSLT2018大賽官網并對比兩家的獲獎新聞,終于搞懂了這個“一個冠軍,各自表述”的緣由。

  訊飛or搜狗,究竟誰是第一?

  作為國際上最具影響力的口語機器翻譯評測比賽,每年舉辦一次的IWSLT確實是擁有足夠的地位分量,至今已經舉辦了15屆。通過查閱名單可知,IWSLT 2018 有全球很多的機器翻譯領域的研究機構參加。

  地址鏈接如下,可自行查看:

  https://workshop2018.iwslt.org/downloads/Proceedings_IWSLT_2018.pdf

  從介紹來看,本屆IWSLT 2018的口語機器翻譯任務,是將英語演講語音翻譯成對應的德語文本。需要注意的是,這里所謂的翻譯是把語音信號翻譯成目標語言文本,并非我們熟悉的文本到文本的翻譯。也就是說,這個比賽所要評測的是語音翻譯能力,正是之前科大訊飛曾經鬧出過“人機耦合”笑話的機器翻譯技術。

  本屆IWSLT2018評測比賽中,搜狗與訊飛是在兩個不同的賽道里分別奪冠,一個叫做baseline模型賽道,一個叫做端到端(end-to-end)模型賽道。

  兩者雖然都是冠軍,含金量的差別卻很大。

  對于普通用戶來說,基本可以這么理解:IWSLT這場國際口語機器翻譯評測大賽分為大師賽和新秀賽兩個賽道。搜狗獲得了baseline模型賽道的冠軍,這個賽道是目前最主流的賽道,代表著實用語音翻譯技術的最高水平,是本次評測的大師賽,目前市面上機器同傳、翻譯機等語音翻譯類產品幾乎都采用了類似的方法,訊飛本次也參與了這個賽道,從官方給出的成績看,訊飛以1.6個BLEU的劣勢落后搜狗位居第二位。

  另一方面,科大訊飛獲得第一名的端到端(end-to-end)賽道屬于本次評測新設置的賽道,各方面的技術都處于初級階段,仍在沉淀和積累中,相當于本次評測的新秀賽,新秀是否能成長為大師,仍有待長時間的檢驗,還無法代表行業主流水平,搜狗本次并未參加端到端賽道的評測,但其團隊在之前多個技術交流中都曾透露過正在研發端到端語音翻譯技術,并取得了階段性突破,由此可推斷,搜狗參與本次評測更多是檢驗自研的實用語音翻譯技術在行業的位置。

  詳解兩種模型的技術差異

  作為目前最主流的應用技術,baseline模型對應的語音翻譯方案,包含語音識別、機器翻譯兩大模塊,采用的是多步走的流水線設計,即語音信號先輸入語音識別系統(automatic speech recognition, ASR)得到源語言的識別文本,然后再將識別文本送入機器翻譯系統(neural machine translation, NMT)輸出目標語言的對應譯文。

  根據搜狗在知乎上的介紹(https://zhuanlan.zhihu.com/p/45176217),搜狗同傳系統就是baseline模型賽道對應的典型方案,整個系統共分為5個技術模塊,除了語音識別、機器翻譯、語音合成三大技術模塊之外,還新增了語音預處理和文本預處理兩大模塊,確保三項技術能夠更好的聯合優化,真正實現1 + 1 + 1 > 3的效果。

  使用流水線方案的好處是,各大技術模塊可以獨立優化,充分利用語音識別、機器翻譯技術領域內的優化技術以及海量數據,大幅提升單點技術效果,為了更加有效的將ASR和NMT兩個系統連接起來,搜狗同傳系統主要進行了兩方面的工作:

  1) 增加了文本預處理模塊處理識別文本中的識別錯誤、口語化表達、語氣詞、文本不流利、斷句等問題,將處理后的文本送到文本翻譯模塊進行翻譯,實現了語音識別和機器翻譯的有效結合;

  2) 訓練出語音識別、機器翻譯任務內最優的模型之后,引入聯合訓練機制,進一步提升語音翻譯效果。

  羅馬不是一天建成的,搜狗在同傳、翻譯機等產品上對實用語音翻譯技術的深耕和積累,在本次評測的成績上得到了充分展現,官方公布的成績上,我們看到搜狗以高達28的BLEU位居baseline賽道第一。

  PS:BLEU是一種機器翻譯自動評價的方法,是衡量方案優劣的重要指標,其數值越大意味著越準確。

  官方公布的結果中,訊飛在端到端(end-to-end)賽道獲得了冠軍。

  端到端語音翻譯技術,是指繞開語音識別、機器翻譯等各模塊單獨優化的階段,輸入語音經過神經網絡變換直接輸出目標語言的譯文序列,并不會產生源語言的識別中間結果。其目的是將語音翻譯系統簡化到一個深度神經網絡中,減少識別錯誤等帶來的翻譯質量下降。

  要注意的是,端到端語音翻譯方案目前仍然處于早期學術研究階段,訓練方法和神經網絡具體結構都不成熟,同時由于(語音-目標語言譯文)的數據對難以大規模采集,因此數據和模型優勢無法形成有效的協同,效果提升收到很大的阻力。

  現階段,端到端(end-to-end)的方案基本沒有辦法進行商業使用和普及推廣,但已經成為未來可能優化語音翻譯效果的方案之一。以科大訊飛這次奪冠的成績來看,僅僅得到了19.4的BLEU,與baseline模型中的效果相差甚遠,基本不具備實際的推廣意義和商用價值。更何況,在訊飛奪冠的端到端(end-to-end)賽道之中,一共只有四支隊伍而已,像是阿里巴巴和搜狗就壓根都沒有進行報名參賽。這兩個賽道由于訓練數據量的差異,各自BLEU值不具有直接的可比性。但是在baseline賽道,相同數據量的情況下,訊飛是實實在在的敗給了搜狗。

  所以說,如果IWSLT國際口語機器翻譯評測大賽算是一場“全明星大賽”,那么baseline模型算是“東西對抗”級別的頂級交鋒。而新添加的端到端(end-to-end)項目,也只是一場非主流的新秀表演賽罷了。

  由于科大訊飛在自家的獲獎宣傳中,有意無意的模糊了這一層技術差別。在這里,我們也并不想去論證科大訊飛的行為對錯,只是單純從技術分析的客觀角度,給各位讀者們分析IWSLT比賽里兩個冠軍的分量區別,并希望這些中國的AI企業能夠憑借自身的科研實力,取得更好的成績。

  總之,從“同傳造假門”到“再獲世界第一”,希望科大訊飛未來的AI之路能走的踏實些吧。

分享到:
標簽:搜狗訊飛分獲IWSLT2018評測第一 到底哪個冠軍更有份量 熱點資訊
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定