日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

本文來(lái)自阿里巴巴淘系技術(shù)部 高級(jí)算法專家王立波在LiveVideoStackCon 2020線上峰會(huì)的分享,從直播背景、直播痛點(diǎn)分析、窄帶高清、云視頻技術(shù)趨勢(shì)幾方面詳細(xì)介紹了如何在確保用戶體驗(yàn)QOS不變的前提下,實(shí)現(xiàn)淘寶直播的技術(shù)架構(gòu)升級(jí)和成本大幅縮減。

文 / 王立波

整理 / LiveVideoStack

淘寶直播窄帶高清技術(shù)

 

本次分享內(nèi)容主要分為五個(gè)部分,首先是全民直播大時(shí)代的背景介紹,第二是直播痛點(diǎn)分析,第三是淘寶直播窄帶高清技術(shù),第四是音視頻技術(shù)趨勢(shì)探討,最后是在線互動(dòng)。

1 背景-全民直播大時(shí)代

淘寶直播窄帶高清技術(shù)

 

在疫情的影響下,直播從傳統(tǒng)的秀場(chǎng)應(yīng)用逐漸滲透到行業(yè)的各個(gè)領(lǐng)域。包括在線課堂,旅游,政企,房車銷售等等,可以說(shuō)是全民直播時(shí)代已經(jīng)到來(lái)。

淘寶直播窄帶高清技術(shù)

 

在這樣的一個(gè)大背景下,過(guò)去一年淘寶直播得以快速發(fā)展。2019年,淘寶直播擁有了4億+的年度用戶規(guī)模,有100萬(wàn)+年度主播入駐,2000億+年度直播成交以及4000萬(wàn)+直播商品。春節(jié)期間,釘釘在線課堂更是有350萬(wàn)+的教師主播,為1.2億+中小學(xué)生提供了在線課程服務(wù)。

2 直播痛點(diǎn)分析

淘寶直播窄帶高清技術(shù)

 

在這么大的一個(gè)業(yè)務(wù)體量下,我們將會(huì)面對(duì)非常多的難點(diǎn)與挑戰(zhàn)。總的來(lái)說(shuō),包含以下三個(gè)部分,首先是成本,包括帶寬、存儲(chǔ)和轉(zhuǎn)碼三個(gè)方面。其次是用戶體驗(yàn),例如畫(huà)質(zhì),音質(zhì),秒開(kāi)、卡頓和延時(shí)。最后是效率方面,例如開(kāi)播的效率、審核的效率和理解分發(fā)的效率。接下來(lái)我們就來(lái)看一下淘寶在成本和體驗(yàn)優(yōu)化方面做了哪些工作。

3 淘寶直播窄帶高清技術(shù)

3.1 淘寶直播窄帶高清

淘寶直播窄帶高清技術(shù)

 

淘寶直播有三大核心技術(shù),第一大核心技術(shù)是端上窄帶高清。我們采用HEVC編碼實(shí)現(xiàn)了720p,25fps,800kbps的壓縮,并且PSNR> 43db/VMAF>90。端上窄帶高清技術(shù)主要應(yīng)用有三個(gè)方面:第一是音視頻增強(qiáng),采用基于AI的圖像增強(qiáng)、美顏和語(yǔ)音增強(qiáng)來(lái)提高生產(chǎn)質(zhì)量。第二是感知處理,采用信源信道聯(lián)合自適應(yīng)編碼。第三是S265編碼器,S265編碼器是業(yè)界領(lǐng)先的HEVC編碼器。

第二大核心技術(shù)是零轉(zhuǎn)碼系統(tǒng),我們實(shí)現(xiàn)了端到端原始流生產(chǎn)的和播放,成功的解決了兩個(gè)核心的痛點(diǎn)問(wèn)題:不同網(wǎng)絡(luò)速度的兼容和不同播放設(shè)備的兼容,后者主要通過(guò)高性能解碼器實(shí)現(xiàn)IOS,Android和H5三端的100%解碼。

第三大核心技術(shù)是低延時(shí)技術(shù),我們實(shí)現(xiàn)了端到端秒級(jí)延時(shí)。主要依靠?jī)蓚€(gè)技術(shù),一個(gè)是基于RTC的實(shí)時(shí)直播系統(tǒng),第二個(gè)是S265低延時(shí)編碼技術(shù)。

3.2 淘寶直播系統(tǒng)架構(gòu)

淘寶直播窄帶高清技術(shù)

 

如圖所示淘寶直播的系統(tǒng)架構(gòu),從生產(chǎn)側(cè)來(lái)看,有采集、增強(qiáng)、感知處理、S265編碼四個(gè)環(huán)節(jié)。云端我們有邊緣的接入,有中心接入、切片錄制和CDN分發(fā)以及邊緣分發(fā)。在播放端有擁塞控制、解碼、渲染和顯示。除此之外,在云端還有內(nèi)容審核,質(zhì)量監(jiān)控,內(nèi)容理解和智能分發(fā)。

3.3 端上窄帶高清

淘寶直播窄帶高清技術(shù)

 

生產(chǎn)側(cè)的第一個(gè)環(huán)節(jié)是圖像增強(qiáng),為了提升主觀質(zhì)量,我們引入了圖像增強(qiáng)技術(shù),對(duì)編碼前的視頻做去噪、去抖、紋理增強(qiáng)以及美顏、美型的功能。除此以外,在后處理部分,我們還引入了適時(shí)超分和HDR技術(shù)來(lái)提高觀看質(zhì)量。在美顏、美型以及圖像處理等方面,我們引入了GPU的技術(shù),包括內(nèi)存帶寬優(yōu)化、shader優(yōu)化、Pipeline優(yōu)化等等以減少GPU的開(kāi)銷。

淘寶直播窄帶高清技術(shù)

 

針對(duì)音質(zhì)的優(yōu)化,我們采用了智能降噪技術(shù)。無(wú)論是在STO還是PESQ的指標(biāo)上都顯著高于傳統(tǒng)WebRTC算法,在性能和包大小方面也都可以實(shí)現(xiàn)普通設(shè)備的覆蓋。下面播放的三段音頻,分別是原始音頻、RTC降噪和阿里降噪音頻。原始音頻我們可以明顯聽(tīng)到馬路上車呼嘯而過(guò)的聲音非常強(qiáng)烈。RTC降噪音頻中降噪產(chǎn)生了一定的效果,但是汽車飛馳而過(guò)的呼嘯聲還是非常明顯。而在阿里降噪音頻中,我們可以聽(tīng)到汽車呼嘯而過(guò)的聲音已經(jīng)基本消失。

淘寶直播窄帶高清技術(shù)

 

生產(chǎn)的第二個(gè)環(huán)節(jié)是感知處理。我們采用信源信道聯(lián)合自適應(yīng)編碼技術(shù)。感知處理分為5個(gè)方面,首先是ROI區(qū)域的感知,我們基于PixelAI人臉檢測(cè)加商品檢測(cè),對(duì)ROI區(qū)域進(jìn)行提取和重點(diǎn)編碼。第二是場(chǎng)景的感知,不同的場(chǎng)景適合不同的編碼參數(shù),我們通過(guò)對(duì)場(chǎng)景進(jìn)行分類,對(duì)于不同的場(chǎng)景賦予不同的編碼參數(shù)來(lái)提高壓縮質(zhì)量。第三個(gè)是智能碼控CARC,我們采用機(jī)器學(xué)習(xí)的碼率控制,對(duì)簡(jiǎn)單場(chǎng)景賦予較低的碼率,對(duì)復(fù)雜的場(chǎng)景賦予較高的碼率來(lái)實(shí)現(xiàn)對(duì)帶寬的節(jié)省。第四個(gè)是網(wǎng)絡(luò)帶寬的感知,在網(wǎng)絡(luò)比較好的時(shí)候,我們會(huì)采用比較高的碼率來(lái)實(shí)現(xiàn)畫(huà)質(zhì)的提升,在網(wǎng)絡(luò)不太好的時(shí)候,會(huì)降低碼率,避免發(fā)生帶寬擁塞,由于cdn采用峰值收費(fèi),峰谷時(shí)間段還可以采用不同碼率策略。最后是設(shè)備算力的感知,不同的設(shè)備擁有不同的算力,我們可以實(shí)時(shí)檢測(cè)設(shè)備的算力情況及時(shí)調(diào)整編碼的檔次,以此來(lái)實(shí)現(xiàn)對(duì)算力和質(zhì)量的平衡。

淘寶直播窄帶高清技術(shù)

 

生產(chǎn)的第三個(gè)環(huán)節(jié)是編碼,這又要講到我們核心的S265編碼器,得益于S265編碼器的編碼壓縮技術(shù),我們實(shí)現(xiàn)了淘寶直播的720p、800kbs、25fps編碼,相比于業(yè)界常見(jiàn)的720p 1600kbps 節(jié)省了50%的帶寬。釘釘?shù)脑诰€課堂我們更是把碼率壓縮到了200kbs,并實(shí)現(xiàn)了43db以上的質(zhì)量。S265是淘寶和阿里云共同發(fā)起的HEVC編碼器,目前已經(jīng)實(shí)現(xiàn)集團(tuán)內(nèi)部的開(kāi)源,并落地在點(diǎn)播、直播會(huì)議等各個(gè)場(chǎng)景中。相比起業(yè)界優(yōu)秀的HEVC編碼器,S265在PSNR指標(biāo)上有比較大的優(yōu)勢(shì)。首先在編碼工具提升方面,我們做了大量工作,實(shí)現(xiàn)了HierarchyB、GPB、Bi-Search、Longterm、RDOQ、AdaptGOP等編碼工具,并且對(duì)這些工具進(jìn)行了大量的算法和速度優(yōu)化。我們還設(shè)計(jì)了50多種快速算法,比如說(shuō)Deblock的優(yōu)化,編碼速度對(duì)比X265有1倍以上的提速。在工程上的優(yōu)化,我們做了浮點(diǎn)轉(zhuǎn)定點(diǎn)、位寬的縮減、SIMD的優(yōu)化、冗余去除、訪存效率提升及循環(huán)展開(kāi)等等來(lái)提升我們的編碼速度。在框架方面,我們還做了線程調(diào)度優(yōu)化等等。在碼率控制方面,我們對(duì)幀級(jí)別碼控和塊級(jí)別碼控分別進(jìn)行了優(yōu)化,并且對(duì)2pass編碼進(jìn)行了原創(chuàng)性的優(yōu)化來(lái)提高2pass編碼的質(zhì)量。在塊級(jí)別碼控中,我們?cè)O(shè)計(jì)了新的CUTree和AQ算法。

淘寶直播窄帶高清技術(shù)

 

下面來(lái)看一下S265的幾個(gè)典型優(yōu)化,首先是CU劃分決策,我們把CU劃分決策模塊分成兩個(gè)步驟,一是紋理強(qiáng)度決策,通過(guò)計(jì)算CU的紋理梯度來(lái)判別平坦塊和復(fù)雜塊,如果是平坦塊就直接退出,如果是復(fù)雜塊就繼續(xù)向下劃分。第一步可以解決大部分塊劃分的決策問(wèn)題,但是對(duì)于模棱兩可的塊,則需要依靠CNN模型來(lái)輔助劃分。我們使用了一個(gè)5層網(wǎng)絡(luò)的小模型把決策的準(zhǔn)確度從72%提升到了96%;這個(gè)成果我們跟清華大學(xué)劉老師合作發(fā)表了一篇論文,在DCC會(huì)議上展示。

淘寶直播窄帶高清技術(shù)

 

第二個(gè)方面的優(yōu)化是運(yùn)動(dòng)搜索方面的優(yōu)化。運(yùn)動(dòng)搜索是從參考幀尋找最佳匹配塊的過(guò)程,包含整像素搜索和分像素搜索,分像素需要做7抽頭或8抽頭插值濾波,計(jì)算量大;整像素搜索已經(jīng)有比較多的快速算法,比如菱形搜索、六邊形搜索及分層搜索,但分像素搜索一直沒(méi)有什么好的方法。比如在圖中矩形的整像素周圍,分布著60個(gè)分像素點(diǎn),如果要對(duì)分像素點(diǎn)進(jìn)行全部搜索的話,需要60次,經(jīng)過(guò)優(yōu)化之后一般需要搜4個(gè)、8個(gè)或16個(gè)點(diǎn),但搜索次數(shù)還是比較多的。我們采用一個(gè)二元二次誤差平面方程,用9個(gè)整像素點(diǎn)的預(yù)測(cè)誤差來(lái)求解方程的5個(gè)系數(shù),再對(duì)方程求偏導(dǎo),可得到最佳分像素點(diǎn)的位置。只需對(duì)這個(gè)最佳分像素點(diǎn)計(jì)算1個(gè)1/4差值,就可以完成我們的搜索過(guò)程。這個(gè)技術(shù)在編碼器的整個(gè)提速有12%,但bd-PSNR只有-0.016db。這些成果在VCIP 2016上可以看到。

淘寶直播窄帶高清技術(shù)

 

第三個(gè)是我們的碼率控制。ABR是較適合直播的一種碼率控制方法。但HM中基于−模型的碼率控制方法沒(méi)有考慮圖像塊與塊之間的參考強(qiáng)度,有些塊會(huì)被后續(xù)幀參考有些不會(huì),應(yīng)該根據(jù)一個(gè)塊被參考的強(qiáng)度來(lái)決定它的量化系數(shù)。x265,x264中引入了MB-Tree技術(shù),但是由于幀的QP定制不合理,編碼效率不高且碼控準(zhǔn)確度比較差,我們測(cè)過(guò)平均只有90%左右。我們根據(jù)“每1個(gè)bit被分配到任何一個(gè)CU,產(chǎn)生的邊際價(jià)值都相同”這樣一個(gè)原則,對(duì)MB-Tree方法進(jìn)行了理論創(chuàng)新,使得編碼精度提升到了97%,且編碼質(zhì)量提升了0.65db,對(duì)應(yīng)17%的碼率節(jié)省。這里有包含三個(gè)技術(shù),第1個(gè),I幀的QP推導(dǎo),x265使用了一個(gè)經(jīng)驗(yàn)值,沒(méi)有考慮到視頻本身的特性,這樣做很不合理,我們用預(yù)分析中低分辨率圖像的復(fù)雜度和目標(biāo)碼率,經(jīng)過(guò)多次迭代搜索得到準(zhǔn)確的QP;第2個(gè),隨著時(shí)間的推移,歷史幀的復(fù)權(quán)重越來(lái)越高,新產(chǎn)生的幀權(quán)重越來(lái)越低,導(dǎo)致其不能很快的響應(yīng)復(fù)雜度的變化,我們根據(jù)新產(chǎn)生的幀的參考強(qiáng)度計(jì)算出一個(gè) QP,跟原來(lái)的QP做加權(quán)得到真正的QP,可以及時(shí)的反應(yīng)新產(chǎn)生幀及其后續(xù)幀的復(fù)雜度;第3個(gè),x265采用基于Viterb的P幀決策方法,每個(gè)幀都需要跟歷史幀比較,復(fù)雜度很高,并在判決P幀時(shí)沒(méi)有考慮QP的影響,準(zhǔn)確率也不高。我們的算法只需要計(jì)算相鄰幀的變化率,并引入QP來(lái)作為判決閾值,大幅降低了計(jì)算復(fù)雜度并提高了準(zhǔn)確度。這個(gè)成果我們與清華大學(xué)劉老師合作發(fā)表在TIP 2019 05月期刊上。

淘寶直播窄帶高清技術(shù)

 

第四點(diǎn)我們來(lái)看一下S265智能碼控技術(shù)(CARC)。ABR追求碼率控制的精準(zhǔn)度,但是它忽略了場(chǎng)景的平均復(fù)雜度。如果設(shè)定一個(gè)統(tǒng)一的碼率目標(biāo),簡(jiǎn)單的場(chǎng)景會(huì)出現(xiàn)碼率過(guò)剩,復(fù)雜場(chǎng)景會(huì)出現(xiàn)碼率不足。另一個(gè)方面,人眼對(duì)失真的敏感度存在衰減效應(yīng),高于一定閾值敏感度下降,此時(shí)存在碼率過(guò)剩。我們采用一個(gè)CNN模型對(duì)場(chǎng)景進(jìn)行分類,計(jì)算出場(chǎng)景的復(fù)雜度因子,根據(jù)復(fù)雜度因子調(diào)節(jié)編碼碼率,可消除簡(jiǎn)單場(chǎng)景下的碼率過(guò)剩( > 42db),并提高復(fù)雜場(chǎng)景的質(zhì)量。平均下來(lái),我們可以節(jié)省15-30%的碼率,以釘釘在線課堂為例,大部分時(shí)間畫(huà)面是靜止或慢速運(yùn)動(dòng)的,少數(shù)時(shí)間會(huì)播放教學(xué)影片,CARC可以保證播放影片時(shí)的質(zhì)量,同時(shí)在靜止場(chǎng)景節(jié)省大量碼字,經(jīng)過(guò)后臺(tái)統(tǒng)計(jì),釘釘在線課堂720p碼率在200kps,且PSNR保持在43db以上。

淘寶直播窄帶高清技術(shù)

 

最后,我們還有一個(gè)畫(huà)質(zhì)評(píng)價(jià)環(huán)節(jié)。業(yè)界常見(jiàn)的客觀評(píng)價(jià)指標(biāo)有PSNR,SSIM,VMAF,但這些指標(biāo)只適合于有源場(chǎng)景;但淘寶內(nèi)容存在大量的無(wú)源場(chǎng)景,比如商家上傳的視頻,手機(jī)硬編碼的直播視頻,這樣的視頻,都沒(méi)有參考對(duì)象。針對(duì)這種場(chǎng)景,我們訓(xùn)練了基于CNN的VQA無(wú)源評(píng)價(jià)模型來(lái)對(duì)視頻圖像的質(zhì)量進(jìn)行評(píng)價(jià),并實(shí)現(xiàn)對(duì)大盤(pán)質(zhì)量的監(jiān)控,此外,為了指導(dǎo)線下開(kāi)發(fā),我們還有一個(gè)主觀評(píng)價(jià)系統(tǒng)

淘寶直播窄帶高清技術(shù)

 

接下來(lái)讓我對(duì)淘寶的S265編碼器做一個(gè)簡(jiǎn)單的總結(jié)。MSU國(guó)際編碼器大賽是大家所熟知的一個(gè)比賽。在去年的比賽中有100個(gè)序列,同時(shí)有1080p和4k兩種測(cè)試,有3種速度檔次,還包括主觀和客觀測(cè)試。我們用S265對(duì)MSU 2019 1080p的測(cè)試序列進(jìn)行了測(cè)試,我們的PSNR的指標(biāo)三個(gè)檔次上平均節(jié)約了42.1%的碼率,對(duì)比2019年第一名是37.3%,說(shuō)明S265的PSNR指標(biāo)在業(yè)界領(lǐng)先。下面的兩張圖片,左邊是X265的結(jié)果,右邊是S265的結(jié)果,S265在主觀質(zhì)量上也有比較大的提升,這里特別感謝清華劉老師在S265項(xiàng)目中給予的幫助。

3.4 零轉(zhuǎn)碼系統(tǒng)

淘寶直播窄帶高清技術(shù)

 

淘寶直播的第二大核心技術(shù)是零轉(zhuǎn)碼系統(tǒng)。普通的有轉(zhuǎn)碼系統(tǒng)為了適應(yīng)不同的網(wǎng)絡(luò)環(huán)境,通常會(huì)在服務(wù)器集群上對(duì)上行碼流進(jìn)行各種分辨率、各種碼率的壓縮來(lái)應(yīng)對(duì)各種網(wǎng)絡(luò)環(huán)境,對(duì)于一個(gè)好的網(wǎng)絡(luò),可能更偏向播出一個(gè)高分辨率的視頻,如果用戶的網(wǎng)絡(luò)不好,會(huì)選擇播放低分辨率低碼率的視頻。淘寶直播則實(shí)現(xiàn)了零轉(zhuǎn)碼,播放的是原始的生產(chǎn)流。這需要解決三個(gè)核心問(wèn)題。第一個(gè)是端側(cè)生產(chǎn),我們要生產(chǎn)出高質(zhì)量低碼率視頻,這個(gè)得益于前面說(shuō)的S265編碼器以及前處理技術(shù)。第二個(gè)就是H265的解碼兼容性,目前H265在Web解碼以及手機(jī)芯片解碼的兼容上做得還不夠好,我們?cè)诖俗隽舜罅康墓ぷ鱽?lái)解決這個(gè)問(wèn)題。第三個(gè)是網(wǎng)絡(luò)環(huán)境的適應(yīng)能力,我們可以通過(guò)SVC技術(shù)來(lái)適應(yīng)客戶不同的網(wǎng)絡(luò)環(huán)境。

淘寶直播窄帶高清技術(shù)

 

淘寶直播的零轉(zhuǎn)碼系統(tǒng)首先需要解決的是H265的百分之百解碼。對(duì)于現(xiàn)在常見(jiàn)的高端芯片,例如iphone7以上的手機(jī)以及中高端以上的安卓手機(jī)都已經(jīng)支持H265的解碼,但還有大量的中低端設(shè)備并不能支持H265的硬解,所以我們開(kāi)發(fā)了一個(gè)高性能H265解碼器。我們的解碼器相比FFmpeg有140%的提速,比業(yè)界常見(jiàn)的libhevc也快了許多,相比競(jìng)品K也有10%以上的提速,可以實(shí)現(xiàn)低端機(jī)的軟解。除此以外,Web端的解碼一直是H265的一個(gè)痛點(diǎn),我們實(shí)現(xiàn)了WebAssembly的解碼方案,可以覆蓋大部分pc解碼能力。除此之外,還有Webkit+Native的解碼方式。通過(guò)這些努力,我們把H265的解碼實(shí)現(xiàn)安卓、IOS以及web端百分之百的兼容從而完全去除轉(zhuǎn)碼的環(huán)節(jié)。

淘寶直播窄帶高清技術(shù)

 

零轉(zhuǎn)碼系統(tǒng)需要解決的第二個(gè)核心問(wèn)題是網(wǎng)絡(luò)自適應(yīng)技術(shù)。這項(xiàng)技術(shù)得益于三個(gè)方面。第一個(gè)是我們低碼率高質(zhì)量的生產(chǎn),我們生產(chǎn)的800kbps碼流在 90%以上網(wǎng)絡(luò)都可承載。第二個(gè)是時(shí)域可分層SVC策略,如圖,在用戶網(wǎng)絡(luò)較好時(shí),淘寶直播會(huì)使用100%的下發(fā)幀率,如果用戶網(wǎng)絡(luò)不好,將會(huì)采用3/4抽幀來(lái)實(shí)現(xiàn)18幀的解碼效果,如果用戶網(wǎng)絡(luò)效果還是不理想,會(huì)選擇抽取1/2的幀來(lái)實(shí)現(xiàn)12.5fps的解碼效果。除此以外還有一個(gè)基于A3C網(wǎng)絡(luò)來(lái)綜合用戶的網(wǎng)絡(luò)緩存以及用戶當(dāng)前的編碼質(zhì)量來(lái)實(shí)現(xiàn)QoE的最大化。

3.5 低延時(shí)技術(shù)

淘寶直播窄帶高清技術(shù)

 

淘寶直播的第三個(gè)核心技術(shù)是低延時(shí)技術(shù)。我們實(shí)現(xiàn)了直播端到端秒級(jí)延時(shí),還驗(yàn)證了低延時(shí)技術(shù)的業(yè)務(wù)價(jià)值;除此之外,低延時(shí)還可以支持新業(yè)務(wù)形態(tài),如拍賣直播、客服直播等。傳統(tǒng)的HLS/FLV直播協(xié)議的延時(shí),從生產(chǎn)側(cè)來(lái)看主要有編碼延時(shí)、網(wǎng)絡(luò)延時(shí)、分發(fā)延時(shí)、切片緩沖和播放緩沖,整體加起來(lái)大概有10s左右的延時(shí)。Flv去除了服務(wù)器上的切片緩沖,可以把延時(shí)降低到5s左右,但延時(shí)時(shí)間還是比較長(zhǎng)。但淘寶直播的秒級(jí)延時(shí)采用了UDP的流媒體傳輸協(xié)議,WebRTC的擁塞控制及FEC、netEQ的擁塞控制算法來(lái)去除播放器緩沖,并且盡我們最大努力減少防抖緩沖的大小。在生產(chǎn)側(cè),我們還采用了低延時(shí)的編碼技術(shù)來(lái)降低編碼器的延遲。

淘寶直播窄帶高清技術(shù)

 

這是我們?cè)诘脱訒r(shí)編碼上做的工作。編碼延時(shí)主要來(lái)源三個(gè)方面:B幀、Lookahead以及Frame thread。以x265為例,編碼效率在一定區(qū)間內(nèi)與延時(shí)成正比。當(dāng)延時(shí)降低到8幀時(shí),編碼效率下降20%,5幀的編碼效率下降30%;優(yōu)化后S265采用了短距Lookahead CU-tree傳播代價(jià)以及運(yùn)動(dòng)強(qiáng)度,作為機(jī)器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù),預(yù)測(cè)長(zhǎng)距l(xiāng)ookahead CU-tree傳播代價(jià)來(lái)提高我們?cè)诘蚅ookahead下的編碼質(zhì)量。如圖,S265在5個(gè)延時(shí)幀下,可達(dá)到95%以上的編碼效率。

4 音視頻技術(shù)趨勢(shì)探討

淘寶直播窄帶高清技術(shù)

 

最后一起來(lái)討論一下音視頻技術(shù)的發(fā)展趨勢(shì)。我個(gè)人覺(jué)得傳統(tǒng)信號(hào)處理已經(jīng)非常成熟,AI又有比較強(qiáng)的學(xué)習(xí)能力,所以怎么結(jié)合傳統(tǒng)信號(hào)處理的優(yōu)勢(shì)和AI的學(xué)習(xí)能力來(lái)提高我們內(nèi)容的生產(chǎn)以及內(nèi)容理解、傳輸?shù)鹊鹊男适俏覀兿乱徊降陌l(fā)展趨勢(shì)。主要包含五個(gè)方面,第一個(gè)是視頻編解碼,第二個(gè)是智能語(yǔ)音處理,第三個(gè)是圖像增強(qiáng)技術(shù),第四個(gè)是內(nèi)容理解算法,第五個(gè)是高效傳輸技術(shù)。

4.1 視頻編解碼

淘寶直播窄帶高清技術(shù)

 

首先來(lái)看一下視頻編解碼,視頻編解碼的第一個(gè)趨勢(shì)是云邊端一體編碼系統(tǒng)。硬編碼主要面對(duì)的挑戰(zhàn)是壓縮效率。我們知道傳統(tǒng)的手機(jī)芯片壓縮都會(huì)考慮到PPA問(wèn)題,所以會(huì)提供一個(gè)相對(duì)而言較低的壓縮效率。軟編碼的挑戰(zhàn)主要是壓縮速度,雖然有些像Intel的SVT技術(shù)可以把壓縮速度提到比較高的水平,但是畫(huà)質(zhì)會(huì)有一些受損。未來(lái)趨勢(shì)個(gè)人覺(jué)得盡可能的利用到端側(cè)的算力,采用高性能軟編碼器來(lái)緩解云端轉(zhuǎn)碼的成本壓力 ,把手機(jī)芯片硬編碼能力利用起來(lái),但是移動(dòng)端芯片硬編碼的質(zhì)量還不夠好,如何優(yōu)化移動(dòng)端芯片硬編碼質(zhì)量是一個(gè)關(guān)鍵的點(diǎn);其次是云+邊的統(tǒng)一的轉(zhuǎn)碼。現(xiàn)在越來(lái)越多的ASIC芯片和GPU芯片已經(jīng)在努力優(yōu)化編碼的質(zhì)量,包括FPGA芯片也有優(yōu)化方案。所以云+邊的轉(zhuǎn)碼會(huì)成為我們下一階段研究的重點(diǎn)。

視頻編解碼的第二個(gè)趨勢(shì)是下一代編碼標(biāo)準(zhǔn)的應(yīng)用。主要有H266、AV1、AVS3,這三個(gè)標(biāo)準(zhǔn)目前是各有自己的優(yōu)勢(shì)。H266在傳統(tǒng)芯片的支持上比較好;AV1有先發(fā)優(yōu)勢(shì),而且Web兼容性較好,在專利上也有些優(yōu)勢(shì);AVS3經(jīng)過(guò)大家的努力,已經(jīng)擁有國(guó)內(nèi)生態(tài),且在實(shí)體清單的影響下AVS3的發(fā)展可能會(huì)加速。

第三個(gè)趨勢(shì)是AI+編碼。大家也注意到CVPR比賽的情況,AI壓縮可以實(shí)現(xiàn)對(duì)比H266更好的壓縮結(jié)果,但是在解碼速度方面還是會(huì)有一些問(wèn)題,端到端DL壓縮在未來(lái)會(huì)是一個(gè)研究熱點(diǎn)。除此以外,混合編碼框架下的AI壓縮也是一個(gè)研究熱點(diǎn);第三是場(chǎng)景自適應(yīng)編碼技術(shù),能夠根據(jù)場(chǎng)景選擇編碼也是一個(gè)很好的技術(shù);第四個(gè)是無(wú)參考評(píng)價(jià)系統(tǒng),在很多時(shí)候,有參考可以評(píng)價(jià)的比較客觀,但很多時(shí)候,我們拿不到參考,這時(shí)候,無(wú)參考評(píng)價(jià)系統(tǒng)就會(huì)比較有優(yōu)勢(shì)。

4.2 智能語(yǔ)音處理

淘寶直播窄帶高清技術(shù)

 

對(duì)于智能語(yǔ)音處理,總結(jié)下來(lái)主要也分為三個(gè)方面。第一是前端3A處理,主要考察PESQ,STOI的指標(biāo)以及處理和收斂速度,智能降噪,智能回聲消除,盲源分離技術(shù),自動(dòng)增益技術(shù)也會(huì)是信號(hào)處理和AI的非常好的結(jié)合點(diǎn);第二是后端網(wǎng)絡(luò)自適應(yīng),先考察丟包下的聲音體驗(yàn)。這里有音頻超分,智能PLC,自適應(yīng)碼率以及RSFEC、NACK來(lái)實(shí)現(xiàn)恢復(fù)與延時(shí)的平衡等等;第三,音效與評(píng)價(jià)主要考察核聲音的主觀體驗(yàn),如何做到智能美聲、自動(dòng)混響和無(wú)參考評(píng)價(jià)會(huì)是我們研究的方向。

4.3 圖像增強(qiáng)、視頻內(nèi)容理解、高效傳輸技術(shù)

淘寶直播窄帶高清技術(shù)

 

第三個(gè)方面是圖像增強(qiáng),即如何利用傳統(tǒng)圖像增強(qiáng)與AI結(jié)合達(dá)到智能去噪、暗光增強(qiáng)、智能選幀和拍攝輔助的效果。第四個(gè)方面視頻內(nèi)容理解,可以用多模態(tài)技術(shù)來(lái)理解視頻內(nèi)容包括通用物體檢測(cè)、文本語(yǔ)義理解、自然語(yǔ)言處理NLP、標(biāo)簽體系和大規(guī)模檢索技術(shù)等等。第五個(gè)方面是高效傳輸技術(shù),5G的到來(lái)可以提供高帶寬,低延時(shí)的傳輸,如何利用5G優(yōu)勢(shì)實(shí)現(xiàn)智能帶寬預(yù)測(cè),智能調(diào)度系統(tǒng)是我們?cè)诰W(wǎng)絡(luò)傳輸方面研究的一個(gè)方向。

分享到:
標(biāo)簽:淘寶 直播
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定