日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

阿里巴巴淘系技術部 高級算法專家王立波(花名:莊?。┦苎麉⒓覮iveVideoStackCon 2020線上峰會的分享,為大家帶來「淘寶直播窄帶高清技術」,本文將結合現場演講,從直播背景、直播痛點分析、窄帶高清、云視頻技術趨勢幾方面為大家詳細介紹如何在確保用戶體驗QOS不變的前提下,實現淘寶直播的技術架構升級和成本大幅縮減。

 

淘寶直播三大核心技術揭秘

 

王立波(莊恕),淘系技術部高級算法專家,畢業于上海交通大學少年班、應用數學系?,F為淘寶直播音視頻算法負責人,是S265編碼器的核心成員,參與完成的項目《編碼攝像關鍵技術及應用》獲得2019年國家科技進步二等獎。

本文分享內容主要分為四個部分:

  • 全民直播大時代的背景介紹
  • 直播痛點分析
  • 淘寶直播窄帶高清技術
  • 音視頻技術趨勢探討

背景-全民直播大時代


淘寶直播三大核心技術揭秘

 

在疫情的影響下,直播從傳統的秀場應用逐漸滲透到行業的各個領域。包括在線課堂,旅游,政企,房車銷售等等,可以說是全民直播時代已經到來。

淘寶直播三大核心技術揭秘

 

在這樣的一個大背景下,過去一年淘寶直播得以快速發展。2019年,淘寶直播擁有了4億+的年度用戶規模,有100萬+年度主播入駐,2000億+年度直播成交以及4000萬+直播商品。春節期間,釘釘在線課堂更是有350萬+的教師主播,為1.2億+中小學生提供了在線課程服務。

直播痛點分析

淘寶直播三大核心技術揭秘

 

在這么大的一個業務體量下,我們將會面對非常多的難點與挑戰??偟膩碚f,包含以下三個部分,首先是成本,包括帶寬、存儲和轉碼三個方面。其次是用戶體驗,例如畫質,音質,秒開、卡頓和延時。最后是效率方面,例如開播的效率、審核的效率和理解分發的效率。接下來我們就來看一下淘寶在成本和體驗優化方面做了哪些工作。

淘寶直播窄帶高清技術

? 淘寶直播窄帶高清

淘寶直播三大核心技術揭秘

 

淘寶直播有三大核心技術,第一大核心技術是端上窄帶高清。我們采用HEVC編碼實現了720p,25fps,800kbps的壓縮,并且PSNR> 43db/VMAF>90。端上窄帶高清技術主要應用有三個方面:第一是音視頻增強,采用基于AI的圖像增強、美顏和語音增強來提高生產質量。第二是感知處理,采用信源信道聯合自適應編碼。第三是S265編碼器,S265編碼器是業界領先的HEVC編碼器。

第二大核心技術是零轉碼系統,我們實現了端到端原始流生產的和播放,成功的解決了兩個核心的痛點問題:不同網絡速度的兼容和不同播放設備的兼容,后者主要通過高性能解碼器實現IOS,Android和H5三端的100%解碼。

第三大核心技術是低延時技術,我們實現了端到端秒級延時。主要依靠兩個技術,一個是基于RTC的實時直播系統,第二個是S265低延時編碼技術。

? 淘寶直播系統架構

淘寶直播三大核心技術揭秘

 

如圖所示淘寶直播的系統架構,從生產側來看,有采集、增強、感知處理、S265編碼四個環節。云端我們有邊緣的接入,有中心接入、切片錄制和CDN分發以及邊緣分發。在播放端有擁塞控制、解碼、渲染和顯示。除此之外,在云端還有內容審核,質量監控,內容理解和智能分發。

? 端上窄帶高清

淘寶直播三大核心技術揭秘

 

生產側的第一個環節是圖像增強,為了提升主觀質量,我們引入了圖像增強技術,對編碼前的視頻做去噪、去抖、紋理增強以及美顏、美型的功能。除此以外,在后處理部分,我們還引入了適時超分和HDR技術來提高觀看質量。在美顏、美型以及圖像處理等方面,我們引入了GPU的技術,包括內存帶寬優化、shader優化、Pipeline優化等等以減少GPU的開銷。

淘寶直播三大核心技術揭秘

 

針對音質的優化,我們采用了智能降噪技術。無論是在STO還是PESQ的指標上都顯著高于傳統WebRTC算法,在性能和包大小方面也都可以實現普通設備的覆蓋。下面播放的三段音頻,分別是原始音頻、RTC降噪和阿里降噪音頻。原始音頻我們可以明顯聽到馬路上車呼嘯而過的聲音非常強烈。RTC降噪音頻中降噪產生了一定的效果,但是汽車飛馳而過的呼嘯聲還是非常明顯。而在阿里降噪音頻中,我們可以聽到汽車呼嘯而過的聲音已經基本消失。

淘寶直播三大核心技術揭秘

 

生產的第二個環節是感知處理。我們采用信源信道聯合自適應編碼技術。感知處理分為5個方面。

首先是ROI區域的感知,我們基于PixelAI人臉檢測加商品檢測,對ROI區域進行提取和重點編碼。

第二是場景的感知,不同的場景適合不同的編碼參數,我們通過對場景進行分類,對于不同的場景賦予不同的編碼參數來提高壓縮質量。

第三個是智能碼控CARC,我們采用機器學習的碼率控制,對簡單場景賦予較低的碼率,對復雜的場景賦予較高的碼率來實現對帶寬的節省。

第四個是網絡帶寬的感知,在網絡比較好的時候,我們會采用比較高的碼率來實現畫質的提升,在網絡不太好的時候,會降低碼率,避免發生帶寬擁塞,由于cdn采用峰值收費,峰谷時間段還可以采用不同碼率策略。

最后是設備算力的感知,不同的設備擁有不同的算力,我們可以實時檢測設備的算力情況及時調整編碼的檔次,以此來實現對算力和質量的平衡。

淘寶直播三大核心技術揭秘

 

生產的第三個環節是編碼,這又要講到我們核心的S265編碼器,得益于S265編碼器的編碼壓縮技術,我們實現了淘寶直播的720p、800kbs、25fps編碼,相比于業界常見的720p 1600kbps 節省了50%的帶寬。

釘釘的在線課堂我們更是把碼率壓縮到了200kbs,并實現了43db以上的質量。S265是淘寶和阿里云共同發起的HEVC編碼器,目前已經實現集團內部的開源,并落地在點播、直播會議等各個場景中。相比起業界優秀的HEVC編碼器,S265在PSNR指標上有比較大的優勢。首先在編碼工具提升方面,我們做了大量工作,實現了HierarchyB、GPB、Bi-Search、Longterm、RDOQ、AdaptGOP等編碼工具,并且對這些工具進行了大量的算法和速度優化。

我們還設計了50多種快速算法,比如說Deblock的優化,編碼速度對比X265有1倍以上的提速。在工程上的優化,我們做了浮點轉定點、位寬的縮減、SIMD的優化、冗余去除、訪存效率提升及循環展開等等來提升我們的編碼速度。

在框架方面,我們還做了線程調度優化等等。在碼率控制方面,我們對幀級別碼控和塊級別碼控分別進行了優化,并且對2pass編碼進行了原創性的優化來提高2pass編碼的質量。在塊級別碼控中,我們設計了新的CUTree和AQ算法。

淘寶直播三大核心技術揭秘

 

下面來看一下S265的幾個典型優化,首先是CU劃分決策,我們把CU劃分決策模塊分成兩個步驟,一是紋理強度決策,通過計算CU的紋理梯度來判別平坦塊和復雜塊,如果是平坦塊就直接退出,如果是復雜塊就繼續向下劃分。

第一步可以解決大部分塊劃分的決策問題,但是對于模棱兩可的塊,則需要依靠CNN模型來輔助劃分。我們使用了一個5層網絡的小模型把決策的準確度從72%提升到了96%;這個成果我們跟清華大學劉老師合作發表了一篇論文,在DCC會議上展示。

淘寶直播三大核心技術揭秘

 

第二個方面的優化是運動搜索方面的優化。運動搜索是從參考幀尋找最佳匹配塊的過程,包含整像素搜索和分像素搜索,分像素需要做7抽頭或8抽頭插值濾波,計算量大;整像素搜索已經有比較多的快速算法,比如菱形搜索、六邊形搜索及分層搜索,但分像素搜索一直沒有什么好的方法。比如在圖中矩形的整像素周圍,分布著60個分像素點,如果要對分像素點進行全部搜索的話,需要60次,經過優化之后一般需要搜4個、8個或16個點,但搜索次數還是比較多的。

我們采用一個二元二次誤差平面方程,用9個整像素點的預測誤差來求解方程的5個系數,再對方程求偏導,可得到最佳分像素點的位置。只需對這個最佳分像素點計算1個1/4差值,就可以完成我們的搜索過程。這個技術在編碼器的整個提速有12%,但bd-PSNR只有-0.016db。這些成果在VCIP 2016上可以看到。

淘寶直播三大核心技術揭秘

 

第三個是我們的碼率控制。ABR是較適合直播的一種碼率控制方法。但HM中基于−模型的碼率控制方法沒有考慮圖像塊與塊之間的參考強度,有些塊會被后續幀參考有些不會,應該根據一個塊被參考的強度來決定它的量化系數。x265,x264中引入了MB-Tree技術,但是由于幀的QP定制不合理,編碼效率不高且碼控準確度比較差,我們測過平均只有90%左右。

我們根據“每1個bit被分配到任何一個CU,產生的邊際價值都相同”這樣一個原則,對MB-Tree方法進行了理論創新,使得編碼精度提升到了97%,且編碼質量提升了0.65db,對應17%的碼率節省。

這里有包含三個技術,第1個,I幀的QP推導,x265使用了一個經驗值,沒有考慮到視頻本身的特性,這樣做很不合理,我們用預分析中低分辨率圖像的復雜度和目標碼率,經過多次迭代搜索得到準確的QP;

第2個,隨著時間的推移,歷史幀的復權重越來越高,新產生的幀權重越來越低,導致其不能很快的響應復雜度的變化,我們根據新產生的幀的參考強度計算出一個 QP,跟原來的QP做加權得到真正的QP,可以及時的反應新產生幀及其后續幀的復雜度;

第3個,x265采用基于Viterb的P幀決策方法,每個幀都需要跟歷史幀比較,復雜度很高,并在判決P幀時沒有考慮QP的影響,準確率也不高。我們的算法只需要計算相鄰幀的變化率,并引入QP來作為判決閾值,大幅降低了計算復雜度并提高了準確度。這個成果我們與清華大學劉老師合作發表在TIP 2019 05月期刊上。

淘寶直播三大核心技術揭秘

 

第四點我們來看一下S265智能碼控技術(CARC)。ABR追求碼率控制的精準度,但是它忽略了場景的平均復雜度。如果設定一個統一的碼率目標,簡單的場景會出現碼率過剩,復雜場景會出現碼率不足。

另一個方面,人眼對失真的敏感度存在衰減效應,高于一定閾值敏感度下降,此時存在碼率過剩。我們采用一個CNN模型對場景進行分類,計算出場景的復雜度因子,根據復雜度因子調節編碼碼率,可消除簡單場景下的碼率過剩( > 42db),并提高復雜場景的質量。

平均下來,我們可以節省15-30%的碼率,以釘釘在線課堂為例,大部分時間畫面是靜止或慢速運動的,少數時間會播放教學影片,CARC可以保證播放影片時的質量,同時在靜止場景節省大量碼字,經過后臺統計,釘釘在線課堂720p碼率在200kps,且PSNR保持在43db以上。

淘寶直播三大核心技術揭秘

 

最后,我們還有一個畫質評價環節。業界常見的客觀評價指標有PSNR,SSIM,VMAF,但這些指標只適合于有源場景;但淘寶內容存在大量的無源場景,比如商家上傳的視頻,手機硬編碼的直播視頻,這樣的視頻,都沒有參考對象。針對這種場景,我們訓練了基于CNN的VQA無源評價模型來對視頻圖像的質量進行評價,并實現對大盤質量的監控,此外,為了指導線下開發,我們還有一個主觀評價系統。

淘寶直播三大核心技術揭秘

 

接下來讓我對淘寶的S265編碼器做一個簡單的總結。MSU國際編碼器大賽是大家所熟知的一個比賽。在去年的比賽中有100個序列,同時有1080p和4k兩種測試,有3種速度檔次,還包括主觀和客觀測試。

我們用S265對MSU 2019 1080p的測試序列進行了測試,我們的PSNR的指標三個檔次上平均節約了42.1%的碼率,對比2019年第一名是37.3%,說明S265的PSNR指標在業界領先。下面的兩張圖片,左邊是X265的結果,右邊是S265的結果,S265在主觀質量上也有比較大的提升,這里特別感謝清華劉老師在S265項目中給予的幫助。

? 零轉碼系統

淘寶直播三大核心技術揭秘

 

淘寶直播的第二大核心技術是零轉碼系統。普通的有轉碼系統為了適應不同的網絡環境,通常會在服務器集群上對上行碼流進行各種分辨率、各種碼率的壓縮來應對各種網絡環境,對于一個好的網絡,可能更偏向播出一個高分辨率的視頻,如果用戶的網絡不好,會選擇播放低分辨率低碼率的視頻。

淘寶直播則實現了零轉碼,播放的是原始的生產流。這需要解決三個核心問題。

第一個是端側生產,我們要生產出高質量低碼率視頻,這個得益于前面說的S265編碼器以及前處理技術。

第二個就是H265的解碼兼容性,目前H265在Web解碼以及手機芯片解碼的兼容上做得還不夠好,我們在此做了大量的工作來解決這個問題。

第三個是網絡環境的適應能力,我們可以通過SVC技術來適應客戶不同的網絡環境。

淘寶直播三大核心技術揭秘

 

淘寶直播的零轉碼系統首先需要解決的是H265的百分之百解碼。對于現在常見的高端芯片,例如iphone7以上的手機以及中高端以上的安卓手機都已經支持H265的解碼,但還有大量的中低端設備并不能支持H265的硬解,所以我們開發了一個高性能H265解碼器。

我們的解碼器相比FFmpeg有140%的提速,比業界常見的libhevc也快了許多,相比競品K也有10%以上的提速,可以實現低端機的軟解。除此以外,Web端的解碼一直是H265的一個痛點,我們實現了WebAssembly的解碼方案,可以覆蓋大部分pc解碼能力。

除此之外,還有Webkit+Native的解碼方式。通過這些努力,我們把H265的解碼實現安卓、IOS以及web端百分之百的兼容從而完全去除轉碼的環節。

淘寶直播三大核心技術揭秘

 

零轉碼系統需要解決的第二個核心問題是網絡自適應技術。這項技術得益于三個方面。

第一個是我們低碼率高質量的生產,我們生產的800kbps碼流在 90%以上網絡都可承載。

第二個是時域可分層SVC策略,如圖,在用戶網絡較好時,淘寶直播會使用100%的下發幀率,如果用戶網絡不好,將會采用3/4抽幀來實現18幀的解碼效果,如果用戶網絡效果還是不理想,會選擇抽取1/2的幀來實現12.5fps的解碼效果。除此以外還有一個基于A3C網絡來綜合用戶的網絡緩存以及用戶當前的編碼質量來實現QoE的最大化。

? 低延時技術

淘寶直播三大核心技術揭秘

 

淘寶直播的第三個核心技術是低延時技術。我們實現了直播端到端秒級延時,還驗證了低延時技術的業務價值;

除此之外,低延時還可以支持新業務形態,如拍賣直播、客服直播等。傳統的HLS/FLV直播協議的延時,從生產側來看主要有編碼延時、網絡延時、分發延時、切片緩沖和播放緩沖,整體加起來大概有10s左右的延時。Flv去除了服務器上的切片緩沖,可以把延時降低到5s左右,但延時時間還是比較長。

但淘寶直播的秒級延時采用了UDP的流媒體傳輸協議,WebRTC的擁塞控制及FEC、netEQ的擁塞控制算法來去除播放器緩沖,并且盡我們最大努力減少防抖緩沖的大小。在生產側,我們還采用了低延時的編碼技術來降低編碼器的延遲。

淘寶直播三大核心技術揭秘

 

這是我們在低延時編碼上做的工作。編碼延時主要來源三個方面:B幀、Lookahead以及Frame thread。以x265為例,編碼效率在一定區間內與延時成正比。當延時降低到8幀時,編碼效率下降20%,5幀的編碼效率下降30%;優化后S265采用了短距Lookahead CU-tree傳播代價以及運動強度,作為機器學習模型的訓練數據,預測長距lookahead CU-tree傳播代價來提高我們在低Lookahead下的編碼質量。如圖,S265在5個延時幀下,可達到95%以上的編碼效率。

淘寶直播三大核心技術揭秘

 

最后一起來討論一下音視頻技術的發展趨勢。我個人覺得傳統信號處理已經非常成熟,AI又有比較強的學習能力,所以怎么結合傳統信號處理的優勢和AI的學習能力來提高我們內容的生產以及內容理解、傳輸等等的效率是我們下一步的發展趨勢。

主要包含五個方面,第一個是視頻編解碼,第二個是智能語音處理,第三個是圖像增強技術,第四個是內容理解算法,第五個是高效傳輸技術。

基于音視頻技術趨勢探討

? 視頻編解碼

淘寶直播三大核心技術揭秘

 

首先來看一下視頻編解碼,視頻編解碼的第一個趨勢是云邊端一體編碼系統。

硬編碼主要面對的挑戰是壓縮效率。我們知道傳統的手機芯片壓縮都會考慮到PPA問題,所以會提供一個相對而言較低的壓縮效率。

軟編碼的挑戰主要是壓縮速度,雖然有些像Intel的SVT技術可以把壓縮速度提到比較高的水平,但是畫質會有一些受損。

未來趨勢個人覺得盡可能的利用到端側的算力,采用高性能軟編碼器來緩解云端轉碼的成本壓力 ,把手機芯片硬編碼能力利用起來,但是移動端芯片硬編碼的質量還不夠好,如何優化移動端芯片硬編碼質量是一個關鍵的點;

其次是云+邊的統一的轉碼?,F在越來越多的ASIC芯片和GPU芯片已經在努力優化編碼的質量,包括FPGA芯片也有優化方案。所以云+邊的轉碼會成為我們下一階段研究的重點。

視頻編解碼的第二個趨勢是下一代編碼標準的應用。主要有H266、AV1、AVS3,這三個標準目前是各有自己的優勢。H266在傳統芯片的支持上比較好;AV1有先發優勢,而且Web兼容性較好,在專利上也有些優勢;AVS3經過大家的努力,已經擁有國內生態,且在實體清單的影響下AVS3的發展可能會加速。

第三個趨勢是AI+編碼。大家也注意到CVPR比賽的情況,AI壓縮可以實現對比H266更好的壓縮結果,但是在解碼速度方面還是會有一些問題,端到端DL壓縮在未來會是一個研究熱點。除此以外,混合編碼框架下的AI壓縮也是一個研究熱點;第三是場景自適應編碼技術,能夠根據場景選擇編碼也是一個很好的技術;第四個是無參考評價系統,在很多時候,有參考可以評價的比較客觀,但很多時候,我們拿不到參考,這時候,無參考評價系統就會比較有優勢。

? 智能語音處理

淘寶直播三大核心技術揭秘

 

對于智能語音處理,總結下來主要也分為三個方面。

第一是前端3A處理,主要考察PESQ,STOI的指標以及處理和收斂速度,智能降噪,智能回聲消除,盲源分離技術,自動增益技術也會是信號處理和AI的非常好的結合點;

第二是后端網絡自適應,先考察丟包下的聲音體驗。這里有音頻超分,智能PLC,自適應碼率以及RSFEC、NACK來實現恢復與延時的平衡等等;

第三,音效與評價主要考察核聲音的主觀體驗,如何做到智能美聲、自動混響和無參考評價會是我們研究的方向。

? 圖像增強、視頻內容理解、高效傳輸技術

淘寶直播三大核心技術揭秘

 

第三個方面是圖像增強,即如何利用傳統圖像增強與AI結合達到智能去噪、暗光增強、智能選幀和拍攝輔助的效果。

第四個方面視頻內容理解,可以用多模態技術來理解視頻內容包括通用物體檢測、文本語義理解、自然語言處理NLP、標簽體系和大規模檢索技術等等。

第五個方面是高效傳輸技術,5G的到來可以提供高帶寬,低延時的傳輸,如何利用5G優勢實現智能帶寬預測,智能調度系統是我們在網絡傳輸方面研究的一個方向。

關于內容社交互動團隊

淘系內容社交互動平臺是阿里集團內容與直播的業務高地和人才高地。是淘寶業務增長的發動機和下一代電商模式升級核心推動玩家。在不斷的探索中,秉承 "WIN FAST" 理念,我們成功孵化了“淘寶直播”這一創新業務,并在業務中完成了阿里內容平臺的升級。我們擁有廣闊的空間,誠邀算法、多媒體、數據、服務端、無線端、前端、測試、產品等各產品技術領域人才加盟。

分享到:
標簽:淘寶 直播
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定