淘系音視頻技術的演進之路

隨着社會的發展,音視頻技術在電商運營中佔據的位置越來越重要。不僅時代在進步,音視頻技術也在前進。本次 LiveVideoStackCon 2021 上海站中,我們邀請到了淘系技術的陳穎老師爲我們分享淘系內容電商技術的過去、現在及其未來展望。

文 / 陳穎

整理 / LiveVideoStack

大家好,我是來自阿里巴巴淘系技術的陳穎,花名昆虛。歡迎來到 LiveVideoStackCon 2021 上海站的淘系技術專場。歡迎來到 “邁向視頻內容時代的淘系技術” 專場。

大家知道,2016 年被稱爲直播元年,我們淘寶直播也是在 2016 年開始了自己的業務。經過五年的發展,可以不太謙虛地講,我們依然是電商直播類的執牛耳者。那麼淘系內容是如何邁向視頻時代的呢?我們的淘寶直播背後又有什麼樣的技術?除了淘寶直播之外,我們還有什麼音視頻技術相關的業務呢?我想大家或多或少都有一定的疑問。那麼今天包括我在內的四位來自淘系技術的嘉賓,會就這些問題和大家展開探討。

我們將主要在四個方面展開:首先我們會講講淘系內容電商技術的過去,現在和未來;接下來我們會在三個核心技術領域,包括音視頻的編碼與處理、網絡傳輸和視頻理解,我們都會進行一些更技術細節的展開,以便和大家進行更加具體的討論。作爲這個專場的主持人,首先,我要簡單介紹一下我們這幾位嘉賓。第一位就是我本人,我是阿里巴巴淘系技術的研究員陳穎。第二位是淘系技術的高級算法專家王立波,花名莊恕。第三位是淘系技術的資深算法專家李曉波,花名籬悠。第四位是淘系技術資深技術專家陳舉鋒,花名豐火。

我們馬上進入第一個 Talk——《淘系內容電商技術的過去、現在和未來》。我們知道互聯網的內容近幾年正大規模從圖文向視頻遷徙,在視頻時代,淘寶的業務也呈現出了更加豐富多彩的形態,淘寶在電商大場景下也做了不少業務的嘗試,包括淘寶直播、點淘、還有逛逛等,相應的淘系技術範疇也隨着這些業務做了很多拓展。藉此機會,我們將首先和大家談談淘系內容電商的發展歷史、視頻內容方面的技術佈局、當下面臨的一些技術挑戰、取得的一些技術創新和成就。

首先,得益於淘系技術和 LiveVideoStack 組委會的盛情安排,使得我和在座各位有了溝通的機會,非常感謝。我會首先做一個簡單的自我介紹和業務介紹,之後簡單交代淘系內容的業務以及相關技術、尤其是音視頻技術的發展歷史。在這段發展歷程中,我們也圍繞着音視頻技術的主要趨勢做了很多技術方面的佈局,也和大家一樣面臨着不少技術挑戰和問題,在解決這些問題時也取得了一定的成績。最後我想和大家討論音視頻技術未來的發展趨勢。


** #1. 個人簡介與淘系技術內容業務介紹 **

因爲是第一次在 LiveVideoStack 這樣使用中文的場合和大家進行溝通,我想先和大家做個簡單的自我介紹。

我本人在北京大學求學,先後獲得學士和碩士學位,大四開始進入實驗室做圖像與視覺方面的研究,之後在芬蘭的坦佩雷理工大學獲得博士學位。

我職業生涯的早期陸續在 Thomson 多媒體和 Nokia (芬蘭的 NRC)就職,從事視頻標準和應用相關的工作。

2009 年,我加入美國高通,在將近十年的工作中,主要做了兩件事情。第一,幫助高通公司成爲在視頻編碼壓縮的算法,包括標準化方面的世界頂尖公司;第二,我做了一套計算機視覺端上算法,幫助高通公司開闢了芯片在 IOT 領域的新賽道。

可能進入音視頻技術行業比較早的人可能也知道我在視頻標準方面也做了一些還算顯著的工作,我就不贅述了。

在加入阿里巴巴之後,我先後從事過計算機視覺和 IOT 相關的業務,去年加入了淘系,負責淘系技術音視頻相關的算法。

在此我也將代表團隊和大家分享一下我們淘系技術內容平臺團隊的工作。

個人來講,我在視頻編碼、視覺和圖像處理方面發表了一系列的論文、專利,以及標準技術提案,相關的著作獲得過萬次的引用。

不少相關研究成果也被總結成爲發明專利,目前,美國專利局 USPTO 在冊的我本人已授權發明專利超過 260 項。

可以看到,我的職業生涯主要在做視頻和視覺相關的工作,尤其是視頻編碼與處理。

現在我在淘系技術負責的是和音視頻相關的業務,主要是淘寶直播,點淘和逛逛。

對於淘寶直播,大家都不陌生。淘寶直播簡單來說就是把大家開店賣貨這樣一個實時的可交互的商業行爲搬到了線上。經過幾年的努力,我們將淘寶直播打造成了行業領先的專業消費類直播平臺,而且建立了圍繞商家、機構、主播和直播基地的生態系統。

大家可以看到淘寶直播是在整個淘寶大的 APP 裏面的,本身得到淘寶 APP 的加持,但也有一定的限制。因此我們從淘寶直播系統裏衍生出了新的獨立的 APP「點淘」,它既包含所有淘寶直播的內容,也包含短視頻的內容。

因此它有超出淘寶直播之外的特點:首先它依然是一個高互動的直播間;其次不同的是,我們會有更好的沉浸的種草視頻流;另外我們會把購物路徑做得很簡單,並且可以很方便地看到商品,尤其是新品的趨勢。所以說這是一個既包含短視頻又包含淘寶直播內容的獨立 APP。

另外淘系也上線了新業務「逛逛」,可以將短視頻的內容,種草的心智放到了淘寶的主 APP 裏面,現在是我們主頁面的第二個 Tab。逛逛裏面既有圖文的內容,也有短視頻的內容,並且短視頻的內容正在高速地增長。

爲支持上述業務,包括淘寶直播、點淘、逛逛,我們在音視頻的整個鏈路都有自己的技術架構和能力建設。既包括內容的感知、內容的編輯合成、內容的處理、內容的分發,以及內容的呈現,背後也有我們的一套內容風控。

單就視頻而言,視頻的拍攝、編解碼、窄帶高清處理、播放器、視頻傳輸都是我們發力的重點。比如在視頻處理方面,我們有自研的編碼器以及窄帶高清視頻增強算法來更好地降低帶寬、提升畫質。在拍攝成像方面,我們有自己的淘拍 APP 和親拍 SDK,幫助我們做視頻拍攝之後的剪輯,還有一些實時的互動玩法。我們也有一套自己的 3D 視覺技術來做更好的互動,還可以幫我們打造 3D 的直播間。在視頻傳輸方面,我們建立了業界首張全鏈路基於 RTC 的 CDN 網絡。這些技術域不僅支持上面提到的淘寶直播,點淘和逛逛,也支持所有淘系和電商的相關業務,比如淘寶特價版和 1688,還支持集團一些其它需要用到音視頻技術的業務,比如釘釘的視頻會議等場景。


** #2. 淘系內容業務發展史**

淘系音視頻技術是伴隨着淘系內容業務的發展才慢慢建立起來的。

大家可以大概瞭解一下,淘寶直播在 2016 年誕生,隨着業務的快速發展,到達了每年數千億的 GMV。之後我們又孵化出了點淘和逛逛這樣的視頻內容強相關的產品。

伴隨着業務的投入,我們也感受到了發展音視頻技術的緊迫性,因此也在持續增加投入。我們陸續有了自研的視頻編碼器,上線了 AI 互動玩法,通過對內容的理解上線了直播看點。同時在淘拍和親拍方面我們也上線了視頻編輯的產品。另外,阿里自研的實時傳輸網絡(GRTN),使得在整個網絡體驗方面,包括卡頓、延時等方面做到更好的效果。

我們認爲基於視頻的服務可以增強購物體驗。比如可以讓寶貝詳情更真實、可信。視頻內容也可以增加用戶的停留時長。所以我們可以看到,無論是在帶寬、還是停留時長方面,視頻在所有的內容中佔比逐年增加。可以說,整個淘系內容正在加速邁入視頻時代的進程中。


** #3. 音視頻技術趨勢以及淘系技術相關佈局**

那麼,要迎接這樣的視頻時代,我們首先要理解音視頻技術的趨勢,在此基礎上才能更好地做自己的技術佈局,去支持好我們的業務。

當前,視頻的製做和分享正在大規模地從傳統的廣電行業向互聯網,、OTT 遷徙。中國和美國都有大量的用戶通過 OTT 設備看劇,其中中國有超過 6 億人通過 OTT 設備看劇,也有很多人日常刷直播和短視頻。

同時,我們面臨一個重要的問題,就是我們希望所看到的視頻內容能夠像傳統視頻一樣都是廣播級的,有高質量和低延時,但視頻源隨着 UGC 內容的增多質量往往是參差不齊的。現在視頻內容製作的門檻非常低、非常平民化,這也導致了視頻內容開始爆炸性增長,在中國用戶日均觀看互聯網視頻的時長達到了 250 多分鐘。近三年,全球每月視頻類流量增長近三倍。

這些流量主要集中在我們常說的短視頻、點播、直播這些領域,淘系技術的一個重要任務就是讓我們平臺上的這些短視頻,直播視頻內容都變成高質量的,並且追求整個過程的低成本,最終普惠類似影院級的視頻體驗。

要普惠影院級的視頻服務,我們要持續性地解決三個問題  : 

  1. 如何應對低質量的視頻源,比如不少互聯網上拍攝、分享的視頻分辨率還很低。

  2. 影視作品製作成本極高,而互聯網視頻可通過手機拍攝,製作成本幾乎爲零。後期比如 UGC 視頻的質量提升,實際上是把製作的成本部分轉移到了處理算法。因此成本是非常高的,想要做到普惠,就必須要把成本降下來。 

  3. 電視廣播一般帶寬很高,甚至可以達到百兆級別。然而,當前很多用戶還是處於弱網環境下觀看視頻,帶寬非常低。

要解決這些問題,實現高清晰度、低成本和低帶寬,需要一系列的算法,其中包括視頻編碼和窄帶高清視頻處理等等。

我們觀察發現,最近一兩年,出現了幾個很明顯的視頻應用新趨勢,和傳統的持續需求是不太一樣的,包括:

  1. 同步觀看視頻的需求。比如實時教育活動、在線搶購秒殺、多主播互動等,同步觀看的需求越來越多。

  2. 視頻和電商的關係越來越密切。比如直播帶貨以及短視頻電商,預期 2021 年電商視頻的市場有可能超過千億美金。

  3. 低延時的需求也越來越強。因爲我們需要有實時互動、實時連麥等應用的需求。低延時背後無論是傳輸、通信、編碼還是處理方面都一直存在技術的更新換代。這些技術的發展使得更低延時成爲可能。

4.AI 被廣泛應用。除了基於內容的理解、搜推之外,還有如用戶希望商品出現之後能立刻檢測並播報這個商品。此外,我們也會做基於內容的感知編碼。

我們既需要面對之前提到的高清晰、低計算成本和低帶寬這種持續的需求,同時又有更多新的趨勢需要跟進。這中間有不少的新機會,我們都要去抓。但是抓住機會的同時也相應帶來了不少的困難和挑戰。

淘系技術已經圍繞這些困難和挑戰做了不少的工作。


**#4. 主要的技術挑戰和困難 **

接下來分享一下音視頻主要的技術挑戰在哪裏。

我認爲總結出來一下六點:

  1. 網絡傳輸方面。

2.UGC 內容方面,就是如何把內容做好。

  1. 整體視頻服務的體驗如何,QoE 到底是如何的。

  2. 視頻呈現維度方面,有深度和廣度方面的要求。

  3. 我們所面對的是一個非常複雜的環境,包括網絡環境以及設備環境等。

  4. 實時計算。

實時計算可以先展開講一下,比如在做淘寶直播時,我們需要端上的很多計算,要做實時的編碼,以及實時視頻處理。同時我們做內容理解時也經常需要端和雲的互動,在端上意味着實時的需求。包括我們會做人臉的美顏瘦臉,以及手勢互動,這些都是需要實時的。淘系低延時直播可以做到一秒以內,這和我們整個鏈路中所有相關計算的實時化是密不可分的。

幾大挑戰裏面我認爲第一個依然是網絡傳輸方面的。比如觀看網絡直播的用戶越來越多,對網絡資源的消耗越來越大等等。但是,相當一部分用戶還是處於比較差的弱網環境,同時很多人是通過移動設備接入的,移動設備之間又存在電子干擾,所以網絡延時、卡頓和丟包都一直在發生。同時,一些局域網的用戶下行帶寬是有限制的,一些設備的算力也是有限的,這些限制條件和問題都會使得整個視頻方面的體驗變差。

爲解決這一系列的問題,我們需要更好的網絡傳輸。因此阿里一直在打造下一代傳輸網絡 GRTN。它本身是一張很強的網絡,圍繞着它我們也做了端到端的優化,使得整體體驗能夠提升。

前面提到,無論是 UGC 的視頻,還是很多直播的視頻,他們的質量是參差不齊的。比如我們做村播的時候,在農村的這些主播,他的水果或蔬菜給人看到的是不夠清晰的。所以我們需要去把這項內容做得更好,我們既需要去降低帶寬又需要同步去提升他的畫質。我們主要是通過把視頻處理,包括視頻編碼聯合做好,來達到這樣的效果。

這裏主要是三個關鍵點:普適、普惠和高清。普適指的是要兼容各種各樣的視頻源,可能兼容的視頻標準不同,視頻的分辨率不同。而在直播的情況下,我們要去兼容各種不同的攝像頭。普惠指的是讓雲端的處理成本儘量地降低。同時,如果是直播場景,要儘量做到實時。最後,我們的目的還是做到高清,也就是我們希望有接近專業級的視頻編碼、處理效果。

這裏介紹一個案例。左邊是一開始的情況,我們目的是希望降低碼率的同時能更好得展示商品。可以看到右邊展示的是提升之後的效果,碼率節省了約 10%,同時商品(玉石)的質地被更加精準地展示了出來。這背後除了拍攝環境要做好之外,還有一系列的技術因素,比如 ISP 要控制好,要做很好的調校,同時要做視頻處理,包括增強的算法。另外,商品展示的部分要做更好的色彩還原,這一部分最終可能要用到 HDR(高動態範圍)和 WCG(寬色域)。最後我們也需要做好編解碼,使得在畫質很高的情況下帶寬不至於控制不住。

這是一個視頻編碼與處理的全鏈路示意圖。整個鏈路中,首先我們是要追求畫質提升的,因此如何定義質量的提升很重要。定義好提升之後要去具體實現,實現完之後要鞏固提升。從定義質量提升本質上來說,我們需要一個比較好的對主觀體驗的客觀建模。其實,我們慢慢發現 PSNR 和 SSIM 是不夠的。即便是 VMAF,很多時候也不能滿足我們的應用需要,因爲很多時候評價本身還是無參的。有了一套質量體系之後,我們要做圖像提升本身。這個過程我們可以認爲是低質量視頻到高質量視頻的一個變換函數,我們會用深度學習的方法,它有很強的學習能力,可以發揮大數據的優勢。但是由於它是一個逐像素的 low level 視覺任務, 複雜度是非常高的,且和像素數目成正比。爲了實現普惠,我們希望做極低複雜度的深度學習,放在整個視頻處理裏面,使得它能夠比較高效低成本地完成任務,同時儘可能達到實時,可以在直播中應用。

最後,高質量的視頻需要編碼才能在互聯網上觸達億萬用戶,這個過程必然是有損的,所以這個損失要和前面的處理協作好,要鞏固提升,不能因爲編碼把圖像提升的效果給抹掉。

處理業務時遇到的問題,推動着我們演進相關的解決方案。首先要解決的就是傳統視頻應用中主流的壓縮失真問題,就是將編碼做得比較好,這樣看起來也比較流暢,同時也儘量接近高清。但是慢慢發現,隨着主流內容從 PGC 向 UGC 的過度,我們發現攝像頭效果不可控,大家拍攝的方式、技巧,以及拍攝環境也不可控,圖像失真慢慢變成了成像方面的失真,所以需要我們儘量修復成像方面的失真,使之達到專業製作的效果。

從演進的過程中我們不難發現,用戶的喜好依據不同場景也有所不同,比如拍攝人物和商品是不一樣的,要根據不同的場景去做自適應的方法。不同的場景對好的視頻的定義是不一樣的,所以要做到、要精彩、要對味。我們遵循這樣的演進路線有了自己的視頻編解碼器,以及針對不同場景的不同處理方法。

另外我們業務中面臨的一個挑戰就是 QoE (Quality of Experience)評價體系。我們內部會先定義統一指標,無論它是不是最好的,然後再在業務中埋點,之後業務全覆蓋,進行 AB 測試。有了一個算法之後放上去看整個評價體系給出的量化結果和預期的結果是不是比較吻合的,如果他們之間有 gap,我們就去看哪裏有 gap,然後再去升級我們的評價體系。

我們這套體系是貫穿於短視頻體驗和直播體驗中的,整個體系需要做很多平衡,比如成本和體驗,畫質與帶寬的平衡。而在體驗裏面,又要平衡延時與卡頓,延時與編碼效率等等。這裏面很重要的一點是我們發現要做大規模的業務埋點必須要有客觀的畫質評價,因爲主觀可能只在平時做仿真時用得到,大規模數據出來之後必須要做客觀的評價。很多情況下它還是一個無參考的評價,所以這些都是挑戰。

另外,還需要有低質量視頻檢出的能力,配合運營降低低質量視頻的 VV 佔比。

提到 QoE 評價體系,很重要一點其實是畫質。我們會發現,之前 PSNR/SSIM 儘量把誤差做得比較小,逼近原始,而 VMAF 更加靠近感知。其實之前也說了,不同場景不一樣也要做到精彩對味實際上是要更加接近我們的認知的。很多場景下面我們要大量地用無參考的評價,這種情況下要處理多元化的失真,甚至要考慮美學與視覺的結合。按照這樣的方向,我們也建立了初步的質量評價體系,也會根據業務的需要持續迭代升級我們的畫質評測標準。質量評價體系這塊我們也在加大投入,希望能做得更好。

最後是體驗維度。比如說前面的窄帶高清,在不提升視頻的分辨率、幀率的情況下去做窄帶高清、色彩增強、細節增強等等。這點我們要做好。但慢慢的,我們也希望在一些視頻呈現的維度能做得更好,比如會做超分辨率、超幀率。但我認爲更好的提升應該是視頻源頭本身要做的,所以我們自身也在做高分辨率、高幀率,包括我們在做 1080p 以及 4k 的直播間,幀率也慢慢從 25、30 幀每秒提高到了 50、60 幀每秒。同時,我們也發現在商品的展示方面,用戶喜歡商品色彩更鮮亮更加真實還原。這其中就涉及到 HDR 高動態範圍,包括寬色域——可以把商品的色彩真實展現出來。此外,美顏瘦臉在直播裏也是一個剛需,我們也在做自己的虛擬主編和 3D 直播間,這背後就有 MR 和 XR 這樣的技術。包括做 3D 視頻,用多視角的視頻,以及全景 360 度視頻展示家裝。有了這些之後其實還可以做一些視頻的特效和剪輯。在視頻的呈現維度上,一是要做得更廣,二是在單一維度上做得更強更深,這對帶寬本身的成本和技術都提出了很多需求。

最後我想講一下多樣化的環境。我們是一個很大的 APP,裏面有很多業務。我們面臨的網絡環境有時會非常差,丟包很嚴重,帶寬也很低,所以我們需要很好地適配當前網絡,做帶寬自適應,做碼率控制等等。我們很多主播可能會用非常差的 pc 端去開播,也可能會隨便拿一個手機去開播,我們對手機型號沒有特別嚴格的限制,所以我們要去適配各種設備。

從內容角度來講,包括聲音場景和視覺場景,其實也要做很多場景自適應的算法。比如音樂場景,主播在賣一些音樂器材和音響設備。不針對場景進行優化的話,我們嘗試聽一下聲音,可以發現一些音樂的呈現是不太清楚的,針對場景進行優化之後對音樂的表達就會更加清楚。

視頻場景也是一樣的,我們有很多跟電商非常相關的場景,包括服飾場景、珠寶場景、美妝場景。就服飾場景而言,我們可以看到左邊是優化之前的,右邊是優化之後的,圖片對比可能不是特別清晰,但通過這種場景去做優化,我們可以讓衣服材質更加的自然、鮮亮。


**#5. 淘系音視頻領域若干技術進展 **

我們圍繞這些挑戰做了很多技術沉澱,也有不少亮點。由於時間關係我就簡單講兩點。這兩點是比較有價值的技術,一個是視頻編碼端到端的鏈路,另外一個是全球實時傳輸網絡。

我們可以看一下這個圖,這是我們圍繞着現有的標準在做在實現的。大家可以看到我們整個編解碼的內核,H.265 是做得比較多的,同時也在做 H.266、VVC 相關的內容。高層的語法框架這一塊會做分級 B 幀,會做長期參考幀,會做 Adaptive GOP Size ,同時這些底層工具也會針對 SAO,de-blocking 等做一些優化。同樣的,工程框架這一塊會做 SIMD,做並行計算。

在碼控這塊,做編碼器也非常重要,比如做 look ahead, CU Tree,我們也能拿到很多提升。再往上一點,我們會做基於內容的 Content Aware Encoding,包括針對內容和場景做自適應編碼,會做 ROI,以及做 JND 這樣的模型。外層有一個和傳輸、應用相適配的應用視頻引擎,它可以去做模板的適配,去適配不同的規格,比如分辨率,另外也會和網絡環境配合,做容錯編碼。

從算法角度來講,編碼器也和視頻處理的電路配合得比較好。

我們從 H.265 這個編碼器來講呢,其實單點效果也是不錯的。內部有一個我們叫做 S265 的編碼器,參加了去年 MSU 編碼器比賽,PSNR 的一個檔位上獲得了第一名的成績。技術上來講它比 x265 在編碼效率上提升了很多,差不多 35%。這個編碼器用於很多業務,不光是淘系業務,同時也是很多集團相關的業務,比如說淘寶直播肯定在用這樣的編碼器,點播裏不論是長視頻還是短視頻也在用。短視頻包括逛逛,商品詳情頁的業務,長視頻包括優酷也在調用我們的編碼器,當然這款編碼器可能也會做一些其它場景所需要的改造。在釘釘會議,在 RTC 這樣的場景,S265 也是可以被大家所使用的。我們在集團內部做了比較好的輸出,同時我們也在佈局下一代的編解碼器,比如 H.266/VVC 的編解碼器,現在已經可以開始在一般的手機上做到實時解碼了。同時我們也希望編碼器能慢慢做起來,可能開始它的編碼效率不能完全體現,但希望過兩三年後能逼近 H.266 在理想情況下的編碼效率。

另外我想和大家分享就是阿里全球實時傳輸網絡 Global real-time transport network。這張網絡是阿里集團共建的,很值得一提的,首先它是全鏈路基於 RTC 的 CDN 網絡,和傳統網絡最大的不同是它可以做去中心化的組網。因爲它背後有這樣的 flexibility,可以做更多的動態路徑規劃。比如說可以針對丟包率、延時、帶寬等等方面的因素根據業務方面的需要去調整不同路徑規劃的策略。同時,因爲這張網絡在應用層是由我們自己掌控的,所以可以很好地做智能控制,大主播可以有不同的策略,包括做削峯填谷等等。它整體的核心思想就是我們根據業務需要分配和調度資源,一旦資源固定,我們會爲您提供最好的 QoE 視頻服務體驗。

我們知道 RTC 裏有擁塞控制,其實是在整個網絡的第一跳——就是主播進 CDN 網,和最後一跳——觀看的人從 CDN 網下去看視頻,在這兩端去做擁塞控制。和 WebRTC 裏不同的是,我們做了自研的參數自學習的算法,能夠更好、更精準及時地去預測實時變化的帶寬,去做到更低的延時和更少的丟包,整個體驗可以得到大幅的提升。這張網絡我們已經在用了,在今年年初會在淘寶直播業務中全量。


**#6. 未來技術發展趨勢 **

最後我還想講講未來技術發展趨勢。

其實我個人做了一個簡單的總結,我認爲就是三點:

  1. 無論你做多 fancy 的技術,基礎音視頻體驗是要做極致打磨的。

  2. 大家都會去追求新的視頻體驗維度,如果你抓住了這個新的體驗維度,可能就會催生成一個大的 APP,這一塊我們也會去看,但誰能抓得準就要看多方面的因素了。

  3. 視頻智能化也是一個很大的趨勢,這塊大家也都是在發力的。

基礎體驗是比較確定的,在我看來可以分成三大塊。在傳輸、編碼、處理這三大核心功能模塊裏面要做到最好。我們其實是要追求每個模塊各自的代差的,每個塊都可以做極致的優化。從視頻的表徵上來講,我們要不停地升級,因爲用戶有日益增長的視頻體驗需求,他可以今天要 1080p 明天要 4K 甚至 8K,包括更高的幀率,寬色域 HDR 也都是要去追求的。這裏面有一個看似較小但是比較關鍵的問題:比如你如何去判斷同樣場景 720p60 幀和 1080p30 幀哪個視頻更好?這是如何去做跨尺度的質量評價的課題,因爲這樣我們才知道如何配置我們輸入的視頻源,達到最好的效果 a。

很重要的一點——前面我也提到了——視頻可以用在很多場景,可以用在 RTC、視頻會議、長視頻等等,長視頻很多是非實時的場景,而我們淘寶直播室是實時的。即便是直播,你還有秀場,有直播帶貨,而直播帶貨有室內的、有 3D 直播間等等。因爲場景不同,針對業務場景必須要做定製化和優化。另外就是跨模塊的聯合優化,編解碼和處理怎麼做聯合優化,我後面會給一個例子。

從新的體驗維度上來講,這裏很多東西我們都嘗試過,VR、 360 度的視頻、家裝 360 度視頻場景,包括 AR 、MR 我們都把它們引入直播間做過嘗試,當然還有虛擬主播,要用到一些內容合成,以後可能會用到全息等等。隨着 5G 的慢慢普及,很多應用可能就會起飛,但這塊我們是在探索的狀態,我們現在不是很明確哪一塊一定是會大範圍去投入的。

最後是視頻的智能化,最主要的就是兩點:

  1. 基於音視頻內容的搜索推薦,不管視頻內容還是音頻內容都要做很好的理解,做更好的搜索推薦。

  2. 多模態的標籤融合非常重要。在做短視頻配樂時,我們有蝦米這樣一個曲庫,那如何把音樂配上去,就是它們之間的標籤如何相互理解,怎麼匹配是最好的,這就涉及到一個多模態的標籤融合問題。這一塊做好了對拉通音視頻最大的模塊還是有關係的,甚至還有文本。

舉一個例子來說視頻處理的未來趨勢是什麼樣的。這個圖比較簡單,就是一個視頻的整體鏈路,可以做雲上的計算,可以做雲 / 邊 / 端的結合和聯動。技術上有窄帶高清視頻處理,有核心編碼引擎去做符合 H.265、H.266 標準的編碼器,背後我們也會做智能編碼。甚至端上有一些比較好的機型,可以做端上的智能後處理——整個做下來是一個端到端的鏈路。

以下是我對未來趨勢的判斷,以往比如說我們的標準 H.264、AVC、H.265、HEVC、H.266、VVC 都已經基本定義好了視頻服務的質量和帶寬權衡的上限。但是在所需要處理的場景裏面,可以通過窄帶高清和智能編碼的技術突破代際的限制。

首先,我們有自研的 H.265 編碼器,因爲要考慮成本因素,它會比 H.265 理想的編碼效率低一些。

但我們可以去做窄帶高清視頻處理、做智能編碼,使得它能提高編碼效率。做窄帶高清後能提升 25% 左右,再做智能編碼則又提高了 15% 左右。我們做了一些並沒有完全做到,但我們認爲完全可以做到的、更好的處理、更好的智能化的東西,可以去提升一個代差。

同時我們也在做 H.266 編碼器,預計兩三年的時間,可以將這個自研的編碼器做到發揮差不多標準潛力的一個程度,這本身又能領先一個代際。如果和之前的一些技術聯合起來,我們還有兩代的代差可以往前迭代,淘系技術,包括視頻編碼這一塊的同學就會朝着這個方向努力。這是我對未來趨勢預測的一個例子。

我的分享到此結束,謝謝大家。

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/4waOiy_0fq2Uqj_NN8PMdg