DCC 論文解讀 - 基於深度強化學習的視頻比特碼率控制算法
隨着淘寶內容化的戰略升級,直播、短視頻等富媒體的表現方式在淘寶業務中落地開花,碩果累累。在互聯網信道帶寬不斷波動的情況下,如何爲用戶提供高質量的視頻播放體驗,是各個多媒體服務商孜孜追求的夢想。每當新的技術出現的時候,大家都會積極探索是否可以應用這些新技術來解決目前存在的問題。
近幾年深度強化學習在優化學習算法領域大放異采,爲很多優化學習問題帶來了很好的解決方案。信道帶寬波動和視頻碼率控制這一問題本身也就是優化學習的一個問題。
那麼是否可能應用深度強化學習來解決視頻碼率控制的優化學習問題呢?
淘系技術和達摩院,聯合了新竹交通大學的彭文孝教授一起在這個問題上做了前沿技術的探索工作,並取得了一定的成果。相關成果在發表在了 Data Compression Conference 2021。下面就重點介紹我們在這一塊的工作成果。
背景
隨着 4G 網絡的深入普及, 目前超過 80% 的網絡流量來自於視頻應用, 其應用包括了視頻點播、直播和低延時視頻會議等。因此, 如何進一步提升的視頻壓縮比對於現今的視頻應用而言就顯得格外重要。
視頻壓縮的目的是儘可能地減少碼率的同時維持好的視頻質量, 而碼率控制算法就是用來平衡視頻碼率與視頻質量的關鍵技術。在真實應用中, 帶寬是有限的, 爲了充分地利用帶寬又不超出帶寬的限制, 我們會使用碼率控制使得輸出碼率接近目標碼率。
譬如說, 在一秒的影片中有 30 幀, 目標碼率爲 500kb/s, 碼率控制就是要將 500k 比特分配至這 30 幀, 使得這 30 幀擁有最佳的視覺效果。基於傳統機器學習的優化算法如 AVC/H.264, HEVC/H.265 有不同的方法來解決碼率控制的問題。
雖然這些系統都是經過專家的精心設計, 但是由於算法實現的複雜度和對於編碼效率的考量,最終的實現版本並不保證就是最佳效果的比特分配實現。
提出方法
深度強化學習網絡近幾年在優化學習算法領域大放異采。爲此,我們提出了利用深度強化學習網絡來學習比特分配的新思路。強化學習的目標是學習一種策略來最大化獎勵函數, 對於比特分配的應用, 要學習的目標就是比特分配的策略, 而獎勵函數可以是壓縮後的失真以及碼率的誤差值。然而因爲對於各式各樣的影片, 我們無法有效正確的評估失真與碼率差的權重。
因此我們提出了獨立的兩個失真以及碼率誤差的獎勵函數, 當位比特配大於目標碼率時, 我們獨立採用碼率差的獎勵函數來引導策略學習, 使其能夠回到碼率的限制內。而當比特分配小於目標碼率時, 我們獨立採用失真的獎勵函數來引導策略學習, 使其能夠使用更多的比特來減少失真。我們提出的基於強化學習的比特分配算法如下圖所示:
▲ 提出的強化學習架構
實驗結果
對於比特分配, 因爲希望實際碼率能服從目標碼率, 我們的主要評估方式是使用 BD-PSNR, 其定義爲在相同的碼率下, 我們提出的方法相對於傳統 X265(anchor) 在客觀 PSNR 評估下的進步量。
從客觀品質比較表可以觀察到, 我們提出的方法無論在哪種常規的測試影片中, PSNR 的值都有顯著進步,整體平均進步量爲 0.94dB。轉換成 BD-rate,我們的方法相對於 X265 在相同 PSNR 下,整體平均會有 19.2% 的比特率節省量,且僅有 6.2% 的碼率誤差。主觀品質比較表也顯示說明我們的方法相對於傳統 X265 有更好的視覺效果。基於該方法的論文將在 Data Compression Conference2021 上發表。
▲ 客觀品質比較表
▲ 主觀品質比較表
未來的應用展望
本項研究工作展現了深度強化學習在視訊編碼的潛力,相關的做法可以被擴展到更復雜的編碼器控制或者針對過去難以優化的主觀視覺品質進行優化。學術上也開始出現利用強化學習優化視訊編碼器使得壓縮過的視訊可利於物件辨認或者其他電腦視覺應用。我們相信深度強化學習在視訊編碼應用還有更多的可能性在未來值得探索。
彭文孝博士於 2005 年在臺灣新竹交通大學獲得電子工程博士學位。他曾在美國加利福尼亞州英特爾微處理器研究實驗室工作,並於 2015 年至 2016 年在美國紐約 IBM Thomas J. Watson 研究中心擔任訪問學者。
自 2003 年以來,他一直積極參與 ISO/IEC MPEG 數字視頻編碼標準化過程,併爲 HEVC 標準,HEVC 屏幕內容編碼擴展和 MPEG-4 第 10 部分的可擴展視頻編碼 (SVC) 標準開發做出了貢獻。他目前是新竹交通大學計算機科學系的教授,他在視頻 / 圖像處理和通信領域撰寫了 75 篇技術論文,並有 60 多項標準貢獻案。
他的研究興趣包括基於學習的視頻 / 圖像編碼,多媒體分析和計算機視覺。他曾擔任 2021 IEEE VCIP,2011 IEEE VCIP,2017 IEEE ISPACS 和 2018 APSIPA ASC 等會議的技術聯席主席; 2019 IEEE ICIP 的出版主席; IEEE ICME/VCIP/PCS 的區域主席 / 會議主席 / Tutorial 講師。
他目前是 IEEE 電路與系統學會的視覺信號處理和通信技術委員會主席,IEEE JETCAS 的副主編,IEEE TCSVT 的副編輯,並擔任過 IEEE TCAS-II 的客座編輯以及 APSIPA 特聘講師。
作者 | 淘系技術
編輯 | 橙子君
出品 | 阿里巴巴新零售淘系技術
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/VS3XYX4zX71VYkp27_qfEA