從 “芯” 出發,Youtube 背後的視頻基建

本文爲媒礦工廠翻譯的技術文章

原標題:Reimagining video infrastructure to empower YouTube

原作者:The YouTube Team

原文鏈接:https://blog.youtube/inside-youtube/new-era-video-infrastructure/

翻譯整理:徐鋆

YouTube 工程副總裁 Scott Silver:

Youtube 每時每刻爲上百萬內容創造者、數十億的觀衆提供着巨量的視頻上傳、存儲與分發服務。這些服務對於其部署在全球的基建平臺來說,是一項複雜而富有挑戰性的任務;而衡量這項任務是否完成的標準,又在於技術是否運行得悄無聲息,不可感知。在這一期的創新系列博客中,我們將以一個罕見的內部視角爲大家揭開新一代視頻基建的面紗。接下來的訪談錄裏,首席工程師 Jeff Calow 將引導我們去了解一個富有先驅性系統的創造過程。這套系統幫助我們經受了新冠時期激增觀看數的考驗,也將帶領着 Youtube 進入視頻的未來。

Q1: 簡而言之,您剛剛在 ASPLOS 會議 [1] 上宣佈的創新是什麼?爲什麼它對普通的 YouTube 查看者或創作者很重要?

Jeff: 我們的使命是 “給所有人發聲的機會,並向他們展示世界。” 免費地讓任何人上傳視頻以向世界其他任何人展示,這需要很大的處理能力。幾年前,隨着平臺上視頻的規模增長到驚人的水平,我們需要提出一個新的系統,該系統可以讓創作者繼續無縫上載,並且觀衆可以觀看他們期望的所有選擇。

需要了解的重要一點是,視頻是以單一格式創建和上傳的,但最終會以不同的分辨率在不同的設備(從手機到電視)上播放。一些觀衆將在家中用 4K 電視觀看,而其他觀衆可能在公共汽車上用手機觀看。基礎架構團隊的工作是通過轉碼爲觀衆準備好這些視頻,即對視頻進行壓縮,以便以儘可能高的質量將最少的數據發送到觀衆選擇的設備。但這花費很大且緩慢,使用常規計算機 CPU 進行處理的效率非常低,尤其是隨着添加越來越多的視頻時。

因此,我們創建了一個對視頻進行轉碼的新系統,該系統能夠在數據中心量級更有效地執行此過程。我們決定利用計算機科學家多年來一直在努力的想法——爲這項特定工作開發特殊的處理器。在其他領域,有用於圖形(GPU)或人工智能(TPU)的特殊處理器。在本案例中,我們開發了用於轉碼視頻的定製芯片,以及用於協調這些芯片的軟件。然後將所有這些放在一起,形成轉碼專用處理器——視頻(轉)編碼單元(VCU)。與之前在傳統服務器上運行軟件的優化系統相比,計算效率提高了 20-33 倍。

****Q2: 除了極少數情況下發生中斷之外,很容易忘記爲了保持 YouTube 的運行而在幕後進行了多少工作。您能否就運行 24/7 規模的全球平臺的範圍和複雜性給我們一些技術觀點?

Jeff: 當採訪應聘者時,我總是提到平均每分鐘將有超過 500 小時的視頻內容上傳到平臺,這總是引起他們的共鳴。在新冠大流行期間,由於人們在家中隔離,我們發現視頻消費激增。去年第一季度,全球的觀看時間增加了 25%。去年上半年,每日總直播量增長了 45%。由於已經安裝了該系統,因此我們能夠迅速擴展規模以應對這一激增。實際上,這意味着在創建者上傳視頻後,視頻可以立即提供給觀看者。

****Q3: 您首先在 2015 年啓動了該項目——當時是什麼促使您尋找新的基礎架構解決方案?

Jeff: 幾年前,我們看到了對更高質量視頻(例如 1080p,4K 和現在的 8K)的需求不斷增長。我們還看到,除非轉向更具數據效率的視頻編解碼器(編解碼器基本上是壓縮視頻數據的不同方法),否則更廣闊的互聯網將無法適應這種增長。但是,與 H.264 相比,像 VP9 這樣的數據效率高的視頻編解碼器使用更多的計算機資源進行編碼。這些動態因素的結合使我們追求了效率大大提高且可擴展的基礎架構。這是 Janelle Monaé 視頻中圖像質量的比較。VP9 版本顯然比傳統的 H.264 更好,但是它使用 5 倍的計算機資源進行編碼。

左 H.264 右 VP9

****Q4: 一支由軟件工程師組成的團隊致力於創建硬件時,任務有多麼艱鉅?

Jeff: 幸運的是,我們所做的大部分工作是一個完整的系統,因此我擁有一個縱向整合的團隊,該團隊分佈廣泛,人們職責明顯不同。這包括具有更多硬件經驗的同事在較底層的硬件上工作,其他人則沒有。但是說實話,感覺任務並不那麼艱鉅。這是一個令人興奮的機會,可以學到很多新奇有趣的東西。關於它實際上有多困難,也許有人對此充滿了樂觀和天真。另一方面,這篇論文 [2] 中實際討論的許多硬件開發都具有 “類似於軟件” 的方面,這也使得這看起來比實際要簡單。但是,如果擁有與 Google 和 YouTube 一樣的人脈和協作能力,那將使其變得不那麼艱鉅。

****Q5: 您在此過程中面臨的最大風險是什麼?如何面對這些風險?遇到很多反對者嗎?

Jeff: 總的來說,硬件是一種風險,因爲這是一項長期投入。因此,一個特定的基本風險是開發新芯片並使其第一時間正確。人們花了很多時間來開發它,如果它不起作用,則必須回去修復它並製造另一個芯片,那樣會使一切推遲很長時間。在前期,我們實際上是使用軟件和專用的仿真硬件來進行仿真——這些仿真中花費了大量精力以將風險降到最低。至於反對者,雖然確實有一些,但公司的硬件方面以及 YouTube 領導方面都有許多堅決的倡導者,他們非常有先見之明,並且看到了我們所做工作的價值。

****Q6: 想到了跨多個團隊和部門進行的如此大規模的項目,以及將如此大規模的技術整合在一起所涉及的所有複雜性。但是聽說在某個時候您被鬆動的螺絲拖累了?發生了什麼?

Jeff: 我們發現在數據中心部署的一臺機器未能通過老化測試,並且其中一個芯片沒有起作用。我們不知道爲什麼,嘗試運行了一堆診斷程序也無解,直到硬件技術人員打開運行中的服務器才發現一個擋板上鬆動的螺釘導致芯片無法上緊。這短路了一個穩壓器,但不至於發生着火或類似的事。

****Q7: 這個新系統爲視頻基礎設施的未來樹立了什麼樣的先例?接下來要做什麼?

Jeff: 關於這件事,它不是一個一次性的程序。一直以來,人們總是打算將多代芯片與兩者之間的系統進行調優。我們在下一代芯片中要做的關鍵事情之一就是添加 AV1,這是一種新的高級編碼標準,其壓縮比 VP9 更有效,但是需要更高的計算負荷進行編碼。對於我來說,我將繼續從事這個項目,發展新一代芯片,這將讓我忙上一陣子。

關於 Youtube VCU 的更多信息請參閱鏈接:

https://www.cnet.com/google-amp/news/google-supercharges-youtube-with-a-custom-video-chip/

感謝快手的黃琦對本文的審覈。

媒礦工廠編者注:

[1] ASPLOS 是跨學科系統研究,相交計算機體系結構,硬件和新興技術,編程語言和編譯器,操作系統以及網絡的高端論壇,即將在線上舉行第 26 次會議。詳細信息見 https://asplos-conference.org/

[2] Ranganathan P, Stodolsky D, Calow J, et al. Warehouse-scale video acceleration: co-design and deployment in the wild[C]//Proceedings of the 26th ACM International Conference on Architectural Support for Programming Languages and Operating Systems. 2021: 600-615.

摘要:視頻共享(例如 YouTube,Vimeo,Facebook,TikTok)佔互聯網流量的大部分,視頻處理也是其他幾個關鍵工作負載(視頻會議,虛擬 / 增強現實,雲遊戲,視頻物聯網設備等)的基礎。這些工作負載的重要性促使更大視頻處理基礎設施的出現,並且隨着摩爾定律的放慢,需要專門的硬件加速器以更高的效率提供更多的計算能力。本文描述了針對倉庫級視頻轉碼的新型加速器的大規模設計和部署。我們介紹了硬件設計,其中包括一個新的加速器構件:視頻編碼單元(VCU),並討論了平衡數據中心規模的系統與大型分佈式軟件系統共同設計的關鍵折衷。我們對這些加速器進行了 “實地” 評估,它們可爲數據中心的實時工作提供服務,證明其效率比先前經過良好調整的非加速基準提高了 20-33 倍;我們的設計還可以有效地適應不斷變化的瓶頸,改進的故障管理以及新的工作負載功能。據我們所知,這是討論大型倉庫規模環境中大規模視頻加速的第一項工作。

https://dl.acm.org/doi/abs/10.1145/3445814.3446723

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/8fVYa6o14BlluXmAZRvw2Q