B 站畫質評測實踐 - 生產端

本期作者

徐慧迅

質量保障中心資深測試工程師

01 背景

隨着短視頻行業的蓬勃發展，全民 UP 主時代已經到來，用戶需要的創作手法日新月異，對創作工具的要求越來越高。而音視頻質量評估偏主觀，複雜功能場景的組合爆炸，使得評測效能提升與傳統的人工評測形成了巨大矛盾，因此需要與時俱進，搭建手段豐富且高效的質量評估體系。

我們的實施路徑如下，通過行業交流與調研，快速確定評測方案的選型並開展落地，再針對本土化過程中遇到的問題，逐步探索形成現在的 B 站特色音視頻質量評估體系。因篇幅有限，本文將着重說明畫質在 B 站的評測實踐，主要以生產端爲例。

方案選型

隨着音視頻技術的不斷髮展，業務的發展不再僅僅依靠技術上的提高，而更強調的是以用戶爲中心。傳統音視頻質量的評估指標是基於服務質量（QoS 見圖 1），它受限於一些客觀參數，並不能全面有效地反映用戶真實的需求和體驗，並不能準確地表現用戶對音視頻業務質量的滿意程度。而體驗質量 (QoE) 則是從用戶主觀感知出發的評估指標，它能夠直接有效反映用戶對音視頻業務的滿意程度。因此 QoE 成爲改善用戶音視頻質量，提升用戶滿意度的主要依據。

目前主流的音視頻評估方法主要有三種：主觀評估、客觀評估以及主客觀結合評估的方法。

主觀評估是用戶對視頻質量直接做出評價，它很直觀，一般可以作爲其他評估指標的參考，最常見的主觀評估指標是 MOS（MeanOpinion Score）。但是主觀評估的實時性差、花費較大，因此不宜被普遍使用。而客觀評估是通過分析研究客觀指標的變化對視頻的影響，從而建立與主觀評價一致的評價模型，它易於對視頻進行實時測量和評估，但準確性有待提高。客觀評估主要通過對視頻量化輸出序列與原始序列的差異，來評估用戶的視頻質量，主要包含三種方法：全參考方法、部分參考方法和無參考方法，下文會有詳細說明。而主客觀評估方法是客觀評估結合了主觀評估的方法。它一般是建立客觀指標與主觀之間的映射關係來建立給定業務的體驗質量評估方法。這種方法結合了主觀和客觀方法的優點：簡潔方便，實時性強，與用戶感知的一致性較高。

因此我們希望通過以提升用戶體驗（QoE）爲目的，通過主客觀評估的方法，搭建 B 站音視頻質量通用方案。

圖片

圖 1 QoS 與 QoE

1.1 主觀評估

主觀評估，顧名思義就是人蔘與的人工評估，視頻主觀質量評價就是選擇一批非專家類型的受測者，讓他們參加一些培訓，閱讀一些評估規範和標準比如說 ITU-R BT.500 等，然後在一個特定的受控環境中，連續觀看一系列的測試序列然後採用不同方法讓他們對視頻序列的質量進行評分，最後求得平均意見分 (MeanOpinion Score，MOS)，並對所得數據進行分析。測試環境中的受控因素包括：觀看距離、觀測環境、測試序列的選擇、序列的顯示時間間隔等；完整的主觀實驗流程一般是如下步驟：

選取特定需求的源視頻
按照 ITU 標準設計主觀實驗
招募志願者觀看視頻並打分
收集主觀打分並剔除無效數據
數據分析並給出實驗結論

ITU 有標準來指導如何做主觀實驗，如 ITU-T P910 [2]，ITU-R BT.2020 [3] 等，由於視頻主觀評估方法的實現成本高，實時性也較差，所以，目前評估方法的研究重點在於客觀評估方法或主客觀結合評估方法，而主觀評估的作用主要在於獲得主觀評估分數來作爲其他評估方法的參考，本文不展開說明。

1.2 客觀評估

客觀評估通過一些評估標準來量化視頻質量，其實就是對每一幀視頻的量化。爲什麼說是視頻幀評估呢，因爲視頻的評估的發展源於圖像質量的評估，每一幀視頻其實就是一張圖片；主要也分爲三類：全參考、部分參考以及無參考（見圖 2）。

全參考評估方法

這種方法需要逐幀比較原始視頻（參考視頻）和受損視頻，涉及到每個幀中每個像素的計算。目前典型的方法有峯值信噪比方法和均方差。全參考方法在像素層上進行計算，其對時空域上的失真非常敏感，其特點在於準確度很高，但是由於這種方法需要獲取到參考視頻，傳輸參考視頻需要佔用一定的帶寬，成本較大，所以其可用性較低，並且全參考指標的計算複雜度相對較高實時性較差，目前僅僅在實驗室環境下研究時使用。
部分參考評估方法

這種方法需要比較原始視頻（參考視頻）和受損視頻的部分參數信息來進行的評估，這種方法較全參考指標更輕量級，能節約傳輸帶寬（只需要傳輸部分數據信息，而不是整個參考視頻，而且計算複雜度相對較低，實時性高，很適用於實時視頻傳輸網絡。
無參考評估方法

這種方法僅僅從受損視頻中提取參數來評估視頻序列的無需獲取原始視頻的任何信息，只需要分析受損視頻即可。無參考指標具有非常高的實用性，它的計算複雜度是三種指標中最低的，實時性好，但是其準確度是三種方法中最低的，並且這種方法無法定位視頻損傷問題的來源。

圖片

圖 2 全參 / 部分參考 / 無參考

1.2.1 PSNR

基礎客觀評價指標—PSNR

PSNR，即 PeakSignal-to-NoiseRatio，峯值信噪比，指的是信號的最大可能功率與噪聲功率之比。PSNR 公式如（1）所示，單位是 dB：

圖片

其中 MAX=2n -1，n 爲圖像的位深度。MSE 爲均方誤差，即原始圖像與壓縮圖像每個像素誤差的平方和的平均值。

PSNR 是用來評估有損壓縮質量的最常用的指標之一。一般情況下，PSNR 的值越高，壓縮畫面的質量越好。如果對 8bit 位深的圖像進行壓縮，PSNR 的值一般在 30dB 至 50dB 之間；如果是無損壓縮，那麼 MSE 爲 0，PSNR 的值爲無限大。

PSNR 的侷限性在於只考慮了每個像素之間的絕對差別，但人眼並不是逐個像素去觀看畫面的，因此並不符合人眼的視覺感知特點，這意味着即使是相同 PSNR 的兩段壓縮視頻，也有可能呈現出不同的主觀質量。

1.2.2 SSIM

考慮人類視覺特點的客觀評價指標—SSIM

SSIM，結構相似性指數。它由德州奧斯汀大學的 ZhouWang 等人於 2004 年開發。SSIM 指標設計的初衷是提升對圖像主觀質量預測的準確度。

SSIM 主要評價人類可感知到的圖像差別。給定圖像 x 和圖像 y，SSIM 的公式如下：

圖片

SSIM 的值在 0 和 1 之間，一般情況下，其值越高，壓縮畫面的質量越好。由於考慮到了畫面中亮度、對比度和結構特徵，SSIM 在一定程度上更符合人類的主觀感知。

1.2.3 VMAF

基於機器學習的客觀評價指標—VMAF

VMAF, 視頻多方法評估融合，是由 Netflix 公司開發的一種基於機器學習的視頻客觀評價指標。Netflix 爲了解決海量流媒體的質量控制問題，開發了 VMAF 指標，其預測視頻主觀質量的準確度高於 PSNR 和 SSIM 等傳統指標。

VMAF 的原理是提取視頻的空域和時域特徵，特徵提取過程中會考慮到人類視覺特點如對比度掩蔽效應和亮度掩蔽效應。然後召集測試者在特定測試環境下對視頻質量進行主觀評價得到 MOS 分。

最後通過支持向量機 (SVM) 將這些特徵值和 MOS 分數擬合得到 VMAF 模型。分值範圍在 0 到 100 之間，分值越高，代表壓縮畫面的質量越好，一般來說，75 分以上有較好的觀感。VMAF 依然存在侷限性。對於不同觀看媒介上的同一段視頻，比如手機和電視，其主觀感受是不同的, 所以針對不同的觀看媒介需要訓練不同的 VMAF 模型，比較繁瑣。另外，VMAF 和 PSNR、SSIM 一樣，是一種完全參考評價指標(Full-refer-ence)，VMAF 分數是相對於原始參考視頻而言的，不代表絕對質量，即 VMAF 分數只適用於對比同一視頻源所產生的壓縮視頻的質量，而不適用於橫向對比不同視頻源所產生的壓縮視頻的質量。

1.2.4 NIQE

自然統計特性無參考指標—NIQE

之前的一些標準主要依靠 PSNR，SSIM 等指標，但是超分或者其他低層視覺任務圖像評價來說，這些指標並不符合我們人眼感官，所以 NIQE(NaturalImageQualityEvaluator) 應運而生。

NIQE 指標是一個客觀的評價指標，提取自然景觀中的特徵來對測試圖像進行測試，這些特徵是擬合成一個多元的高斯模型。這個模型實際上是衡量一張待測圖像在多元分佈上的差異，這個分佈是有一系列的正常的自然圖像中提取的這些特徵所構建的。

一般來說，NIQE 分數是越低越好。

02 實踐

2.1 步驟

主客觀結合的評估方法融合了視頻體驗質量的主觀評估和客觀評估兩種方法的優點。該方法，既可以準確地評估視頻業務的用戶主觀體驗質量，又可以達到實時性、輕量級等要求。圖 3 展示了主客觀結合評估方法的基本步驟。這裏先以生產端爲場景進行開展評測工作。

2.1.1 確定場景

先明確測試內容，產品特性爲手機拍攝錄製視頻。根據常見的拍攝內容中，從非業務的角度上，分析相關影響因素。首先，從產品業務層面上分析。用戶所在的場地、周邊環境、光線明暗強度、被攝體的運動情況、不同配置的拍攝機器等，從這些方面得到專業的拍攝影響因素。
得到影響拍攝的因素：從物理環境上看，包括單一場景（即室內）/ 複雜場景（即室外）、光源（自然光、強光、弱光）、光圈（順光、逆光）、運動狀態（靜止、劇烈運動）、聲音（安靜、嘈雜）；從設備環境上看，包括採集設備（攝像頭（前置、後置）、麥克風（耳機、手柄、內置））、設備性能（機型、系統、內存）（見圖 3）。

圖片

圖 3 拍攝影響因素

再分析視頻拍攝生成的全過程：設備採集音視頻數據，經過圖像前處理，再進行編碼生成視頻文件。
最後，根據拍攝影響因素和生產過程來建立場景，將這些多元化的因素組合，生成待比對的視頻文件。

2.1.2 視頻主觀質量評估

測試步驟：

a）如圖 4（ITU-R BT.1788 建議書）所示，逐個場景地進行測試。

b）對當前場景，可能以任何次序來播放任何片段，併爲其打分。每個片段都可以多次播放和打分。

c）從一個場景到另一個場景，對片段的訪問是隨機的，防止觀測者試圖根據已排好的次序、以完全相同的方式來做出判定。實際上，在一個測試中，算法的次序仍保持相同，以便簡化對結果的分析和陳述。只有來自相同按鈕的相應訪問是隨機的。

d）對第一次觀測，當前的片段必須在打分之前全部播放過；否則，可能立即打分和停止。

e）爲測試下一個場景，必須爲當前場景的所有片段打分。

f）爲完成測試，必須爲所有場景的所有片段打分。

圖片

圖 4

2.1.3 視頻客觀質量評估

根據確定的場景來確定質量標準。採用主觀評測以及客觀質量評估算法輔助得到一個綜合的結果。

QoE 質量指標：從觀感、聽感和整體體驗三個方面來確定。主要通過客觀質量評估算法實現，包括根據樣本數量採用全參考或無參考質量評估算法。

QoS 質量指標：從視頻、音頻和性能三個方面來確定。主要使用音視頻分析工具和性能監測工具。

根據不同的場景，選擇不同的算法，生成不同的結果，並進行分析（見圖 5）。

圖片

圖 5 整體流程

其中模塊說明：

參數模塊：根據比對場景，系統給出推薦參數選項，用戶可自行調整參數和相應閾值。
算法模塊：包括預置算法和算法推薦。

預置算法包括開源的業內通用算法（如：全參考圖像質量評價（VMAF、PSNR 等）；無參考圖像質量評價（NIQE、NISQA 等）；QoE（黑白屏、靜音、卡頓等））和公司自研算法（音畫同步、編碼算法、視頻檢測算法）。

算法推薦則是事先內設的比對算法規則。根據預置算法所針對的音視頻特性檢測，結合場景參數去關聯相關算法。
顯示模塊：根據競品數量，自動輪詢播放所有場景樣本。用戶可選自動輪詢或手動切換模式。可以更直觀且方便的進行主觀評價，或其他用途。
處理模塊：採用多線程的方式，併發處理各個算法提高運行速度，並將結果存儲。

2.2 B 站實際落地過程中問題及思考

在實際落地的途中，我們遇到了很多問題，這些問題需要隨着業務需求去不斷解決。主客觀評測也是一個逐漸完善的過程，這裏也提出一些問題及解決方式供大家參考。

2.2.1 主觀測評遇到的問題

主觀評測如何使結果更爲準確

初次評測的時候，其主觀結果數據相差較大，覆盤了原因，主要是樣本數據場景較爲單一，且打分主要是測試同學；在此基礎上，再次評測我們採取了一些優化措施。

A. 控制參與者選擇

參與者選擇：數量控制（4~40）

用戶類型：拉齊角色，運營 / 產品 / 研發 / 測試一起參與

觀測條件：採用 ITU-RBT.1788 建議書將觀測條件標準化（見下圖 6）

圖片

圖 6

B. 控制樣本選擇

內容選擇：分類儘量廣

特徵選擇：高級特徵、低級特性

樣本 SITI 分佈：儘量跨越大部分空間 - 時間（見下圖 7）

圖片

圖 7

評測流程較爲繁複，如何簡化中間流程，使打分更爲智能化

早期評測，一般我們採用大會議室，控制距離，屏幕亮度等，進行雙盲驗證。然後打印分數單，根據編號書寫分數，並在後期記錄，整理成報表。其過程相對較長，效率較低。基於此現狀，構建了主觀評測平臺，可以雙屏、三屏打分，且可以將分數可視化爲圖表。剔除重複數據和異常數據等。

A. 接入主觀觀測平臺，可雙屏 / 三屏比對打分，並將結果整理成相應的報表

圖片

圖 8 雙屏對比打分

圖片

圖 9 三屏打分

B. 將流程接入自研平臺，更爲自動化

圖片

圖 10

對於主觀分數相差較大，如何客觀看待

不同的觀測者會給出不同的分數，且畫質是一個較爲主觀的選擇，所以接入了用戶置信度計算，使得分數更具準確度。

A. 接入用戶置信度計算，根據 ITU-RBT.500-13 中定義的程序篩選並去掉不置信的受試者，得到較爲客觀的數據。

圖片

圖 11

B. 將異常場景單獨抽離，額外打分，並將打分的數據重新整理，針對某些場景，設定匿名問卷調查分析原因。

2.2.2 客觀評估遇到的問題

對於拍攝場景，傳統的 PSNR/SSIM 算法因爲基於像素比對，無法很好的比對濾鏡，特效等場景。

B 站的音視頻場景，不僅有大家熟知的播放場景，還有拍攝，剪輯等場景。播放場景可以運用全參 PSNR 比對輸入輸出視頻。而在拍攝、剪輯中的部分特效濾鏡等場景運用傳統的 PSNR 等算法等是基於像素的，針對加了濾鏡特效等場景準確度不是很高。基於此，我們在不同的場景引用不同的算法。比如拍攝濾鏡等場景，我們會使用 NIQE 無參算法比對與競品之間的畫質，且會進行二次改造，只採用其關鍵幀。

A. 引入 NIQE 算法，並進行二次改造比對其關鍵幀，得到分數，與主觀分數擬合，相似度較高，較爲準確。

在 LIVE 和 CSIQ 兩個視頻質量數據集上對所提出算法的性能進行驗證。LIVE 數據庫包含 10 個參考視頻和對應每個參考視頻的 15 個失真視頻。CSIQ 數據集包含 12 個源視頻和相對應的 18 個失真視頻。我們使用標準的 PLCC 和 SROCC 作爲質量準則來比較不同算法的性能（見圖，圖來自 Making a Completely Blind Image Quality Analyzer）。

圖片

圖 12

可以看待 NIQE 在不同的算法集上數據大幅領先其他的算法。且我們在此基礎上篩選其關鍵幀，計算其關鍵幀的分數，去除最高與最低分數，得到一個較爲平衡的分數；

異常幀會影響整體的視頻的客觀數據

用戶的場景，一般在不同的機型裏，其輸入輸出幀可能幀數不一致，或者存在異常幀的場景。在無參算法裏一般我們會用黑幀、花屏檢測等剔除掉異常幀。但是在全參考算法裏，開始算法計算時，是需要仔細的對齊這一系列的幀再能做計算的，因爲全參考的計算原理是根據兩張相同場景的圖片數據，做比較測算。仔細想想：“幀對齊” 是一件很難的事，因爲人們是很難通過圖像特徵來區別每一幀。所以，“幀對齊” 這個問題，拆解爲兩個問題：如何識別每一個幀 + 找到未對齊的幀這兩個問題。根據上述分析，我們可以拿到具體的視頻折損測試方案：

圖片

圖 13

輸入源爲兩個視頻，分別是 “原視頻” 和 “待比較視頻”(折損視頻)，首先將視頻處理爲一系列的圖片幀文件，然後進行幀對齊處理 (將幀的分辨率處理成一致的分辨率，將丟幀補齊，將卡幀刪掉並記錄幀號)，輸出兩列對齊後的視頻幀序列，再合成對齊幀後的視頻序列，再進行 VMAF，PSNR 等全參考得分的分數計算。

圖片

圖 14

最後得到的就是相同幀才進行比對，剔除掉相應的異常幀。

主要設計的視頻幀的處理主要模塊代碼如下：

def process_video(filename=0, func=None, output='result.mp4', verbose=0):
    """處理視頻
    :param filename: 視頻源，默認爲攝像頭
    :param func: 處理每一幀的函數名
    :param output: 保存的文件名
    :param verbose: 可視化，0不可視化，1顯示處理後的結果，2顯示對比結果
    """
    cap = cv2.VideoCapture(filename)  # 打開攝像頭
    fourcc = cv2.VideoWriter_fourcc(*'MP4V')  # 視頻編解碼器
    fps = cap.get(cv2.CAP_PROP_FPS)  # 幀數
    width, height = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH)), int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))  # 寬高
    out = cv2.VideoWriter(output, fourcc, fps, (width, height))  # 寫入視頻
    if verbose > 0 or filename == 0:
        print('英文下輸入q停止')
    count = cap.get(cv2.CAP_PROP_FRAME_COUNT)  # 總幀數
    accum_time = 0  # 累計時間
    curr_fps = 0  # 當前幀數
    prev_time = timer()  # 上一段的時間
    while cap.isOpened():
        if count > 0:
            current = int(cap.get(cv2.CAP_PROP_POS_FRAMES) + 0.5)  # 當前第幾幀
            curr_time = timer()  # 當前時間
            exec_time = curr_time - prev_time  # 處理時間
            prev_time = curr_time  # 上一段的時間設爲當前時間
            accum_time = accum_time + exec_time  # 累計時間
            curr_fps = curr_fps + 1
            if accum_time >= 1:
                accum_time = accum_time - 1
                print('進度:{:.2f}%\tFPS:{}'.format(current / count * 100, curr_fps))
                curr_fps = 0  # 重置幀數
        ret, frame = cap.read()
        if ret == True:
            result = func(frame, current) if func else frame
            out.write(result)  # 寫入幀
            if verbose > 0 or filename == 0:
                cv2.imshow('after', result)
                if verbose == 2:
                    cv2.imshow('before', frame)
                if cv2.waitKey(1) & 0xFF == ord('q'):  # q退出
                    break
        else:
            break
    cap.release()
    out.release()
    cv2.destroyAllWindows()

OCR 算法爲開源算法，python 直接引用即可，暫不多述說。

2.2.3 整體遇到的問題

1. 主客觀一定能代表 QoE 嗎？

主客觀不一定代表 QoE, 作爲用戶體驗，體驗指標有很多，主客觀只是作爲畫質的一類，其中還包含性能部分；我們目前做了相關的畫質指標優化，需要接入更多的性能指標輔助視頻參數，使得結果更爲多樣化。

2. 主客觀評測發現的畫質問題，如何進行專項優化？

我們需要在視頻的每個流程節點進行優化。從採集 -> 渲染→編碼各階段着手分析，定向優化；

基於採集模塊：

圖片

圖 15

A. 主要是在光圈和 CMOS 感光芯片不變的情況下，通過調整感光度（ISO）和快門時長讓曝光偏移始終維持在 0

B. 採集分辨率、幀率、碼率等參數調整

基於渲染模塊：

圖片

圖 16

A. 美顏 (磨皮，大眼、瘦臉等參數)、濾鏡調整

B. 特效貼紙分辨率調整

基於編碼模塊：

圖片

圖 17

A. 硬軟編碼的兼容

B. 編碼格式及視頻參數調整

2.3 整體框架及投產效果

基於上面的實踐，我們在主觀評測中總結並豐富樣本和人羣特性，保留樣本隨機性同時提高主觀打分的置信度，最終工程賦能達到自動化的雙盲驗證；在客觀評價上，針對拍攝剪輯和播放兩塊功能的評測重點不同，通過對經典算法的改造和組合，來適配不同的評測場景，形成一套完整可靠且可用性高的解決方案。主客觀爲主，視頻檢測手段爲輔，評測自動化賦能，能夠評估各項業務，得到一個較爲準確的結果。

圖片

圖 18

目前已經在必剪、bilibili 拍攝等多個業務進行實踐，例行分析輔助產品迭代。例如，新版本較於初版，我們調整了低端機的分辨率，幀率，結果是新版本的低端機畫質數據綜合打分整體高於初版低端機畫質數據等。

我們將每次報告進行主客觀數據擬合，發現主觀數據與客觀數據基本一致。並在每個迭代版本都會建立流程機制。通過數據覆盤分析，輔助產研判斷定向優化目標。投產收效主要在畫質的提升和編碼速度的優化，見下圖。

圖片

圖 19

03 更高標準 HDR 如何評測

3.1 什麼是 HDR

HDR 一般指高動態光照渲染。高動態範圍圖像（High-DynamicRange，簡稱 HDR），相比普通的圖像，可以提供更多的動態範圍和圖像細節。現實真正存在的亮度差，即最亮的物體亮度，和最暗的物體亮度之比，是一億種不同的亮度，而人類的眼睛所能看到的範圍是十萬種不同的亮度。可見拍攝的亮度區域和真實空間差距較大，HDR 就是爲了解決這一問題而出現的（見圖 20、圖 21）。

圖片

圖 20 HDR 釋義

圖片

圖 21 左爲 HDR / 右爲 SDR

3.2 HDR 評測方式

3.2.1 HDR 參數

先說顏色轉換函數，分別是 PQ（smpte2084）和 HLG（arib-std-b67）

ffmpeg 壓縮參數中，HDR10 的 transfer=smpte2084，HLG 的 transfer=arib-std-b67

BT.2100 標準提供兩條伽瑪曲線作爲不同類型生產工作的標準：

對於互聯網流媒體和電影：PQ（感知量化）
對於廣播電視：HLG（混合對數伽瑪）

PQ 伽瑪曲線基於人類視覺感知的特徵，並且最適合於在互聯網上製作電影或串流視頻的內容，其中再現準確性是關鍵。

另一方面，HLG 伽瑪曲線旨在允許在現有的 SDR 電視上顯示而不會看不到位置，並且最適合於廣播電視和直播視頻饋送。

HDR 視頻我們一般支持的是 HDR10&HLG&&HLG 加上杜比，參數如下圖所示：

圖片

圖 22

3.2.2 HDR 主客觀評測

評測方式主要見下：

圖片

3.3 HDR 評測結果

主觀：

主觀觀測（需配合支持 HDR 視頻的屏幕使用）

相比於 SDR 視頻，大多數 HDR 視頻對比度更高，色彩更明亮，畫質更好
針對於某些類型（原視頻對比度很高情況），HDR 視頻高亮處有些刺眼
SDR 轉 HDR 視頻後，相比於原 HDR 視頻，畫質表現略差

客觀：

比對客觀參數，加上 VMAF 及 NIQE 跑分，有個綜合的結果，與主觀評測對齊；知道哪方面存在缺點，及時改進。

圖片

圖 23

04 總結及展望

本文簡要回顧了目前視頻質量評估的通用方案。考慮到業務特性，我們傾向於使用主客觀評估方法，結合 QoS 數據（這裏指音視頻參數、性能數據等）進行音視頻質量評估。但是這樣做也不能完好的體現 QoE，也算是性能與畫質參數的折中體現。我們提出了一些解決方案去解決實踐過程中的問題，並根據提出的缺陷去專項優化畫質。相比於傳統的算法（PSNR/SSIM），我們引進了 VMAF、NIQE 等算法，進行了一些改造，並解決了幀差問題。針對於新標準 HDR，也有相應的測試方式。當然，這一切纔剛剛開始，還有很多工作需要補充。我們還需要：

在建立完整的視頻體驗質量方法的基礎之上，結合視頻傳輸網絡的相關特點，將評估方法應用到真實網絡中去（直播場景）。
建立多樣化測試場景，擴充多維度的質量指標，得到較爲全面的報告，對齊業界競品。

參考附件：

[1]《面向用戶體驗的視頻流業務質量評測方法》劉繼春

[2]《新一代視頻編碼主客觀評價結果一致性探究》孟昭旭朱宏宣

[3] https://mp.weixin.qq.com/s/FGGK6fBeK--spA7gSwzBeg

[4] https://mp.weixin.qq.com/s/4bsoI6lYYG1BgwG4-lez6w

[5] NIQE（無參考圖像）https://github.com/huping96/niqe-C-MATLAB-code.git

[6] VAMF（ffmpeg 集成、直接引用即可）（有參視頻）

[7] ITU-RBT.1788 建議書

[8] ITU-RBT.500-13

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/Oy_PZD9ZDF5viZFfQMV-Aw