隨著超高清視頻、直播短視頻、元宇宙、全景視頻、AIGC視頻生成、監(jiān)控安防等應用視頻領域的迅速發(fā)展,音視頻產業(yè)正迎來了前所未有的黃金時代,而視頻壓縮(視頻編碼)技術作為視頻產業(yè)的技術基礎,是整個未來視頻大數據時代的技術制高點。本文將對視頻編解碼技術進行簡要說明以及對當前主流的視頻編碼技術標準進行介紹并對其性能進行對比分析,期冀為未來視頻編碼技術方案選型提供參考
1. 視頻內容本質
視頻是由一系列的連續(xù)圖像幀序列組成,圖像幀的連續(xù)播放則呈現出動態(tài)影像(見Fig_1)。所謂視頻壓縮即視頻編碼技術,其目的是通過壓縮算法來去除視頻信息中的冗余,達到減少視頻文件空間占用的效果。比如監(jiān)控攝像頭經過采集后生成原始視頻,不經視頻壓縮編碼處理,其源視頻數據量非常龐大,在進行傳輸和存儲時,帶寬通道和存儲設備無法對如此巨大的數據量進行有效支撐(見Fig_2),因此需要將源數據進行視頻壓縮編碼處理。
Fig_1連續(xù)視頻幀
Fig_2 視頻采集編碼和視頻重壓縮技術示范
2. 視頻業(yè)務流程
區(qū)別于傳視頻處理流程(見Fig_3),智能流程加入了更多人工智能處理技術,是的視頻的呈現方式出現了多元化的變化,除了最初的屏幕呈現外,數字孿生,智能化應用,虛擬現實等場景變化對視頻最終呈現形式提出了更高的要求,也推動著視頻產業(yè)進入新的發(fā)展階段,并廣泛應用于視頻通信、遠程醫(yī)療、智能制造、智能安防、廣電傳媒等諸多行業(yè)中。視頻編碼技術的蓬勃發(fā)展和視頻多元化應用需求推動整個視頻產業(yè)鏈的重大變革,然而目前視頻編碼技術發(fā)展仍然滯后于視頻發(fā)展的需求,推動視頻技術迭代更新仍是整個產業(yè)的迫切需求。
Fig_3 視頻業(yè)務流程說明圖(傳統流程VS.智能流程)
3. 視頻產業(yè)鏈
視頻產業(yè)鏈由元器件層,設備層,服務層和應用層組成(如Fig_4)。元器件層包括顯示面板,光學器件,圖像傳感器,鏡頭等等元器件以及存儲芯片、圖像處理、視頻編碼芯片,處理器芯片、以太網口、PHY等,是整個視頻產業(yè)的基礎支撐。設備層包括4G/WiFi等無線、有線寬帶、衛(wèi)星傳輸等網絡傳輸設備以及手機/PC/平板、NVR/解碼器、TV/機頂盒、投影顯示、VR/AR頭顯等終端呈現設備。服務層包括視頻云服務、視頻方案服務、安全服務、增值服務、集成服務等,服務層是視頻產業(yè)鏈的核心環(huán)節(jié),也是國內各大廠商競爭最激烈的行業(yè),根據服務的提供方式可分為服務提供與方案自研兩大類。應用層的細分場景是視頻產業(yè)鏈的生命力所在,目前已經滲透到廣播電視、監(jiān)控安防、教育辦公、醫(yī)療健康、智能交通、智能制造等諸多行業(yè)中,基于該領域的創(chuàng)新是千行百業(yè)數字化轉型的重要賦能力量。
Fig_4 視頻產業(yè)鏈結構圖
4. 視頻壓縮本質
視頻數據之所以能夠內編碼壓縮是因為視頻數據中存在大量信息冗余,視頻本質是連續(xù)的圖像幀序列,由于人眼的短暫停留效應產生了運動感,連續(xù)圖像幀之間相似度極高,存在大量的信息冗余。而通過算法去除數字化視頻數據中信息冗余,以最精簡的方式予以表達的過程即為視頻編碼。
空間冗余:視頻圖像在水平方向相鄰像素之間、垂直方向相近像素之間的差別很小,具有較高的相似度;
時間冗余:視頻中相鄰幀之間存在很多相似的圖像序列,可利用幀之間的相似性進行壓縮來減少存儲空間;
空間冗余和時間冗余是視頻編碼中最常見的信息冗余,特別是在靜止場景或緩慢移動的場景中,編碼過程中可以通過運動估計、時間預測和變換編碼等技術來去除。
信息熵冗余:人們用于表達某一信息所需要的比特數總比理論上表示該信息所需要的最少比特數要大,我們可以根據不同像素的出現概率不同,概率高的像素分配較少字節(jié),概率低則分配較多的字節(jié);
視覺冗余:人的視覺系統對于某些細節(jié)信息的感知能力是有限的,例如在低分辨率或低幀率的情況下,人眼無法分辨某些細節(jié)。編碼時可以一定程度舍棄這部分信息冗余,而幾乎不影響人眼視覺效果。
數據冗余:在視頻數據中,可能存在一些數據冗余,例如在某些場景中,物體的顏色或紋理等屬性是固定的,可以通過對這些屬性進行編碼來減少數據冗余。
5. 視覺效果概念
隨著電子信息技術的快速發(fā)展,視頻的呈現形式和視覺效果也出現了多元化變化,從開始標清,高清,全高清發(fā)展到藍光、超高清,另外對視頻幀率、色域、色位深也提出了更高要求。
Tab_1 圖像清晰度定義
6. 有損壓縮和無損壓縮
有損壓縮:解碼還原出來的圖像/視頻/語音和原始文件會存在部分信息丟失或被替換的壓縮方式。由于有損壓縮往往壓縮的部分是人類視覺感知不明顯的區(qū)域,壓縮比相對較高,能夠很好適應當前的網絡傳輸和存儲現狀,被廣泛用于互聯網、安防、教育等行業(yè)。 目前我們在互聯網和安防領域看到的絕大部分視頻圖像文件(JPEG/JPG/WebP等)和視頻文件(H.264/HEVC/AVS)都是有損壓縮范圍。
無損壓縮:解碼還原出來的圖像/視頻/語音文件和原始文件完全一致。無損壓縮通常用于需要保留原始文件質量的情況下,應用范圍較窄,僅適用于醫(yī)學圖像(DCM)、遙感圖像(TiFF)、高清圖像處理(BMP,PNG)等少數領域。
Fig_5 圖像壓縮展示
7. 模擬視頻和數字視頻
模擬信號是指用可連續(xù)變化的物理量所表達的信息,在特定范圍內有無數多個連續(xù)取值。而數字信號則在取值上是離散的、不連續(xù)的信號。模擬信號信息密度比數字信號更高,不存在量化失真,能夠真實物理量盡可能逼近的表達。
Fig_6 模擬和數字信號表達
(圖左為模擬信號表達,圖右為數字信號表達)
模擬視頻則是由連續(xù)的模擬信號組成的圖像視頻,是一種隨著時間變化連續(xù)的電信號。在早期我們接觸到視頻影響資料都是模擬視頻,由于其不適宜進行長期存放,難以多次復制,且圖像信號強度會隨著時間遷移而逐漸衰減,難以保持原有圖像視頻畫質而逐漸倍淘汰。
數字視頻:以數字形式記錄的視頻,可以通過攝像頭直接采集得到的數字信號,數字視頻可進行無數次復制而不失真,可長期存放,并可以對視頻進行非線性編輯處理等優(yōu)點而成為當前視頻最主流形式。
作者:賈春華 ?
裕瀚科技產品總監(jiān),多項發(fā)明專利,多次從0到1主持或深度參與B端產品開發(fā)和設計經驗,10+年視頻安防技術和產品經驗。