,,

推薦閱讀：北京論道嘉賓演講大集合！

2023年6月15~16日，由流媒體網(wǎng)主辦，北京新媒體（集團(tuán)）有限公司、北京聯(lián)通、北京電信、北京移動(dòng)共同協(xié)辦的「北京論道暨第25屆中國(guó)智能視聽(tīng)與科技創(chuàng)新高峰論壇」在北京隆重舉行。

本屆論道以“電視的未來(lái)與未來(lái)的電視”為主題，邀請(qǐng)到了智慧大屏產(chǎn)業(yè)的行業(yè)專(zhuān)家、企業(yè)翹楚蒞臨齊聚，多維角度透視當(dāng)下大屏市場(chǎng)，共謀電視新未來(lái)。

【資料圖】

在15日召開(kāi)的“IPTV價(jià)值高峰論壇”上，中國(guó)移動(dòng)咪咕公司高級(jí)系統(tǒng)分析總監(jiān)沈昕做了主題為《注入嶄新動(dòng)能，釋放倍增效應(yīng)——音視頻AI編碼助力大屏超高清業(yè)務(wù)創(chuàng)新》的演講。

以下為演講全文：

我主要想分享一下大屏超高清相關(guān)的業(yè)務(wù)和技術(shù)的進(jìn)展，以及中國(guó)移動(dòng)包括咪咕公司的未來(lái)規(guī)劃。

IPTV接下來(lái)是進(jìn)一步向外延伸，還是回歸TV業(yè)務(wù)本身，這是大家在思考的問(wèn)題。今天先從回歸的角度來(lái)展開(kāi)，具體就是AI技術(shù)對(duì)大屏超高清業(yè)務(wù)的影響。

產(chǎn)業(yè)創(chuàng)新需要“新變量”

以家庭市場(chǎng)為主的大屏業(yè)務(wù)已經(jīng)進(jìn)入下半場(chǎng)，新變量可以是向外延伸，也可以是內(nèi)化價(jià)值提升。2022年底，有線電視用戶(hù)跌至1.99億，OTT超10億，IPTV達(dá)3.8億戶(hù)，但部分省已出現(xiàn)IPTV用戶(hù)負(fù)增長(zhǎng)的情況。從2007年到現(xiàn)在，大屏業(yè)務(wù)有三個(gè)階段的發(fā)展，接下來(lái)，能否進(jìn)入二次業(yè)務(wù)創(chuàng)新階段？新技術(shù)對(duì)于IPTV能否產(chǎn)生新的量變？新變量又到底在什么地方？

根據(jù)第一性原理，回歸事物最基本的條件，是將其拆分成各要素進(jìn)行解構(gòu)分析，從而找到實(shí)現(xiàn)目標(biāo)最優(yōu)路徑的方法。電視是用來(lái)看的，需要精彩豐富的內(nèi)容、清晰流暢的畫(huà)質(zhì)、沉浸式觀看體驗(yàn)，2022年國(guó)內(nèi)支持4K和HDR的智能電視滲透率超過(guò)80%，但超高清真4K內(nèi)容占比僅約5%。如何在源頭高效生產(chǎn)既適合傳輸、又適合播出的高質(zhì)量?jī)?nèi)容？

五年前，我們就已經(jīng)開(kāi)始考慮怎樣能夠大量生產(chǎn)4K內(nèi)容，因?yàn)榧夹g(shù)條件的限制，以及生產(chǎn)能力等原因，高質(zhì)量?jī)?nèi)容非常少，在播出覆蓋上也很難。但感謝AI技術(shù)在這兩年的應(yīng)用，尤其是ChatGPT在圖象領(lǐng)域、文字領(lǐng)域讓我們看到引入機(jī)器學(xué)習(xí)是能夠加速整個(gè)高質(zhì)量?jī)?nèi)容生產(chǎn)的。AI技術(shù)可對(duì)視頻畫(huà)質(zhì)進(jìn)行明顯提升，加速超高清內(nèi)容生產(chǎn)進(jìn)程，賦能超高清規(guī)模應(yīng)用。

對(duì)咪咕來(lái)說(shuō)，我們考慮的問(wèn)題是如何能夠驅(qū)動(dòng)雙千兆業(yè)務(wù)。從目標(biāo)上來(lái)說(shuō)，希望形成咪咕元宇宙的家庭場(chǎng)景，這需要有引擎化、數(shù)智化的生產(chǎn)能力，基于前幾年投入的超高清領(lǐng)域研究，我們能夠從清晰度、色彩、流暢度、自由視角等形成的超高清技術(shù)能力底座，最終通過(guò)超高清+元宇宙的方式驅(qū)動(dòng)雙千兆業(yè)務(wù)的發(fā)展。

注入嶄新動(dòng)能

回歸到超高清編碼本身，既然是作為后續(xù)元宇宙發(fā)展的基礎(chǔ)，以更逼真、更自由、更沉浸化的方式進(jìn)行音視頻內(nèi)容展現(xiàn)的話(huà)，要分很多維度。比如空間分辨率、時(shí)間分辨率、色彩分辨率、空間自由度、聲音分辨率、數(shù)據(jù)表示等。

清晰度增強(qiáng)——AI在“空間分辨率”中的應(yīng)用方面，針對(duì)清晰度層面的增強(qiáng)，咪咕已經(jīng)在做并且已經(jīng)批量在用的，包括從標(biāo)清到4K，我們基于生成對(duì)抗網(wǎng)絡(luò)（GAN）深度超分模型，進(jìn)行海量高分辨率視頻、圖像素材訓(xùn)練，在已訓(xùn)練高頻細(xì)節(jié)部分獲得高精度復(fù)原效果。

我們首先輸入一個(gè)圖片信息，然后生成視頻結(jié)果，這個(gè)結(jié)果有很多分辨率不是那么清晰，同時(shí)再引入一個(gè)更高清的分辨率，由判別器來(lái)判斷哪一個(gè)圖片是更加合適的，并且把反饋的結(jié)果重新給到生成器。通過(guò)這樣一種方式，實(shí)際上形成了生成和判斷的博弈，訓(xùn)練的場(chǎng)景越來(lái)越多的話(huà)，在生成結(jié)果上面也會(huì)越來(lái)越好。基于這樣的原理，也需要采用周邊算法做進(jìn)一步的提升，包括文字、人臉等進(jìn)行優(yōu)化。

流暢度增強(qiáng)——AI在“時(shí)間分辨率”中的應(yīng)用方面，原理是基于視頻序列相鄰幀之間具有相似的空間和時(shí)間特征，經(jīng)過(guò)CNN內(nèi)多個(gè)卷積和反卷積層后生成新的中間幀，并通過(guò)海量素材訓(xùn)練模型以達(dá)到穩(wěn)定效果。算法周邊：結(jié)合以人眼主觀感受作為計(jì)算標(biāo)準(zhǔn)。

色彩增強(qiáng)——AI在“色彩分辨率”中的應(yīng)用方面，原理是使用CNN和GAN對(duì)大量的SDR和HDR視頻數(shù)據(jù)進(jìn)行訓(xùn)練來(lái)學(xué)習(xí)轉(zhuǎn)換的映射關(guān)系，使用不同的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略，以滿(mǎn)足不同的應(yīng)用場(chǎng)景和性能要求，提高轉(zhuǎn)換的精度和效果。算法周邊：以人眼主觀感受調(diào)整色彩平衡、去噪等，提高視頻的質(zhì)量和視覺(jué)效果。

老片修復(fù)方面，主要是AI數(shù)智化編碼能力的綜合應(yīng)用，可以賦予經(jīng)典影片、紀(jì)錄片、電視劇、文化專(zhuān)題片等新的?命，對(duì)文化傳承起到關(guān)鍵推進(jìn)作用。傳統(tǒng)修復(fù)流程較復(fù)雜，耗費(fèi)?量??物?和時(shí)間，基于AI的自動(dòng)化修復(fù)技術(shù)，可極大加速翻新修復(fù)的進(jìn)程。

360°視場(chǎng)自由——超高清FOV自由視角及自由縮放方面，原理上來(lái)說(shuō)，人眼本身是有觀察范圍的，拍攝過(guò)程當(dāng)中我們采用多機(jī)位的方式覆蓋360度環(huán)繞視頻內(nèi)容。最終，用戶(hù)能夠自由地在全場(chǎng)景當(dāng)中選擇自己感興趣的內(nèi)容，進(jìn)行更加清晰的觀看。

沉浸式三維聲——基于對(duì)象的“聲音分辨率”方面，在平面聲場(chǎng)的基礎(chǔ)上，增加了高度感，將每個(gè)聲音精準(zhǔn)定位，使聲場(chǎng)還原為三維空間，能適應(yīng)不同回放環(huán)境，為聽(tīng)眾提供極致的沉浸式聽(tīng)覺(jué)體驗(yàn)。

關(guān)于未來(lái)

未來(lái)，下一代編碼技術(shù)朝著哪個(gè)方向發(fā)展？編碼技術(shù)本身也是希望能夠通過(guò)最小數(shù)據(jù)量盡量還原我們的物理世界，所以說(shuō)通過(guò)引入AI技術(shù)，在壓縮方法上引入AI壓縮編碼，基于AI區(qū)域分隔，進(jìn)一步降低碼率，同時(shí)能夠更加清晰地還原我們真實(shí)的世界。目前，智能編碼壓縮方法在逐步商用，從傳統(tǒng)基于塊的預(yù)測(cè)、補(bǔ)償、變換的混合編碼框架轉(zhuǎn)向端到端的AI壓縮編碼，以大幅提升壓縮效率。

體積編碼壓縮對(duì)象則處于實(shí)驗(yàn)室階段，流程是二維視頻→三維體積視頻→光場(chǎng)全息視覺(jué)信號(hào)→光學(xué)高維度信號(hào)。視覺(jué)信號(hào)采集成像則未成熟，機(jī)器視覺(jué)編碼壓縮用途也沒(méi)有成熟。

另外，除了在視頻畫(huà)面增強(qiáng)領(lǐng)域的應(yīng)用以外，AIGC也正在帶動(dòng)內(nèi)容供給側(cè)革命。信號(hào)源已經(jīng)突破傳統(tǒng)現(xiàn)實(shí)世界的描述方法，開(kāi)始走向AI強(qiáng)化和數(shù)字生成的新階段。

不過(guò)，AI看起來(lái)很美好，最主要的還是需要有大量的算力，所以后續(xù)來(lái)說(shuō)，從運(yùn)營(yíng)商的角度，構(gòu)建完整的算力網(wǎng)絡(luò)，才能夠支撐我們從內(nèi)容到增強(qiáng)到生成的跨越。基于這樣的算力網(wǎng)絡(luò)，包括AI編碼、AI識(shí)別、AI渲染，當(dāng)某一天我們能夠完成整個(gè)算力網(wǎng)絡(luò)大規(guī)模部署的時(shí)候，有可能完全顛覆對(duì)生產(chǎn)的過(guò)程。

此外還存在一個(gè)疑問(wèn)，未來(lái)的內(nèi)容生產(chǎn)方向上，是從現(xiàn)實(shí)轉(zhuǎn)向數(shù)字，還是由數(shù)字表達(dá)現(xiàn)實(shí)，或者說(shuō)是兩者的相互結(jié)合？但不管怎么說(shuō)，面向高帶寬的用戶(hù)提供都是必不可少的。所以，至少當(dāng)前階段我們能夠看到的是超高清內(nèi)容的不足，而AI技術(shù)能夠?qū)崿F(xiàn)整個(gè)視頻內(nèi)容體驗(yàn)的提升。

所以，面向未來(lái)，我們可以看到，AI編碼+云算力將推動(dòng)業(yè)務(wù)“泛屏化”，同時(shí)，用戶(hù)的交互模式以及內(nèi)容的展現(xiàn)形式都會(huì)有極大的豐富。謝謝大家。

責(zé)任編輯：房家輝

分享到：版權(quán)聲明：凡注明來(lái)源“流媒體網(wǎng)”的文章，版權(quán)均屬流媒體網(wǎng)所有，轉(zhuǎn)載需注明出處。非本站出處的文章為轉(zhuǎn)載，觀點(diǎn)供業(yè)內(nèi)參考，不代表本站觀點(diǎn)。文中圖片均來(lái)源于網(wǎng)絡(luò)收集整理，僅供學(xué)習(xí)交流，版權(quán)歸原作者所有。如涉及侵權(quán)，請(qǐng)及時(shí)聯(lián)系我們刪除!

關(guān)鍵詞：

責(zé)任編輯：QL0009