近年,隨著算力、預訓練模型和多模態技術的不斷匯聚發展,在自然語言和音視頻領域涌現出大量人工智能生產內容(Artificial Intelligence Generated Content,AIGC)作品,在聊天機器人、AI作畫、虛擬主持人和新聞寫作等應用場景中更是熱點頻出。
(相關資料圖)
2022年11月,美國人工智能實驗室Open AI推出基于GPT-3.5架構的聊天機器人——ChatGPT(Chat Generative Pre-trained Transformer),上線僅兩個月,用戶數量達到1億。
ChatGPT、GPT-4的爆火出圈,產學研各界對AIGC的討論、研究和應用熱度也上升到了新高度,因此,2022年也被稱為AIGC技術元年。
AIGC技術憑借先進的神經網絡模型和龐大的訓練數據規模,使其能夠接受和處理更加復雜的語音、文本、圖像等多模態數據,通過融合知識發現、知識推理等手段,實現了知識技術從感知、理解到生成、創作的躍遷。
目前,國內外對AIGC技術的定義并沒有統一標準,不同領域、不同研究機構和學者對AIGC技術的定義和范圍也有所不同。一般來說,AIGC技術是通過AI技術(如機器學習、深度學習等)自動或半自動地生成內容的生產方式,生成內容包括但不限于文字、音頻、視頻、圖像等形式。國內產學研各界對于AIGC的理解是繼專業生成內容(Professional Generated Content ,PGC)和用戶生成內容(User Generated Content,UGC)之后,利用人工智能技術自動或輔助生成內容的新型生產方式。
本文對AIGC的研究和分析主要聚焦于AIGC用于內容自動化生成的生產方式和技術集合,而非內容生產者視角進行分類的一類內容。未來,隨著AIGC技術與PGC和UGC的結合,其將大大提高PGC和UGC內容的生產效率和質量,在實現內容創作的自動化和智能化方面發揮更大的作用。
然而,目前AIGC技術仍存在一定的局限性,其算法和技術仍處于不斷發展和完善的過程中,可靠性和普適性仍有待進一步提高和加強。AIGC技術的底層技術和產業生態已形成了新的格局,未來AIGC技術在更多行業的海量應用場景有望打開。
01
AIGC技術發展沿革
AIGC技術的發展歷程大致可分為三個階段:專家規則驅動、統計機器學習驅動和深度強化學習驅動。三個階段并非完全獨立,而是交叉和融合。
專家規則驅動階段是AIGC技術的早期應用階段,也是最簡單的階段。在這一階段,人們使用預定義的模式、模板和程序語言來實現對特定領域的知識和規則進行編碼和實現,從而生成特定類型的內容。
這種方法的優點是可控性高、定制化程度高,但是內容生成被限制在規則內,缺少靈活性,無法自動學習和創新且人工成本高,遠遠算不上智能創作內容的程度。如果涉及特定領域內容生成問題,還需要具有領域知識的專家參與。初期內容生成技術呈現出模板化、公式化和小范圍的特征。
隨著機器學習和深度學習算法的出現和發展,基于專家規則的AIGC算法已經逐漸被替代或作為其他模型的輔助手段。
統計機器學習驅動階段是AIGC技術的第二個發展階段,這一階段的核心是機器學習技術。利用大量的數據來訓練機器學習模型,從而使其能夠生成更加優質和多樣化的內容。這一階段的代表性應用包括機器翻譯、語音合成、圖像生成等。相對于第一階段基于規則的生成階段,只需要為統計機器學習AIGC技術提供足夠的數據和特征,即可更迅速、更準確、更靈活生成不同模態的數據內容,而無需事先通過人工設計規則,自動化、智能化水平更高。
然而,基于統計機器學習的AIGC方法對數據特征依賴性強,使得算法在領域遷移或者處理新類型的數據時效果不佳。
與此同時,由于機器學習方法的AIGC方法需要大量數據作為特征工程的基礎,但某些領域數據可能很難獲取或者數據量無法達到機器學習AIGC方法訓練數據規模要求,造成模型過擬合或者效果差,因此也限制了此類方法在特定領域的應用。換句話說,基于專家規則和統計機器學習方法的AIGC技術都未能很好地解決算法或模型領域遷移成本問題。
深度強化學習驅動階段是AIGC技術的最新發展階段,也是目前最為熱門的AI技術領域。在這一階段,利用深度強化學習和自適應多模態生成等模型,使AIGC技術能夠實現更加復雜、高級和創新性的生成,并具有更強的個性化和交互性能,且可以在沒有或者少量人工干預的情況下進行自我學習與自我適應,通過反復嘗試、調整和優化,逐漸形成對各種場景的適應能力,從而實現更加精準的內容生成。這一階段的代表性應用包括聊天機器人、AI繪畫、AI圖像生成等。
相對于前兩個階段,深度強化學習驅動的生成方法具有可定制性更強、可擴展性好且可自我學習的優勢,從而在一定程度上解決了算法或模型領域遷移問題,能夠更加靈活地調整模型以適應更加廣闊的應用領域。
然而,基于深度強化學習驅動的AIGC模型訓練和運行具有非常高的門檻。首先,深度強化學習需要大量的數據和計算資源進行訓練,且運行過程需要較高的計算能力和存儲空間,計算復雜度高,這勢必會增加訓練和運行成本。除此之外,深度強化學習驅動的AIGC模型的生成效果很大程度上受限于訓練數據的質量和多樣性,訓練數據不足或者質量不佳都會影響模型表現。
作為AIGC技術的重要分支,ChatGPT 正逐漸成為現象級消費類AI應用,而擁有多模態能力的GPT-4 的推出及其與Office套件的融合勢必能夠引爆應用新熱點。
以近期爆火的聊天機器人ChatGPT為例,目前最大的版本ChatGPT-3的訓練規模達到了1750億個參數,需要上萬個CPU/GPU24小時不間輸入數據,是目前已知最大的神經語言模型之一。而較小的版本ChatGPT-2也擁有13億個參數。
ChatGPT使用來自互聯網的文本數據庫進行訓練,包括從書籍、網絡文本、維基百科、文章和互聯網其他文本中獲得的高達570GB的數據。GPT-4作為GPT-3的繼任者,在多種任務中表現出更佳的性能,包括文本生成、摘要、翻譯、問答和對話等。
目前,GPT-4的具體參數規模尚未公布,然而仍可以合理地推測,GPT-4的參數規模將比GPT-3更大,以提供更強大的生成能力和更高質量的生成內容。
ChatGPT與GPT-4成為現象級應用,離不開投喂的高質量數據、廣泛的應用場景、持續的資金投入與開發AI產品的邊際成本以及懸而未決的全棧集成能力。訓練規模越大,模型可以處理的語言表達和語義越豐富,生成的文本也更加流暢自然,但是同時也需要更大的計算資源和更長的訓練時間。
開發團隊OpenAI也承認“ChatGPT有時會寫出看似合理但不正確或荒謬的答案”,從而出現人工智能幻覺[3]現象。最新推出的GPT-4同樣未能有效解決上述問題,受到道德、安全和隱私方面的挑戰。
最為關鍵的是,基于深度強化學習驅動的AIGC方法通常是黑盒模型,模型的學習過程往往是不可解釋的,研究人員難以理解模型為何會做出某些決策,這也會給模型的可靠性和安全性帶來潛在風險,可能會導致在其法律和金融等領域或一些敏感場景下的應用受到限制。AIGC的算法和技術目前仍在不斷發展和完善之中,未來隨著技術的不斷進步和算法的優化,AIGC技術將更加成熟和普及。
02
AIGC技術在智慧廣電
和網絡新視聽的應用場景
人工智能技術在廣播電視和網絡視聽領域中的應用正在快速發展,目前主要應用包括視頻剪輯和編排、音頻生成和語音合成、內容智能推薦等方面。
未來,AIGC技術將會在廣播電視和網絡視聽領域中扮演更加重要的角色,成為節目制作、內容創作、播出和營銷等各個環節中不可或缺的工具,輔助提高工作效率和節目制作質量,實現多樣化、智能化和精準化的內容創作、推薦和推廣,推動行業向智慧化、個性化、創新化方向發展。
AIGC+音視頻生成:提高內容生產者創作效率
傳統的音視頻生產手段通常在初期腳本創作、錄制和后期編輯等環節需要大量的專業人員參與,費時費力,且難以實現自動化,逐漸無法滿足消費者對于數字內容消費需求的迭代更新速度,供給側產能瓶頸亟待突破。
隨著生成對抗網絡(GenerativeAdversarialNetworks,GAN)、變分自編碼器(VariationalAuto-Encoder,VAE)等深度學習算法快速升級,使得AI驅動的音頻和視頻生成技術在廣播電視和網絡視聽領域得到越來越廣泛的應用,市場潛力逐漸顯現。
音頻生成通常利用深度神經網絡模型對大量音頻數據進行訓練學習,在無需或較少人工干預或錄制的情況下,自動生成高質量、逼真的音頻,同時通過添加噪聲、修改音頻頻率、改變音調等方法,還可以增強音頻的多樣性和豐富性,生成包括語音、音樂和自然聲音等在內的多種音頻類型。
此外,音頻生成技術還可以根據特定場景或需求對生成的音頻進行優化和定制,以滿足不同用戶的需求。AIGC+視頻生成技術基于多個卷積神經網絡(Convolutional Neural Network,CNN)、循環神經網絡(Recurrent Neural Network,RNN)、GAN、VAE的組合,學習大量視頻中的空間、序列、時間、場景、物體和動作等信息,自動生成具備真實感視頻的細節和紋理和更加多樣化的視頻內容。
同時,根據給定的輸入條件,如不同場景、不同人物、不同動作等,并通過視頻去噪、色彩校正、邊緣增強等后期處理,可以在保持視頻逼真度的同時,實現對生成視頻的精細化控制以及細節的修復與優化。
音視頻生成技術在明星語音合成、智能音樂創作、自動化視頻集錦、視頻拆條、視頻超分、游戲開發和虛擬現實等細分場景中擁有廣泛的應用前景,且高效節省了人力時間成本。
2018年,英偉達(NVIDIA)發布StyleGAN模型可以自動生成圖片,目前最新的第四代模型StyleGAN-XL生成的高分辨率圖片人眼也難辨真假。
2019年,DeepMind提出DVD-GAN (Dual Video Discriminator GAN)模型,利用計算高效的判別器分解,擴展生成時間更長、分辨率更高的視頻,在草地、廣場等明確場景下表現不凡。
2020年全國兩會期間,人民日報社利用“智能云剪輯師”實現自動匹配字幕、人物實時追蹤、畫面抖動修復、橫屏速轉豎屏等技術操作,快速生成視頻以適應多平臺分發要求。
2022年冬奧會期間,科大訊飛的智能錄音筆通過跨語種語音轉寫2分鐘快速出稿,央視視頻利用AI智能內容生產剪輯系統制作與發布冬奧會冰雪項目的視頻集錦,極大地提高了制作效率,縮短發布周期。
利用AIGC技術生成音視頻可大幅減少時間和成本,提高生產效率,同時保證作品一致性和穩定性。其次,它能生成高質量、逼真的音視頻內容,允許創作者更好地表達創意和想法。然而,AIGC技術在音視頻生成方面也存在一些局限性。
首先,AIGC技術目前還無法完全替代人類的音視頻創作,因為人類的創作具有更加復雜的情感和思維,能夠表達更多元化的創意和想法。
其次,AIGC技術還存在一些技術問題,例如在生成音視頻時可能存在一些不真實的細節和瑕疵,需要不斷改進和優化。AIGC技術也需要大量的數據和計算資源,才能夠達到更高的生成效果和質量,這也對技術的使用和推廣提出了一定的挑戰。
AIGC+虛擬主播:推動虛實融合多樣化進程
近兩年來,虛擬主播成為廣電領域內熱門話題。許多虛擬主播逐漸嶄露頭角,其中包括中央廣播電視總臺的“小小撒”和“AI王冠”,以及北京廣播電視臺的“時間小妮”、湖南廣播電視臺的“小漾”、東方衛視的“申雅”、“東方嬡”、浙江衛視的“谷小雨”等等。
這些虛擬主播已經成為廣電領域中的高新技術標配產品,越來越多的虛擬主播也正在走上前臺。在眾多虛擬數字人好看的皮囊下,離不開AIGC技術賦能。虛擬主播是指由計算機程序生成的具有人類形象和行為的虛擬人物,目前已成為廣播電視和網絡視頻領域中越來越流行的一種形式。
AIGC技術通過深度學習算法對大量人類主播的視頻和音頻數據進行分析和學習,從而生成具有逼真、自然的語音和動作的虛擬主播,展現與真人主播無異的信息傳達效果。虛擬主播不受時間、空間的限制,可以隨時隨地出現在直播、電視節目等各種媒體中,成為一個可以為人們提供有趣、實用、便捷服務的新型媒體形態。
此外,虛擬主播也可以通過各種動畫特效、配音等手段進行二次創作,創作出各種風格獨特的視頻內容,為廣播電視和網絡視頻領域注入更多的創意和活力。
虛擬主播的出現和發展,極大地豐富了數字內容的形態和表現方式,對于拓展數字媒體的應用場景具有重要意義。2022年兩會期間,百度利用AIGC技術生成虛擬數字人主播“度曉曉”,通過多模態交互技術、3D數字人建模、機器翻譯、語音識別、自然語言理解等技術,能夠快速、準確地播報新聞內容,且具有自主學習能力。
“度曉曉”
與此同時,新華社、中央廣播電視總臺、人民日報社以及湖南衛視等國家級和省市級媒體都在積極布局AI虛擬主播技術,并將其應用場景從新聞播報擴展至晚會主持、記者報道、天氣預報等更廣泛場景,為全國兩會、冬奧會、冬殘奧會等重大活動深度賦能。
北京廣播電視臺發布了中國首個廣播級智能交互數字人“時間小妮”,它利用先進的人工智能視頻合成技術,包括人工智能、深度學習和卷積神經網絡技術,經過情緒仿真引擎處理,創造出高度逼真的“數字人”,其外貌、語音、口型、肢體動作與真人相似度達到97%。該數字人可用于營銷宣傳、新聞報道、教育教學、智能問答等多個領域,并且擁有廣播級別的智能交互功能。
“時間小妮”
虛擬主播通過AIGC技術可以實現24小時不間斷播報、無需人工休息,解決了傳統主播工作中存在的疲勞和失誤問題。同時,虛擬主播可以在短時間內適應各種語調和風格,滿足不同類型節目的需求,提高了廣播電視和網絡視頻制作的效率。
然而,虛擬主播也存在一些局限性。首先,由于缺乏人性化的情感表達和傳遞,虛擬主播還難以完全取代傳統主播的角色。此外,虛擬主播的知識和信息來源受到限制,需要對其進行不斷的數據訓練和更新,才能滿足用戶不斷增長的需求。
AIGC+內容審核:助力審核高效化發展
隨著數據驅動的經濟社會的快速發展,音視頻和文字內容的傳播量呈現爆發式增長。然而,這其中也存在不良、低俗、暴力等違法違規內容的情況,對社會的穩定和公序良俗帶來負面影響,因此需要更加全面、高效和細致的審核方式。
AIGC技術在廣播電視內容審核方面發揮著重要作用。相較于傳統的內容審核方式需要耗費大量人力物力,AIGC技術能夠通過自動識別和分類技術快速準確地對大量內容進行篩查和審核。
例如,通過語音識別和語義理解技術,AIGC技術可以檢測和識別內容中的敏感詞匯和暴力內容,從而對違規內容進行標記和刪除。
此外,AIGC技術還能夠通過圖像和視頻分析技術監測、識別和過濾不良內容,如色情和暴力畫面,從而幫助廣播電視機構更好地維護社會公共秩序和道德風尚。
騰訊與虎牙成立安全聯合實驗室,共同建設AI智能審核平臺。虎牙結合自研“AI智能識別、人工審核和網絡志愿者”三位一體模式,騰訊則全面開放“AI+大數據”內容風控安全技術,共同優化內容識別能力,以營造更為安全的內容生產環境,應對直播平臺內容風險和威脅。
百度提出“AI內容風控”概念,通過應用圖像識別、富媒體識別、NLP、分類/聚類、關聯挖掘、機器學習等技術,對違法違規、垃圾信息、內容質量差等情況進行風控,可跨場景判斷,實現對多種內容的風控,其中99%的信息在上線前被自動攔截,減少了人工勞動。
AIGC技術能夠通過自然語言處理和圖像識別技術快速對大量的數據進行處理,識別和標記涉黃、暴力、政治敏感等不良信息,幫助審核機構和平臺快速發現并刪除違規內容,提高內容審核的效率和精度。
然而,AIGC技術仍然無法完全替代人類審查,可能會漏檢或誤判某些內容。此外,AIGC技術本身也存在一定的局限性,例如難以識別復雜的隱喻、諷刺等語言形式,難以理解某些具有特殊含義的圖片、視頻等內容。
因此,在實際應用中,需要結合人工審核來提高審核的準確性和可信度。
AIGC+智能推薦:完善用戶個性化體驗
隨著用戶需求的日益個性化和多樣化,在內容智能推薦領域,AIGC技術同樣蘊藏了諸多可能性,助力增強廣播電視和網絡視頻領域生產力。AIGC技術通過對用戶的觀看行為、視頻偏好等數據進行分析,建立完整的用戶畫像,智能推薦符合用戶興趣的音視頻內容,還可以通過生成個性化的音視頻內容來滿足為用戶生成個性化的新聞播報、廣告宣傳等內容特定的需求。
目前,央視視頻、芒果TV、騰訊視頻、愛奇藝、優酷、今日頭條等平臺均結合AIGC技術分析用戶行為和興趣偏好,分析用戶觀看歷史、搜索記錄、點贊、評論等細粒度數據,為用戶提供針對性更強、內容更加精準的視頻推薦,為用戶提供更佳的觀看體驗。
AIGC技術在智能推薦的應用為廣播電視和網絡視頻行業的發展帶來了巨大的推動力,不僅促進了視頻內容的多樣化、個性化,提高了用戶的滿意度,還增強了廣播電視和網絡視頻領域的用戶黏性和競爭力。
然而,AIGC技術在個性化推薦應用中仍存在一些局限性,如對用戶數據的依賴性、算法不透明等問題需要進一步解決。
03
總結與展望
隨著數據規模快速膨脹、算力性能不斷提升以及人工智能算法不斷發展,AIGC能夠替代內容創作者完成更多內容挖掘、素材查詢調用等基礎性勞動,創新內容生產范式,為更具藝術性和創造性的內容創作提供可能。AIGC技術也將會進一步提高生成內容的質量和準確度,使得其在視頻制作、音頻制作、文本創作等方面的應用更加廣泛,進一步豐富用戶體驗和提升市場競爭力。
值得注意的是,以ChatGPT和GPT-4為代表的AIGC技術或將給各行各業帶來一些變化,也勢必會給廣播電視和網絡視聽行業帶來一定機遇和挑戰。
ChatGPT和GPT-4能夠被廣泛應用于多模態任務,輔助提高內容創作、編輯和審核效率,推動創造新的互動范式,為智慧廣電與網絡新視聽帶來創新可能性,同時推動行業向更智能化、個性化和高質量的發展方向邁進,以提升用戶與設備之間的交互體驗,包括語音交互、內容推薦、視頻自動化處理、內容審核和廣告精準投放等場景。
可以預見的是,隨著人工智能加速迭代,未來AIGC功能勢必越來越強大,應用領域越來越廣闊,人工智能或將會取代一部分創造性以及創新度不高的工作,這也會倒逼廣播電視和網絡視聽行業從業人員不斷提高創造力和創新能力以構建自我的不可替代性。
然而,AIGC技術的應用落地仍然面臨技術安全性、版權保護、隱私保護和算法不透明等的挑戰。解決這些挑戰需要通過不斷的技術創新和改進優化來提高AIGC技術的精準度和實用性。
與此同時,為了更好地應對新興AIGC技術的帶來機遇與挑戰,廣播電視和網絡視頻領域更要繼續加強多維互動合作、共同研究,推動制定相關的規范、標準和政策,以保證AIGC技術的合理使用與可持續發展,打造行業發展新增長點,推動孕育新業態。
【聚焦】流媒體網重磅推出《2021-2022全球OTT核心市場發展研究報告》,點擊圖片了解報告更多內容。
責任編輯:房家輝
分享到:版權聲明:凡注明來源“流媒體網”的文章,版權均屬流媒體網所有,轉載需注明出處。非本站出處的文章為轉載,觀點供業內參考,不代表本站觀點。文中圖片均來源于網絡收集整理,僅供學習交流,版權歸原作者所有。如涉及侵權,請及時聯系我們刪除!關鍵詞: