提取說話人聲音特征用于身份核驗,通過聲紋模型提取到各路音頻的聲音信息,在聲紋庫中進行搜索比對,實現(xiàn)在音頻文件中對嘉賓身份的定位。
基于先進的面部分析技術(shù),實現(xiàn)了人臉檢測、特征提取和搜索等功能,準確識別視頻素材中對應畫面的嘉賓人臉信息。
基于畫面中人臉和畫面大小占比,人頭數(shù)量等統(tǒng)計信息確定鏡頭的類型。
自研分布式 AI 服務、應用 GPU 虛擬化技術(shù)實現(xiàn)多實例并行計算、按需調(diào)度,支持橫向擴展,最大化發(fā)揮軟硬件性能。
基于時間維度,輸出對素材分析的聲紋、人臉、鏡頭等結(jié)構(gòu)化信息,實現(xiàn)音畫同步的剪輯功能,生成 PR 兼容的 XML 文件。
針對頻繁鏡頭切換場景,針對性優(yōu)化剪輯切換邏輯,應用“切鏡毛刺去除算法”,使鏡頭切換更加平滑,進一步提升視覺體驗。
真人秀加入了大量的剪輯和解說等元素,超強的并發(fā)處理能力可同時處理超百路機位素材,極大提升工作人員的效率。
嘉賓和觀眾之間的互動,多路音頻軌和視頻軌的剪輯復雜度增加,通過快速預剪輯可大幅縮短拍攝到成片的時間。
為海量音視頻原始素材提供軟硬件技術(shù)服務,與剪輯軟件無縫銜接,大幅縮短剪輯時間,快速完成各種復雜的制作任務。
支持公有云/私有云、純軟/軟硬一體等產(chǎn)品交付形態(tài),大幅降低視頻剪輯門檻。
從素材準備到自動合板,再到自動化剪輯,全程無需人工干預,助力預剪輯業(yè)務。
從錄制結(jié)束到開始創(chuàng)作,周期由 4-5 天大幅縮短至 6 小時以內(nèi),節(jié)約時間成本。
自研分布式 AI 服務、應用 GPU 虛擬化技術(shù)實現(xiàn)多實例并行計算、按需調(diào)度,具備業(yè)內(nèi)領(lǐng)先的人臉識別、聲紋對比、景別識別等 AI 能力。