摘 要:目前,視頻會議系統(tǒng)應(yīng)用中還存在音視頻數(shù)據(jù)采集質(zhì)量不高等問題。因此,本文研究并設(shè)計了一款基于嵌入式音視頻采集的視頻會議處理系統(tǒng),將S3C2410微控制器作為核心處理器,并選取合適的攝像頭和麥克風(fēng)傳感器,通過模數(shù)轉(zhuǎn)換器和數(shù)字信號處理單元對原始音、視頻信號進行處理。同時,該系統(tǒng)設(shè)計了音視頻傳輸質(zhì)量(QoS)控制軟件和視頻內(nèi)容加密軟件等,利用優(yōu)先級設(shè)置和帶寬保障機制,保證音視頻數(shù)據(jù)在網(wǎng)絡(luò)擁塞過程中優(yōu)先傳輸并獲得固定份額的網(wǎng)絡(luò)帶寬。同時使用AES加密標(biāo)準(zhǔn)和數(shù)字簽名技術(shù)保護數(shù)據(jù)的完整性和安全性。測試結(jié)果表明,該系統(tǒng)在視頻和音頻采集、編碼質(zhì)量方面均能達到預(yù)期目標(biāo),為用戶提供流暢、穩(wěn)定的視頻會議體驗。
關(guān)鍵詞:嵌入式技術(shù);音視頻采集;視頻會議;處理系統(tǒng)
中圖分類號:TN 948" " " " " 文獻標(biāo)志碼:A
隨著全球信息化、數(shù)字化進程加速,視頻會議系統(tǒng)已成為現(xiàn)代通信技術(shù)的重要組成部分,被廣泛應(yīng)用于遠程教育、遠程醫(yī)療和企業(yè)會議等多個領(lǐng)域[1-2]。嵌入式音視頻采集技術(shù)是視頻會議系統(tǒng)的基礎(chǔ)技術(shù)之一,主要利用集成硬件和軟件進行音、視頻信號的采集、處理和傳輸。與傳統(tǒng)的視頻會議處理系統(tǒng)相比,嵌入式音視頻采集技術(shù)具有實時性好、功耗低、成本低和體積小等特點,在便攜式設(shè)備和移動終端中具有廣泛應(yīng)用。在視頻會議系統(tǒng)中應(yīng)用嵌入式音視頻采集技術(shù)不僅提高了系統(tǒng)的實時性和穩(wěn)定性,還降低了系統(tǒng)的功耗和成本,為視頻會議的普及和發(fā)展提供了有力支持。因此,基于嵌入式音視頻采集的視頻會議處理系統(tǒng)設(shè)計具有重要的研究價值和實際應(yīng)用意義,不僅能夠提高視頻會議系統(tǒng)的性能和可靠性,還能進一步推動視頻會議技術(shù)發(fā)展,為人們的生活和工作帶來更多便利。
1 系統(tǒng)硬件設(shè)計
基于嵌入式音視頻采集的視頻會議處理系統(tǒng)的硬件設(shè)計是一個復(fù)雜的重要過程,涉及多個組件的集成和優(yōu)化,關(guān)系到系統(tǒng)高效運行和音視頻采集質(zhì)量。
本文基于ARM架構(gòu),將S3C2410嵌入式處理器作為嵌入式音視頻采集的視頻會議處理系統(tǒng)的大腦,以處理音視頻數(shù)據(jù)、執(zhí)行操作系統(tǒng)并運行各種應(yīng)用程序。攝像頭和麥克風(fēng)主要采集原始音視頻數(shù)據(jù),配合模數(shù)轉(zhuǎn)換器(ADC)和數(shù)字信號處理(DSP)單元,將原始信號轉(zhuǎn)換為數(shù)字格式并進行必要的預(yù)處理。64Mbytes 8位的NAND閃存和64Mbytes 32位的SDRAM存儲設(shè)備用于保存音、視頻數(shù)據(jù)和系統(tǒng)運行所需的軟件和配置文件。DC-DC電源轉(zhuǎn)換器可穩(wěn)定地對系統(tǒng)進行電力供應(yīng)。
S3C2410是一款基于ARM920T內(nèi)核的嵌入式微處理器,采用0.18μm工藝制造,具備32位ARM指令集。其內(nèi)部主要包括獨立的16kB指令、數(shù)據(jù)緩存以及256MB尋址空間。硬件特性包括多功能定時器、UART/I2C/SPI等接口、一個LCD控制器和觸摸接口等。此外,S3C2410還集成了外部存儲器控制器,支持SDRAM、NAND Flash等存儲設(shè)備,為硬件設(shè)計提供高度集成的解決方案。為提升S3C2410微控制器的處理效率,對其固件進行深度優(yōu)化,編寫高效的底層驅(qū)動程序,減少中斷響應(yīng)時間和任務(wù)切換開銷,同時采用實時操作系統(tǒng)(RTOS)策略,進行音、視頻數(shù)據(jù)實時處理。
2 軟件設(shè)計
系統(tǒng)軟件部分采用自適應(yīng)編碼算法,該算法能夠根據(jù)網(wǎng)絡(luò)狀況動態(tài)調(diào)整編碼參數(shù),優(yōu)化音視頻流的壓縮比和傳輸速率,并根據(jù)網(wǎng)絡(luò)帶寬實時監(jiān)測結(jié)果,自動調(diào)整視頻編碼的碼率,保證在網(wǎng)絡(luò)擁塞情況下降低碼率,減少丟包,并在網(wǎng)絡(luò)狀況不佳情況下降低幀率,保證視頻的流暢性。
2.1 控制音視頻傳輸質(zhì)量(QoS)軟件設(shè)計
音、視頻質(zhì)量保證軟件設(shè)計模塊的核心職責(zé)是實時監(jiān)控和管理音視頻流的傳輸質(zhì)量,在復(fù)雜多變的網(wǎng)絡(luò)環(huán)境中,保障音、視頻傳輸?shù)膬?yōu)先級。為實現(xiàn)這一目標(biāo),該模塊主要采用先進的機器學(xué)習(xí)算法,對網(wǎng)絡(luò)擁塞進行預(yù)測和緩解。在此過程中,系統(tǒng)會對網(wǎng)絡(luò)的歷史數(shù)據(jù)進行全面收集,包括帶寬使用情況、數(shù)據(jù)包傳輸延遲和丟包率等關(guān)鍵指標(biāo)。
對這些數(shù)據(jù)進行預(yù)處理后,該模塊能夠提取出影響網(wǎng)絡(luò)擁塞的關(guān)鍵特征,例如流量大小、流量模式和時間戳等,將這些特征作為訓(xùn)練模型的輸入?yún)?shù)。在此基礎(chǔ)上,還需要在模型的訓(xùn)練過程中應(yīng)用監(jiān)督學(xué)習(xí)方法。為了保證模型的準(zhǔn)確性,主要采用k-fold交叉驗證方法。該方法將數(shù)據(jù)集劃分為k個大小相似、互斥的子集,在每次迭代過程中,將k-1個子集合并作為訓(xùn)練集,剩余的1個子集作為驗證集。在訓(xùn)練過程中,模型會在訓(xùn)練集上學(xué)習(xí)網(wǎng)絡(luò)擁塞的規(guī)律,并在驗證集上評估其預(yù)測準(zhǔn)確率。經(jīng)過多次迭代,每次更換不同的驗證集,最終可以得到k次驗證的整體準(zhǔn)確率,如公式(1)所示。
(1)
式中:Ac(Vi)為第i個折的驗證集準(zhǔn)確率;k為交叉驗證的折數(shù)。
評估結(jié)果見表1。
表1 評估數(shù)據(jù)表
Fold Training Set Size/% Validation Set Size/% Accuracy(Train)/% Accuracy(Validation)/%
1 82 18 96.4 95.0
2 78 22 95.7 97.5
3 84 16 97.2 96.3
4 76 24 97.6 971
5 80 20 98.7 97.6
AVG - - 97.1 96.7
注:Fold為交叉驗證的折數(shù);Training Set Size為用于訓(xùn)練模型的數(shù)據(jù)集大??;Validation Set Size為用于驗證模型的數(shù)據(jù)集大小;Accuracy(Train)為模型在訓(xùn)練集上的準(zhǔn)確率。
表1分別進行了5-fold交叉驗證。各fold的訓(xùn)練集大小為76%~84%,驗證集大小相應(yīng)為16%~24%。模型在訓(xùn)練集上的平均準(zhǔn)確率為97.1%,在驗證集上的平均準(zhǔn)確率為96.7%。表明模型不僅具有良好的泛化能力,而且驗證集的準(zhǔn)確率普遍高于訓(xùn)練集,模型并沒有明顯的過擬合現(xiàn)象。
進而根據(jù)評估結(jié)果預(yù)測未來的網(wǎng)絡(luò)擁塞情況,一旦預(yù)測到潛在的通信擁塞,系統(tǒng)將自動調(diào)整傳輸策略,例如降低數(shù)據(jù)傳輸速率、改變路由路徑或優(yōu)先級排序。在此基礎(chǔ)上,系統(tǒng)采用ICMP探測技術(shù)發(fā)現(xiàn)所有可能的網(wǎng)絡(luò)路徑,對每條路徑的帶寬、延遲和丟包率等指標(biāo)進行評估,確定路徑質(zhì)量,并采用最優(yōu)化算法,選擇多條質(zhì)量較高的路徑進行數(shù)據(jù)傳輸,具體計算如公式(2)所示。
(2)
式中:Fn為路徑i的適應(yīng)度值,用于選擇最優(yōu)路徑;Bi 為路徑i的帶寬;Tb為所有路徑的帶寬總和; Ri為路徑i的可靠性;Tr為所有路徑的可靠性總和。
系統(tǒng)根據(jù)各路徑質(zhì)量,將數(shù)據(jù)包均勻分配到不同路徑上。對于關(guān)鍵數(shù)據(jù),系統(tǒng)會在多條路徑上進行冗余傳輸,根據(jù)路徑質(zhì)量的變化動態(tài)調(diào)整數(shù)據(jù)分發(fā)策略。同時,系統(tǒng)還會監(jiān)控每條路徑上的數(shù)據(jù)傳輸,檢測是否有丟包或錯誤發(fā)生。一旦檢測到錯誤,系統(tǒng)將啟動重傳機制,優(yōu)先在質(zhì)量較好的路徑上重傳數(shù)據(jù)。最終利用QoS機制保證數(shù)據(jù)在每條路徑上的傳輸質(zhì)量。
該設(shè)計模塊的優(yōu)勢在于能夠根據(jù)實時網(wǎng)絡(luò)狀況調(diào)整音、視頻流的傳輸策略,有效應(yīng)對網(wǎng)絡(luò)波動和擁塞問題。通過不斷優(yōu)化模型,該模塊能夠在保證音、視頻傳輸質(zhì)量的同時,提高網(wǎng)絡(luò)資源的利用率,為用戶提供更穩(wěn)定、流暢的音視頻體驗。此外,隨著網(wǎng)絡(luò)環(huán)境不斷變化,該模塊還能自適應(yīng)地調(diào)整預(yù)測模型,保證音、視頻質(zhì)量保證軟件始終具備較高的實用性和可靠性。
2.2 視頻內(nèi)容加密軟件設(shè)計
為了防止視頻會議內(nèi)容被非法錄制或傳播,本文在系統(tǒng)的軟件模塊中設(shè)計了視頻內(nèi)容加密部分,主要目的是保護會議內(nèi)容不被非法截取、泄露和篡改。在進行音、視頻數(shù)據(jù)傳輸之前,需要將AES(高級加密標(biāo)準(zhǔn))設(shè)定為加密標(biāo)準(zhǔn),并在嵌入式處理器內(nèi)置加密和哈希計算單元,專門用于計算數(shù)據(jù)的哈希值和數(shù)字簽名。這樣,在數(shù)據(jù)傳輸之前,嵌入式系統(tǒng)就可以通過這個軟件模塊自動執(zhí)行這些校驗操作,保證數(shù)據(jù)的完整性。具體校驗流程如圖1所示。
發(fā)送方在嵌入式處理器中使用預(yù)先定義的哈希函數(shù)(SHA-256)計算即將傳輸?shù)囊?、視頻數(shù)據(jù)D的哈希值H(D),SHA-256是一種廣泛認可的加密哈希算法,能夠生成一個256位的固定長度哈希值H(D),該值被視為原始數(shù)據(jù)的唯一“指紋”。
為進一步保證數(shù)據(jù)來源可靠性和防篡改性,發(fā)送方將使用自己的私鑰SK和哈希值H(D),并采用RSA數(shù)字簽名算法生成數(shù)字簽名S(D)。RSA算法是一種非對稱加密技術(shù),該算法允許使用私鑰進行簽名,而公鑰用于驗證簽名。這樣,發(fā)送方將原始數(shù)據(jù)D、哈希值H(D)和數(shù)字簽名S(D)一同發(fā)送給接收方。接收方接收到這些信息后,會使用與發(fā)送方相同的SHA-256哈希函數(shù)對音視頻數(shù)據(jù)D進行哈希值計算,得到H'(D)。這一步驟是為了驗證數(shù)據(jù)在傳輸過程中是否完整。接收方需要利用發(fā)送方的公鑰PK對數(shù)字簽名S(D)進行驗證。如果簽名驗證成功表明數(shù)據(jù)確實是由持有私鑰的發(fā)送方發(fā)送的,并且在傳輸過程中沒有被篡改。
接收方將計算出的哈希值H'(D)與發(fā)送方提供的哈希值H(D)進行比較。如果2個哈希值完全一致,說明數(shù)據(jù)在傳輸過程中保持了完整性;如果哈希值不一致,表明數(shù)據(jù)可能在傳輸過程中遭到篡改。最后,接收方根據(jù)數(shù)字簽名驗證結(jié)果和數(shù)據(jù)完整性校驗結(jié)果,對所傳輸?shù)臄?shù)據(jù)進行最終決策和處理。如果哈希值匹配且簽名有效,接收方可以認為該數(shù)據(jù)是完整且可信的,進而對數(shù)據(jù)進行進一步處理,例如解碼播放。相反,如果哈希值不匹配或簽名無效,接收方將拒絕接收數(shù)據(jù),并采取必要措施通知發(fā)送方,以便進行其他安全處理。
上述流程能夠促使基于嵌入式音、視頻采集的視頻會議處理系統(tǒng)在數(shù)據(jù)傳輸前和接收后自動執(zhí)行數(shù)據(jù)的完整性校驗,保證音、視頻數(shù)據(jù)的完整性和安全性。這種方法適用于嵌入式環(huán)境,可減少外部依賴,并能在資源受限的設(shè)備上高效執(zhí)行。最后使用SSL協(xié)議對音、視頻數(shù)據(jù)傳輸進行加密保護,同時對視頻會議內(nèi)容進行實時監(jiān)控,一旦發(fā)現(xiàn)異常情況,立即采取措施進行處理。以上措施可有效保障基于嵌入式音視頻采集的視頻會議內(nèi)容的安全性,避免數(shù)據(jù)泄露、篡改等問題。
3 測試試驗
3.1 測試準(zhǔn)備
當(dāng)進行基于嵌入式音、視頻采集的視頻會議處理系統(tǒng)測試試驗時,需要準(zhǔn)備Raspberry Pi系列嵌入式視頻會議終端,搭建局域網(wǎng)(LAN)環(huán),調(diào)制解調(diào)器用于接入互聯(lián)網(wǎng)、Logitech C920系列的USB攝像頭、Blue Yeti系列的麥克風(fēng)陣列、Samsung Galaxy S21系列的智能手機以及LG 27UK850-W系列27英寸4K分辨率的顯示屏,以觀察視頻輸出。同時,還需要準(zhǔn)備OpenH264系列音視頻編解碼軟件、Wireshark網(wǎng)絡(luò)性能測試工具以及VQ-AMS視頻質(zhì)量評估軟件。調(diào)試攝像頭和麥克風(fēng),配置嵌入式設(shè)備的音、視頻輸入、輸出參數(shù),保證音視頻信號采集正常。在整個測試過程中,需要詳細記錄測試結(jié)果,并根據(jù)結(jié)果對系統(tǒng)進行調(diào)整優(yōu)化。
3.2 測試結(jié)果
為了驗證基于嵌入式音、視頻采集的視頻會議處理系統(tǒng)的性能,需要進行一系列測試試驗,評估系統(tǒng)在實際運行中的視頻和音頻采集、編碼、傳輸以及系統(tǒng)的穩(wěn)定性等關(guān)鍵指標(biāo)。該系統(tǒng)的測試結(jié)果見表2,每個測試項都包括預(yù)期的目標(biāo)值、實際測量到的值以及是否符合預(yù)期目標(biāo)。
由表2可知,在視頻采集方面,預(yù)期目標(biāo)是1920ppi×
1080ppi的分辨率和30f/s的幀率,實際測量結(jié)果表明,系統(tǒng)能夠穩(wěn)定地采集到ppi1920×1080ppi分辨率的視頻,并且?guī)蕩缀踹_到了30f/s,只輕微降至29.97f/s。這表明視頻采集模塊能夠按照設(shè)計要求工作,僅有的幀率小幅度下降在可接受范圍內(nèi),不會對視頻流暢度產(chǎn)生顯著影響。視頻編碼使用的是H.264壓縮算法,實際測量的平均延遲為95ms,該值小于預(yù)設(shè)的100ms目標(biāo),表明在視頻編碼過程中幾乎沒有增加延遲,同時,使用AAC壓縮算法的音頻編碼表現(xiàn)良好,實際測量的平均延遲為45ms,該值低于預(yù)設(shè)的50ms目標(biāo),說明音頻編碼過程對通信的實時性影響較小,能夠有效提升音、視頻的數(shù)據(jù)采集質(zhì)量。深度學(xué)習(xí)去噪技術(shù)的PSNR值為32.5dB,遠超預(yù)期目標(biāo)。系統(tǒng)在動態(tài)碼率調(diào)整方面也表現(xiàn)出良好的網(wǎng)絡(luò)適應(yīng)性,調(diào)整精度在預(yù)期范圍內(nèi)。這些結(jié)果表明,本文設(shè)計的系統(tǒng)在視頻和音頻采集、編碼質(zhì)量方面均達到預(yù)期目標(biāo),能夠為用戶提供流暢、穩(wěn)定的視頻會議體驗。
4 結(jié)語
本文針對嵌入式音、視頻采集在視頻會議系統(tǒng)中的應(yīng)用問題,提出了一種基于嵌入式技術(shù)的視頻會議處理系統(tǒng)設(shè)計,并經(jīng)過一系列嚴(yán)格的測試試驗,最終解決了音、視頻數(shù)據(jù)采集質(zhì)量不高等問題。同時,該系統(tǒng)適用于資源受限的移動或嵌入式設(shè)備,為視頻會議在各種場合的普及提供了技術(shù)保障,也提供了一種高效、穩(wěn)定且安全的嵌入式音、視頻采集和處理方案。隨著技術(shù)發(fā)展,未來研究中需要進一步提高系統(tǒng)的處理速度,探索如何在不同網(wǎng)絡(luò)環(huán)境下保持穩(wěn)定的視頻質(zhì)量,還需要采用更先進的加密和安全性措施,并利用人工智能進行視頻內(nèi)容識別和優(yōu)化,以使基于嵌入式技術(shù)的視頻會議處理系統(tǒng)更完善,更好地滿足用戶的需求。
參考文獻
[1]涂珂.基于嵌入式音視頻采集的視頻會議處理系統(tǒng)設(shè)計[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2023(6):55-56.
[2]馬驥.基于ARM嵌入式平臺的音視頻解碼播放系統(tǒng)設(shè)計與實現(xiàn)[J].微型電腦應(yīng)用,2023,39(8):229-232.