語音識(shí)別技術(shù)在錄音錄像檔案管理中的應(yīng)用探析

2023-09-07 10:29許振哲

北京檔案 2023年8期

許振哲

摘要：當(dāng)前錄音錄像檔案存在著錄效率低下、著錄質(zhì)量不高的問題。論文提出，將語音識(shí)別技術(shù)應(yīng)用于錄音錄像檔案管理，能夠有效提升錄音錄像文件文本化轉(zhuǎn)換的速度與精度，適應(yīng)錄音錄像檔案急劇增長的浪潮；將語音識(shí)別技術(shù)與詞云圖、時(shí)間戳結(jié)合，納入智慧檔案館建設(shè)總體進(jìn)程，可以實(shí)現(xiàn)錄音錄像檔案的自動(dòng)化著錄、智能化檢索，從而提高錄音錄像檔案的總體利用水平。

關(guān)鍵詞：語音識(shí)別技術(shù) 錄音錄像檔案詞云圖

錄音錄像檔案是國家機(jī)構(gòu)、社會(huì)組織或個(gè)人在社會(huì)活動(dòng)中直接形成的以聲音或影像為主要反映形式的具有保存價(jià)值的歷史記錄。由于錄音錄像檔案的本質(zhì)是非結(jié)構(gòu)化數(shù)據(jù)，檔案檢索依賴于文字著錄信息，著錄信息的有限性與用戶需求的多元性難以協(xié)調(diào)，極大地限制了錄音錄像檔案價(jià)值的發(fā)揮。近年來，卷積神經(jīng)網(wǎng)絡(luò)迅猛發(fā)展，機(jī)器深度學(xué)習(xí)能力不斷加強(qiáng)，語音識(shí)別技術(shù)逐漸走向成熟，語音識(shí)別技術(shù)的應(yīng)用有助于實(shí)現(xiàn)錄音錄像檔案內(nèi)容文本化、著錄自動(dòng)化以及檢索智能化。語音識(shí)別技術(shù)將是錄音錄像檔案管理未來發(fā)展的新方向。

一、錄音錄像檔案管理現(xiàn)狀與問題

隨著科技的不斷發(fā)展、智能化設(shè)備的全面普及，錄音錄像的采集變得愈發(fā)便捷。近年來，錄音錄像檔案數(shù)量劇增，國家檔案局發(fā)布的數(shù)據(jù)顯示：2018年，全國各級(jí)國家綜合檔案館館藏?cái)?shù)字錄音、數(shù)字錄像總量為30.5萬GB（≈297.85TB），全年共接收錄音磁帶、錄像磁帶、影片檔案2.9萬盤；到2021年，館藏?cái)?shù)字錄音、數(shù)字錄像總量為690.6TB，全年共接收錄音磁帶、錄像磁帶、影片檔案6.1萬盤。[1]短短3年，錄音錄像檔案的館藏總量在原有基礎(chǔ)上翻了一番，實(shí)現(xiàn)了跨越式增長。

錄音錄像檔案總量不斷增長的同時(shí)，也暴露出一系列問題。一方面，錄音錄像檔案的編目著錄仍在沿用傳統(tǒng)人工著錄的方式，難以滿足用戶的利用需求。張海劍曾指出：“目前檔案部門對(duì)音、視頻檔案的整理還停留在人工視聽階段，一邊看一邊聽一邊錄，不僅效率低、內(nèi)容采集不全，還費(fèi)時(shí)費(fèi)力。”[2]然而單憑人力，想要完成海量錄音錄像檔案的著錄工作無異于天方夜譚。另一方面，錄音錄像檔案的著錄層次結(jié)構(gòu)較為單一。錄音錄像檔案管理參照的行業(yè)標(biāo)準(zhǔn)主要包括《錄音錄像檔案數(shù)字化規(guī)范》（DA/T 62—2017）、《錄音錄像類電子檔案元數(shù)據(jù)方案》（DA/T 63—2017）以及《錄音錄像檔案管理規(guī)范》（DA/T 78—2019），以上標(biāo)準(zhǔn)普遍存在對(duì)著錄尤其是必選著錄的規(guī)定過于籠統(tǒng)，描述不夠詳盡的問題，缺少對(duì)鏡頭、場景的著錄項(xiàng)，不利于準(zhǔn)確、高效查找具體內(nèi)容。[3]不僅如此，在技術(shù)發(fā)展日新月異的今天，錄音錄像檔案管理面臨的新問題層出不窮，行業(yè)標(biāo)準(zhǔn)如不能及時(shí)推陳出新，必然無法適應(yīng)時(shí)代需求。

由此可見，當(dāng)前錄音錄像檔案在著錄模式、著錄規(guī)范上存在一定問題，從而導(dǎo)致錄音錄像檔案的著錄效率較低、著錄質(zhì)量不高。錄音錄像檔案著錄信息的有限性與檔案內(nèi)容的高效檢索利用之間，形成了無法避免的矛盾。[4]因此需要引入語音識(shí)別技術(shù)，通過機(jī)器的深度學(xué)習(xí)、自動(dòng)編目幫助完成錄音錄像檔案著錄工作，全面發(fā)揮錄音錄像檔案的價(jià)值。

二、語音識(shí)別技術(shù)的發(fā)展與應(yīng)用

語音識(shí)別是以語音為研究對(duì)象，通過語音信號(hào)處理和模式識(shí)別讓機(jī)器自動(dòng)識(shí)別與理解人類口述的語言。語音識(shí)別技術(shù)是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。而語音識(shí)別系統(tǒng)本質(zhì)上是一種模式識(shí)別系統(tǒng)，包括特征提取、模式匹配、參考模式庫三個(gè)基本單元。[5]

語音識(shí)別技術(shù)產(chǎn)生至今，已有半個(gè)多世紀(jì)的發(fā)展歷程。早在20世紀(jì)50年代，貝爾實(shí)驗(yàn)室的研究者就通過模擬元器件提取語音中元音的共振峰頻率變化信息，從而對(duì)孤立數(shù)字的語音實(shí)現(xiàn)了識(shí)別。[6]20世紀(jì)60年代后期，倫納德·E.包姆（Leonard E. Baum）和其他一些作者在一系列論文中提出隱馬爾可夫模型（Hidden Markov Model，HMM），并于70年代中期開始將其應(yīng)用于語音識(shí)別。2006年，杰弗里·辛頓（Geoffrey Hinton）發(fā)表關(guān)于計(jì)算機(jī)深度學(xué)習(xí)的論文，其中深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Networks，DNN）的提出，標(biāo)志著語音識(shí)別技術(shù)進(jìn)入人工智能時(shí)代。截至2015年，計(jì)算機(jī)在深度學(xué)習(xí)語音識(shí)別模型庫的語音識(shí)別錯(cuò)誤率為3.1%，已經(jīng)超過正常人的識(shí)別能力（正常人的語音識(shí)別錯(cuò)誤率為5%）。[7]

隨著深度學(xué)習(xí)理論的不斷發(fā)展，語音識(shí)別技術(shù)已經(jīng)在圖書領(lǐng)域有了廣泛而深入的應(yīng)用：中山大學(xué)鐘遠(yuǎn)薪等人將語音識(shí)別技術(shù)用于徽州文書文本化工作，研究發(fā)現(xiàn)語音識(shí)別技術(shù)的識(shí)別率相較OCR有顯著提升，而識(shí)別時(shí)間僅為手工錄入的六分之一，語音識(shí)別技術(shù)可以大幅提高徽州文書的文本提取效率。[8]反觀檔案領(lǐng)域，目前對(duì)語音識(shí)別技術(shù)開展的相關(guān)研究并不多，且側(cè)重于探討如何實(shí)現(xiàn)人機(jī)智能語音交互。[9]誠然，人機(jī)語音交互可以在一定程度上優(yōu)化檔案利用者的操作體驗(yàn)，然而對(duì)于錄音錄像檔案查全率、查準(zhǔn)率的提升作用還不夠顯著。語音識(shí)別技術(shù)的相關(guān)研究更應(yīng)注重編目和著錄環(huán)節(jié)而非人機(jī)交互環(huán)節(jié)。換句話說，識(shí)別錄音錄像檔案中“說話的人是誰”以及“說的是什么”顯然比識(shí)別“檢索利用者是誰”以及“想查詢什么”更加重要。將語音識(shí)別技術(shù)用于錄音錄像檔案的文本轉(zhuǎn)化，能夠讓技術(shù)的優(yōu)勢(shì)得到更加全面的發(fā)揮。

三、語音識(shí)別技術(shù)應(yīng)用于錄音錄像檔案管理的前景與展望

（一）利用深度學(xué)習(xí)語音識(shí)別模型，實(shí)現(xiàn)錄音錄像檔案內(nèi)容文本化

目前我國錄音錄像檔案整體利用水平不高，主要原因在于錄音錄像檔案的本質(zhì)是聲音或畫面，屬于非結(jié)構(gòu)化數(shù)據(jù)，無法直接進(jìn)行檢索，需要先將聲音和畫面轉(zhuǎn)化為文字，再對(duì)文字信息進(jìn)行歸納總結(jié)，提取關(guān)鍵字著錄后方可供用戶檢索。然而，我國現(xiàn)階段錄音錄像檔案仍在沿用傳統(tǒng)人工轉(zhuǎn)寫的方式，邊聽邊錄，一個(gè)小時(shí)的錄音錄像文件，往往要花費(fèi)幾倍的時(shí)間才能實(shí)現(xiàn)文本轉(zhuǎn)換。此外，一些包含噪聲或者夾雜方言的片段還需要檔案工作者反復(fù)收聽、仔細(xì)確認(rèn)，效率低下，費(fèi)時(shí)費(fèi)力，人工轉(zhuǎn)寫的速度遠(yuǎn)不及錄音錄像檔案生成的速度。此外，人工轉(zhuǎn)寫后的檔案全文，只能籠統(tǒng)對(duì)應(yīng)一個(gè)時(shí)間區(qū)間，難以將文字與錄音錄像檔案中的時(shí)間點(diǎn)精準(zhǔn)匹配。用戶通過全文檢索查詢到對(duì)應(yīng)內(nèi)容后，仍需拖動(dòng)進(jìn)度條，播放一個(gè)片段才能找到文字對(duì)應(yīng)的關(guān)鍵幀。

隨著深度學(xué)習(xí)的不斷發(fā)展、卷積神經(jīng)網(wǎng)絡(luò)的逐步優(yōu)化，如今語音識(shí)別技術(shù)的發(fā)展應(yīng)用已日趨成熟，機(jī)器可以替代人工，將錄音錄像檔案中的聲音快速轉(zhuǎn)化為文字。一個(gè)小時(shí)的錄音錄像文件，只需十分鐘左右即可完成轉(zhuǎn)寫，極大地提升了工作效率、節(jié)約了人力成本。隨著深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化，機(jī)器可以在轉(zhuǎn)寫過程中不斷訓(xùn)練升級(jí)，并根據(jù)上下文語義對(duì)內(nèi)容進(jìn)行智能糾錯(cuò)。[10]相比于人工轉(zhuǎn)寫一次只能對(duì)單個(gè)文件進(jìn)行加工，機(jī)器可以24小時(shí)不間斷對(duì)多個(gè)錄音錄像文件同時(shí)進(jìn)行文本轉(zhuǎn)換，在識(shí)別速度、識(shí)別精確度等方面均優(yōu)于人工，完全能夠適應(yīng)近年來錄音錄像檔案急劇增長的勢(shì)頭。不僅如此，通過語音識(shí)別技術(shù)完成的文本轉(zhuǎn)換，文字與時(shí)間線聯(lián)系更加緊密：轉(zhuǎn)換后的文字可以作為內(nèi)嵌字幕添加到錄音錄像檔案中，確保文字內(nèi)容和聲音幀數(shù)的精準(zhǔn)匹配，用戶通過全文檢索，即可實(shí)現(xiàn)對(duì)錄音錄像關(guān)鍵幀的快速定位。

（二）結(jié)合詞云圖與文字流時(shí)間戳，實(shí)現(xiàn)錄音錄像檔案著錄自動(dòng)化

《錄音錄像類電子檔案元數(shù)據(jù)方案》（DA/T 63—2017）將檔案元數(shù)據(jù)劃分為四大類，并進(jìn)一步細(xì)化為96個(gè)著錄項(xiàng)，每個(gè)元數(shù)據(jù)的約束性和可重復(fù)性又分為必選、條件選、可選、可重復(fù)、不可重復(fù)五種類型，內(nèi)容煩瑣，形式復(fù)雜，給檔案著錄造成不便；方案未將主題、職能業(yè)務(wù)、管理活動(dòng)等涉及錄音錄像內(nèi)容信息的元數(shù)據(jù)列入必選著錄項(xiàng)，這就導(dǎo)致錄音錄像檔案著錄過程中對(duì)于活動(dòng)主題的描述過于簡略或干脆省略，給檔案利用帶來極大的困難。《錄音錄像檔案管理規(guī)范》（DA/T 78—2019）對(duì)基本著錄項(xiàng)進(jìn)行了凝練，將工作活動(dòng)描述納入必選著錄項(xiàng)中，然而囿于篇幅限制，寥寥數(shù)語顯然難以精準(zhǔn)概括錄音錄像檔案的全部內(nèi)容。因此在實(shí)際工作中，錄音錄像檔案常以下面的形式著錄：

題名：××年××活動(dòng)開幕式

內(nèi)容描述：××部門領(lǐng)導(dǎo)A主持開幕式

內(nèi)容起始時(shí)間：××′××″

內(nèi)容結(jié)束時(shí)間：××′××″

內(nèi)容描述：××部門領(lǐng)導(dǎo)B發(fā)表講話

內(nèi)容起始時(shí)間：××′××″

內(nèi)容結(jié)束時(shí)間：××′××″

不難看出，傳統(tǒng)模式下錄音錄像檔案的著錄主要按照時(shí)間順序，將所涉活動(dòng)劃分為若干流程，再提取各流程中涉及的重要人員作為關(guān)鍵詞，通常不提及具體講話內(nèi)容。這就導(dǎo)致在利用環(huán)節(jié)，著錄項(xiàng)比較籠統(tǒng)，用戶很難通過著錄項(xiàng)快速了解活動(dòng)主題，只能逐幀瀏覽原文件，從中尋找錄音錄像檔案蘊(yùn)藏的關(guān)鍵信息。

提升錄音錄像檔案著錄質(zhì)量、幫助用戶迅速把握重點(diǎn)信息的關(guān)鍵在于如何自動(dòng)提取文本中的高頻關(guān)鍵詞并加強(qiáng)可視化。筆者將詞云圖、文字流時(shí)間戳與語音識(shí)別技術(shù)有機(jī)結(jié)合，以求進(jìn)一步優(yōu)化用戶的檢索體驗(yàn)。以中國檔案學(xué)會(huì)成立40周年學(xué)術(shù)研討會(huì)會(huì)議錄像為例，[11]會(huì)議召開于2021年12月16日，時(shí)長2小時(shí)55分08秒。按照傳統(tǒng)著錄模式，想要提取會(huì)議中某個(gè)發(fā)言人發(fā)言的重點(diǎn)信息需要耗費(fèi)大量的時(shí)間，而通過語音識(shí)別技術(shù)，則可以在實(shí)現(xiàn)錄音錄像檔案文本化轉(zhuǎn)換的基礎(chǔ)上生成詞云圖，并為關(guān)鍵詞添加時(shí)間戳，從而解決當(dāng)前著錄與利用環(huán)節(jié)中存在的問題。會(huì)議的一個(gè)議程為中國檔案學(xué)會(huì)理事長楊冬權(quán)致辭，對(duì)應(yīng)時(shí)間段為33′06″～46′43″。想要提取這段發(fā)言的重要內(nèi)容，首先可以通過語音識(shí)別技術(shù)對(duì)發(fā)言內(nèi)容進(jìn)行識(shí)別，將約14分鐘的講話內(nèi)容轉(zhuǎn)換為2000余字的文本；接著對(duì)發(fā)言文本進(jìn)行詞頻分析，生成詞云圖，如圖1所示；最后為詞云圖中每個(gè)關(guān)鍵詞添加文字流時(shí)間戳，點(diǎn)擊對(duì)應(yīng)關(guān)鍵詞即可顯示它在視頻中每次出現(xiàn)時(shí)的上下文信息，選中對(duì)應(yīng)上下文條目則可直接跳轉(zhuǎn)至文本信息對(duì)應(yīng)的視頻位置，無須逐幀觀看原文件。

按照上述操作方法，通過語音識(shí)別軟件的識(shí)別與加工，就可以將時(shí)長接近3小時(shí)的會(huì)議視頻轉(zhuǎn)換成一個(gè)添加了文字流時(shí)間戳的文本文件及若干個(gè)詞云圖。一方面，這樣做省去了傳統(tǒng)模式下錄音錄像檔案著錄邊聽邊看邊記錄的煩瑣工作，機(jī)器可以通過語音文字識(shí)別結(jié)果自動(dòng)著錄會(huì)議的每一項(xiàng)議程，并呈現(xiàn)對(duì)應(yīng)內(nèi)容，著錄信息更為詳盡。另一方面，這樣做可以有機(jī)結(jié)合詞云圖與文字流時(shí)間戳，使錄音錄像檔案的可視化更強(qiáng)，主題一目了然，極大地方便用戶快速瀏覽。文字流時(shí)間戳的添加可以實(shí)現(xiàn)文字內(nèi)容——視頻關(guān)鍵幀的一鍵跳轉(zhuǎn)，方便用戶對(duì)重點(diǎn)信息進(jìn)行精準(zhǔn)定位。

（三）納入智慧檔案館建設(shè)總體進(jìn)程，實(shí)現(xiàn)錄音錄像檔案檢索智能化

隨著科技的不斷進(jìn)步，人工智能技術(shù)已逐步發(fā)展成熟，將語音識(shí)別技術(shù)與開放檔案信息系統(tǒng)有機(jī)結(jié)合，納入智慧檔案館建設(shè)總體進(jìn)程，能使技術(shù)的優(yōu)勢(shì)得以更加全面的發(fā)揮。語音識(shí)別技術(shù)不僅可以使檔案著錄更加精準(zhǔn)、高效，還可以增強(qiáng)錄音錄像檔案與其他門類檔案的內(nèi)在關(guān)聯(lián)，在檢索形式與檢索邏輯上更加趨于智能。

傳統(tǒng)錄音錄像檔案檢索機(jī)制相對(duì)單一，停留在文字檢索階段，通過對(duì)檢索詞與著錄項(xiàng)的關(guān)鍵字進(jìn)行匹配，進(jìn)而輸出音視頻結(jié)果。語音識(shí)別技術(shù)的應(yīng)用為檢索形式的創(chuàng)新奠定了基礎(chǔ)，也使“以聲搜聲”得以實(shí)現(xiàn)：在開放檔案信息系統(tǒng)中上傳一個(gè)音頻片段，語音識(shí)別軟件會(huì)自動(dòng)解碼文件，進(jìn)行文字化轉(zhuǎn)換，判定音頻片段中“說話的內(nèi)容是什么”，并將檔案庫中文字匹配度最高的音視頻作為結(jié)果輸出；不僅如此，語音識(shí)別軟件還可以對(duì)片段進(jìn)行聲紋識(shí)別，判定“說話的人是誰”，將人物信息元數(shù)據(jù)一并呈現(xiàn)，并將該人物的其他音視頻檔案作為拓展信息與檢索結(jié)果一并推送給用戶。

通過上述功能，用戶可以根據(jù)音頻片段溯源原始文件，詳細(xì)了解事件或講話的背景信息及來龍去脈，或是了解哪些場合曾出現(xiàn)過與音頻片段內(nèi)容相關(guān)或近似的講話內(nèi)容。聲紋識(shí)別可以關(guān)聯(lián)同一個(gè)人在不同場合的錄音錄像檔案，實(shí)現(xiàn)人物身份信息元數(shù)據(jù)的串聯(lián)，不僅可以對(duì)檢索結(jié)果進(jìn)行智慧化推送，也可以對(duì)年代久遠(yuǎn)、六要素模糊的錄音錄像檔案進(jìn)行信息補(bǔ)全。

目前錄音錄像檔案的著錄水平難以滿足用戶的利用需求，因此語音識(shí)別技術(shù)當(dāng)前的出發(fā)點(diǎn)是提升錄音錄像檔案的查全率。隨著技術(shù)的深化應(yīng)用、音視頻全文檢索功能的逐步完善，提升錄音錄像檔案的查準(zhǔn)率將是未來發(fā)展的落腳點(diǎn)。今后還可以使用方言檔案數(shù)據(jù)庫和多語種語音庫對(duì)語音識(shí)別模型進(jìn)行訓(xùn)練，進(jìn)一步提升模型的識(shí)別能力。在語音識(shí)別模型基本成熟的前提下，將語音識(shí)別技術(shù)與其他人工智能技術(shù)協(xié)同納入智慧檔案館建設(shè)總體進(jìn)程，充分運(yùn)用大數(shù)據(jù)和云計(jì)算技術(shù)，最終將提高錄音錄像檔案的總體利用水平。

注釋及參考文獻(xiàn)：

[1]中華人民共和國國家檔案局.2021年度全國檔案主管部門和檔案館基本情況摘要[EB/OL].（2022-08-18）[2022-10-27].https：//www.saac.gov.cn/daj/zhdt/202208/ b9e2f459b5b1452d8ae83d7f78f51769.shtml.

[2][6][10]張海劍.人工智能賦能檔案事業(yè)創(chuàng)新成果與研究[EB/OL].[2022-10-27].http：//cpfd.cnki.com.cn/Ar？ ticle/CPFDTOTAL-ZGDA201907001009.htm.

[3]劉金月.我國聲像檔案長期保存相關(guān)標(biāo)準(zhǔn)的研究[D].沈陽：遼寧大學(xué)，2022：37-38.

[4]劉濤.人工智能技術(shù)在錄音錄像檔案管理中的可用性[J].檔案管理，2022（3）：71-72.

[5]玩人工智能的你必須知道的語音識(shí)別技術(shù)原理[EB/OL]. （2022-07-14）[ 2022-10-27 ]. https ： //news. eda365.com/appl/smcp/12008831711504.html.

[7]周宣汝，趙麗亞，趙地，等.人工智能對(duì)科研信息化的推動(dòng)作用[J].科研信息化技術(shù)與應(yīng)用，2016，7（6）：14-26.

[8]鐘遠(yuǎn)薪，王蕾，楊新涯，等.徽州文書文本化語音識(shí)別技術(shù)應(yīng)用研究[J].圖書館論壇，2022（1）：1-10.

[9]張倩.生物特征識(shí)別技術(shù)在“高校檔案云”服務(wù)平臺(tái)的應(yīng)用研究[J].浙江檔案，2018（3）：62-64.

[11]中國檔案學(xué)會(huì).中國檔案學(xué)會(huì)成立40周年學(xué)術(shù)研討會(huì)[EB/OL].（2021- 12- 16） [2022- 10- 27].https：// marketing.csslcloud.net/video/A7AA77B67BEC691A/ 35DB5A93C0BF2D139C33DC5901307461.

作者單位：上海理工大學(xué)檔案館

北京檔案2023年8期

北京檔案的其它文章: 涼沁心脾：民國時(shí)期北平的冷食記憶; 記錄兩件大事講好延慶故事; 國外檔案眾包項(xiàng)目的志愿服務(wù)機(jī)制探析; 民國時(shí)期北平籌建公立公墓探析; 1949—1952年北京市攤販管理初探; 林礪儒手稿里的“六三三”學(xué)制

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

語音識(shí)別技術(shù)在錄音錄像檔案管理中的應(yīng)用探析

一、錄音錄像檔案管理現(xiàn)狀與問題

二、語音識(shí)別技術(shù)的發(fā)展與應(yīng)用

三、語音識(shí)別技術(shù)應(yīng)用于錄音錄像檔案管理的前景與展望

一、錄音錄像檔案管理現(xiàn)狀與問題