基于語音比對的遠程面試身份認證

2020-01-11 08:41林曉勤毛敏宮玲玲吉理

華東師范大學學報（自然科學版） 2020年6期

林曉勤毛敏宮玲玲吉理

摘要：用簡易實時通信軟件進行的遠程面試有替考漏洞.為此，本文提出了一種基于語音對比的簡便遠程身份認證方案：接受面試者只需要使用通用的通信軟件，不需要安裝特殊的軟件或特殊硬件系統(tǒng)，這對于接受面試者在邊遠地區(qū)或國外尤其便利.主考官在電腦上安裝音軌抓取和錄屏截屏軟件，當面試者被錄取后，采集現(xiàn)場無損音視頻資料，將此資料和遠程獲取的同一面試者的音視頻資料進行人工比對，實現(xiàn)以聲紋認證為主的身份認證.為了驗證方案的可行性，本研究進行了兩輪實驗，采集了來自7個不同國家的遠程語音數(shù)據(jù).通過一系列軟件分析和人工比對，實驗結果表明，本方案身份認證準確率較高，為后期的全計算機認證打下了基礎.

關鍵詞：遠程面試;身份認證;聲紋;語譜圖;語音對比

中圖分類號：TP391.4，H11

文獻標志碼：A

文章編號：1000-5641（2020）06-0164-08

0引言

面試是現(xiàn)代人才測評中采取的一種主要的方法，它有著其他測評形式不可替代的優(yōu)點，因此，面試在人才測評與選拔中日益受到人們的重視.隨著互聯(lián)網(wǎng)技術的飛速發(fā)展和實時音視頻通信技術的成熟，遠程面試因為具有節(jié)省雙方資源的優(yōu)勢也被廣泛應用.同時，“一帶一路”帶動下的國際合作日益緊密，跨國跨地區(qū)的遠程面試也時常舉行.由于在遠距離面試中一般都采用公開網(wǎng)絡通信系統(tǒng)，如skype或微信等進行，在客戶端無法安裝特定的身份鑒別設備，造成被試者身份認證有漏洞存在，出現(xiàn)“替考”現(xiàn)象.為解決這個問題，本文設計了一系列簡單易行的方法，并通過實驗驗證了這個方法的可行性.

1身份認證技術在遠程面試上遇到的困難（見表1）

身份認證有3種要素：

（1）根據(jù)用戶所知道的信息，預先輸入用戶名+密碼來證明身份的合法性.

（2）根據(jù)用戶所持有的物件，可以證明身份的實體物件，比如居民身份證.

（3）根據(jù)用戶本身的特征，人臉識別技術、聲紋認證技術、簽字認證等.其他高安全的身份認證技術如數(shù)字簽名等在本研究的特定條件下不方便使用.

為了便于討論，定義：面試官是測試者、主考官;考生為受試者、應聘者或者是應試人員，他們在遠程端.為了在遠程面試中遠程驗證考生的身份，防止替考，無法讓考生預先輸入用戶名和密碼，因為這個用戶名和密碼是考生主觀記憶的，如果考生主觀意愿替考，密碼一定失效.可以證明身份的實體物件也是同樣道理.剩下的只有考生本身的特征值得考慮用在我們的新方案中.

1.1人臉識別技術

人臉識別技術往往需要有一張或多張高清照片作為識別基準，然后提取被識別者的臉部特征數(shù)據(jù)，在遠程面試中進行比對.但是在防替考的應用場景中，這個識別基準一般無法取得，除非是有案底的罪犯.只有在面試過程中盡可能清晰地將面試過程錄制下來，以備將來可以使用這些錄像資料進行后期比對.

1.2簽字認證

簽字認證過程需要被試者在主考官或者第三方公證人員的見證下簽字，在錄取后再次當面簽字作為身份認證資料.對于本文所述的遠程認證需求而言，預先獲取簽字很難實現(xiàn).

1.3基于語音的身份認證

基于語音的身份認證，這是本文的重點，一般面試都可以評估考生的某些能力，而這些能力都是通過語言直接表達的，如果考生自己可以流暢表達就沒必要找替考者了.當考生本身的語言能力和某個經(jīng)濟利益直接掛鉤，語音認證就顯得更加必要.然而目前常見的聲紋認證系統(tǒng)需要預先錄下高質量音頻作為驗證數(shù)據(jù)庫的標準樣本.技術領先的訊飛開發(fā)平臺也需要先錄制5遍動態(tài)音頻作為先期數(shù)據(jù)保留.特定人的二字詞識別需要10個特定詞錄音10遍，對于本文所述的遠程認證需求而言，預先錄制高清動態(tài)數(shù)據(jù)或特定詞很難實現(xiàn).

1.4語音身份認證原理

語音身份認證也稱聲紋，原理主要基于在電子學科、信號處理、聲學等領域有著廣泛應用的傅里葉變換原理，即不管多么復雜的電聲信號，總是能表示成若干個（或無窮個）正弦信號的組合。因此，語音作為信號的一種，也可以被分解為一系列不同頻率諧波的組合，在實驗語音學理解中，通常情況下，具有最低頻率及最大振幅的被稱為基頻，其他各次諧波從小到大依次被表述為第一、第二、第三共振峰，共振峰理論上有無限多個.這些基音頻率和共振峰是語音的最基本的信息，可以被專業(yè)工具（如PRAAT）抓取，它們是反映發(fā)音人聲學特征的重要參數(shù).同一個發(fā)音人，這些參數(shù)是一致的，對于工程應用而言，前幾個共振峰一致就足以判斷了。

第一輪實驗證明（見第3章），經(jīng)過遠程傳輸壓縮的語音信號不會損壞聲紋的主要特征，在考生錄取后獲取無損語音信號，可以進行聲紋認證.

2防遠程代考的解決方案

對于防代考型身份認證，在考官端安裝音軌抓取軟件和錄屏軟件，同步記錄面試的全過程，面試官可以在需要時按下截屏開關，記錄面容清晰的截屏圖像、簽字圖片，保存到數(shù)據(jù)庫中.

當一部分考生被錄取后，可以用高清攝像錄音設備錄制考生資料圖像和特征音頻.對有疑問的考生運用下面的操作進行進一步的身份認證.

首先調出視頻中的人臉圖像進行比對，其次對視頻中的簽名圖像進行比對，最后用聲音比對.由于人臉和簽名都是圖像信息，數(shù)據(jù)量大，遠程傳輸后容易丟失，聲音文件的相對數(shù)據(jù)量就小很多，當比對結論匯總后就可以得出身份認證的結論.

聲紋認證過程中，在遠程面試中取得的聲音文件是“有損”的，也就是經(jīng)過考生端的設備壓縮和網(wǎng)絡傳輸損失了音頻中的不少高次共振峰.在第3章中第一輪實驗證明了經(jīng)過壓縮的聲音在現(xiàn)場無損錄音的幫助下仍然可以作為聲紋鑒別使用.第二輪實驗我們選取了7個國家12位留學生的聲音資料進行人工聽辨，表明結果有效.

3聲紋身份驗證實驗及結果

到目前為止，人耳仍然是最佳的語音識別器，但是我們還需要用實驗語音學的實驗給予證明：先錄制壓縮有損音頻（網(wǎng)絡音頻）后錄制無損音頻，可以用于聲紋認證.這是第一輪實驗.同一發(fā)音人的聲音同時用兩套錄音設備錄制，其一是無損錄音機，就在發(fā)音人旁邊，其二是經(jīng)過網(wǎng)絡遠端被壓縮傳輸?shù)奈⑿耪Z音，使用電腦錄制，如圖1所示.

3.1第一輪實驗音源采集

觀察通過網(wǎng)絡傳遞的壓縮語音信號和現(xiàn)場高保真設備錄制的信號，并分析其中的語音要素.實驗方法：隨機選取12個發(fā)音人，男女各半，年齡在20～40歲，發(fā)音人同時面對一臺蘋果手機和一臺專業(yè)錄音設備，其中蘋果手機登錄微信語音聊天和遠端的電腦聯(lián)機，電腦端錄制通過微信傳輸?shù)膶υ捯纛l;發(fā)音人身邊的高質量錄音設備錄制現(xiàn)場聲音，其過程如圖1所示.錄制了12對音頻資料，有效的11組數(shù)據(jù)完整記錄了同一個說話人在同一個時刻說同幾句話的音頻資料.

高品質音頻錄音采樣頻率44Khz，24bit采樣深度，網(wǎng)絡音頻在100kbit/s的碼流MP3格式.

由于網(wǎng)絡傳遞聲音為了降低流量都采用有損壓縮形式傳輸，主要格式和MP3接近.在傳輸過程中，主要運用人耳的掩蔽效應動態(tài)調整音頻帶.在傳輸MP3格式的音頻文件時，使用“知覺編碼”技術，其中包括最少聽覺閾限（theminimal audition threshold）、屏蔽效果（themasking effect）、字節(jié)蓄積（the reservoir of bytes）、接合立體聲4項技術，目標是減少傳輸文件的體積和碼流.

圖2所示累積頻譜圖是采樣率44K、比特深度24bit的cubase軟件分析結果截圖.圖3所示為同一說話者語音片段07經(jīng)過壓縮和網(wǎng)絡傳輸后的累積頻譜圖.與圖2相比，2.5Khz以下的7個特征頻率點幾乎完全相同，100hz以下和3Khz以上的7個特征頻率點都有明顯的衰減，對于現(xiàn)場錄音中10Khz的大干擾信號，壓縮后幾乎消失.但白線框內的譜線形狀一致、幅度不同，表明發(fā)音人特征一致.

圖4和圖5分別是語音片段07高品質錄音約0.6s語音瞬時的頻譜抓取和同一說話者語音片段07經(jīng)過壓縮和網(wǎng)絡傳輸后0.6s的瞬時頻譜圖.注意圖5垂直虛線處的4條共振峰，和圖4幾乎完全一致.

3.2第一輪實驗結論

（1）同一個說話者通過遠程傳輸和現(xiàn)場收聲兩種方式采集的聲音基本不影響聽辨內容，聽感音質有所區(qū)別.

（2）通過遠程網(wǎng)絡傳輸?shù)穆曇衾鄯e頻譜圖發(fā)現(xiàn)，其中中頻部分相比現(xiàn)場收聲保留度較完整.但200hz以下的低頻和3Khz以上的高頻由于壓縮和傳輸?shù)脑驌p失很大，語音的要素都基本保留，圖中白框內.

（3）分析Praat軟件抓取的瞬時共振峰（譜圖）發(fā)現(xiàn)在5K以下幾乎完全一致，5K以上的成分因為對聽感和意義聽辨關系不大，軟件不做分析.

所以，先期用有損信號，后期再用無損錄音進行聲紋驗證的技術是可行的.下面進行了第二輪實驗.

3.3第二輪實驗數(shù)據(jù)采集

為了使防替考方案更完善，第二輪實驗的目的是用人工聽辨的方式在3個以上干擾項中區(qū)分出同一發(fā)音人.

為模擬遠程面試場景，這次的遠程數(shù)據(jù)收集來自7個國家：尼泊爾、孟加拉、韓國、俄羅斯、泰國、烏茲別克斯坦、印尼，語音數(shù)據(jù)來自2017年留學生暑假回國期間所交的口語作業(yè).作業(yè)形式，通過微信語音聊天形式，在留學生的家鄉(xiāng)和在中國的漢語教師進行通話交流，在交流過程中，留學生被要求用中文說一段話，實驗者記錄這段語音.這段語音資料在下文中被稱為微信聲W，如W3為第三位學生的微信聲音資料.

當這些學生回中國上課后，實驗者再用高保真錄音設備現(xiàn)場采集這些留學生的聲音資料，請這些學生朗讀一段語音.下文將這些音頻稱為現(xiàn)場聲X，同樣，X3為第三位留學生的現(xiàn)場錄音資料.

收集留學生的聲音資料，分為微信聲和現(xiàn)場聲，通過人工聽辨選出相匹配的聲音，來測量人工聽辨的匹配率.人工聽辨沒有要求說話者在微信音和現(xiàn)場聲中說同樣的話，因而不適合機器分辨.

3.4第二輪實驗方法

（1）截取聲音源微信聲比較長，約10min，單聲道聲音.每個學生的聲音可以截取5段，如W4-1是第四號學生的第一段語音，1min左右;W3-4就是第三個學生的第四段語音.

（2）制作測試文件夾測試文件夾命名為TB文件夾，按照編號遞增.每個TB文件夾內包含一個現(xiàn)場聲和5個微信聲（微信聲選取5個同性別不同的學生的錄音，必須包含和現(xiàn)場聲匹配的微信聲，其他4個為干擾聲），微信聲不重復使用.再制作兩個干擾組，不含和現(xiàn)場聲匹配的微信聲，比如6組，X6在組內，但W6不在組內.將TB文件夾中選取的微信聲重新進行編碼，每個文件夾中用P1-P5表示5個微信聲.測試文件夾如圖6所示.

（3）制作聽辨記錄表記錄每個聽辨文件夾的聽辨結果.記錄聽辨人的編號、年齡和性別，聽辨人如果聽到結果認為P2和X是同一人，就在P2下寫下聽辨結果，可以分檔95%、85%、75%、65%、不確定.如果確定文件夾內沒有相同的說話人，則勾選“沒有相同的說話人”.聽辨結果表示：如果結果是P2，100%，說明聽辨者100%確信X和P2是同一人.測試記錄表如圖7右側所示.

3.5第二輪聽辨實驗數(shù)據(jù)分析

本研究的第二輪實驗制作了聽辨結果表，如圖7所示，每位聽辨人都要在聽辨過程中填表.

3.5.1熟人聽辨

熟人聽辨選取了3位國際漢語文化學院的教師，他們都教過樣本留學生課程，對學生們的聲音較為熟悉.讓他們用頭戴式耳機仔細聽音頻，并填寫聽辨記錄表.

熟人聽辨組的實驗結果如圖8所示，所有小組聽辨正確率均為100%，且聽辨者對自己的選擇結果很有信心，每組都有90%以上的把握認為自己選擇正確.本組實驗數(shù)據(jù)說明，通過熟人聽辨的方法可較為準確地辨別出不同音源是否屬于同一個人，熟人聽辨在語音匹配中可行性較高.

3.5.2陌生人聽辨

聽辨人隨機選取，和錄音學生互不相識.每組選6個聽辨者，用頭戴式耳機仔細聽，并填寫聽辨記錄表.聽辨過程是雙盲法.

聽辨記錄結果如圖9所示.圖9呈現(xiàn)的數(shù)據(jù)顯示，第1、2、5、7、10組陌生人可以很容易地選擇出相匹配的音源，而第9組和第11組陌生人全部選擇錯誤，同時圖9顯示僅有5組聽辨者認為有50%以上的把握選擇正確.這說明在聽辨實驗中，采取陌生人聽辨的方式成功匹配音源的概率不是很高，誤差也很大.

選擇錯誤的原因分析：課題組對第9組和第11組的音頻材料進一步分析表明，這兩組微信音頻的共同特點是有效電平很低，導致輸出只能勉強聽到語音內容，信號噪音比很差，而表達聲音特征的音色差異都集中在中高頻區(qū)域，導致聽辨過程中實驗人無法確定聲音的音色.后期訪談發(fā)現(xiàn)第9組和第11組發(fā)音人可能使用了免提功能，話筒離發(fā)音人太遠，在數(shù)據(jù)采集過程中面試官也沒有及時提醒.

而熟人組聽辨者都是這些留學生的語言課教師，他們除了熟悉發(fā)音者的音色外，還對發(fā)音人的漢語語用、語音缺陷十分敏感.訪談表明，正是這些缺陷和音色的組合，使?jié)h語老師可以有把握確定發(fā)音人的身份.

4聲紋驗證實驗總結與展望

4.1可采用熟人聽辨來對遠程語音面試進行聲紋認證

從實驗數(shù)據(jù)中可以看出，熟人聽辨的準確率非常高，且聽辨成功的把握也非常大.通過陌生人聽辨，實驗者發(fā)現(xiàn)，在遠程傳遞聲音過程中，傳輸音質會發(fā)生一定損失，使音頻失真，導致陌生人難以正確聽辨.而由于熟人對音源的音色、音質以及相應的語音缺陷較為熟悉，即使在聲音信噪比小的情況下，熟人也可以根據(jù)聲音的一些特質來辨別出音源.因此遠程語音面試之后，選擇熟人聽辨的方法對聲音進行辨別，可較為準確地識別出音源是否相互匹配.

4.2在遠程語音面試中合理指導考生

考官可以在調試音頻系統(tǒng)的過程中要求每個考生念幾個特定音節(jié)的詞組或短句，本研究過程中是請發(fā)音人在遠程對話和近程高清錄音中念同一段唐詩，以便留下相同語音內容作為比對證據(jù).

在遠程音頻傳遞過程中，網(wǎng)絡帶寬、錄音設備、編碼方式等均會影響音頻的質量.在遠程面試中，本研究發(fā)現(xiàn)，最大的音質破壞來自最初的錄音階段，一般在使用手機錄音或交談過程中不注意發(fā)音人和話筒的距離，有人幾乎咬著話筒，而另一些人喜歡打開免提.咬話筒的人往往造成錄音過載失真，而免提則非常容易產(chǎn)生錄音電平不足和信噪比變差的情況.

面試官要指導考生合理運用設備，比如話筒和發(fā)音人的嘴巴距離25cm左右，不用免提功能，并在環(huán)境安靜的地方錄音和接受面試.

4.3機器識別設想

本研究的目的是在探究遠程端無法安裝身份認證設備和軟件的情況下，審查遠程面試是否存在替考行為，實驗證明是經(jīng)濟可行且準確率相當高的方法.缺點是最后的鑒別仍需要人工參與.目前已經(jīng)有研究者利用人工智能深度學習的方法自主提取語音特征進行自動認證，人工智能的介入將大大提高鑒別效率.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于語音比對的遠程面試身份認證