摘 要:
當前的說話人日志方法大多采用標準的全局聚類的方式來區(qū)分不同說話人的語音片段,沒有考慮到同一個人的聲音在不同的噪聲條件下具有不同的特征分布,而這會增大類內(nèi)距離,從而降低聚類精度。鑒于相鄰的語音片段往往包含相同的背景噪聲,提出一種新的基于時間分段和重組聚類的說話人日志方法以解決上述問題。首先,將所有語音片段按時間連續(xù)性劃分成多個獨立的時間段,并在段內(nèi)進行局部聚類;然后,將不同時間段中屬于同一個說話人的語音片段重新合并。此外,在聚類時利用語音片段的鄰域信息來校準它們之間的相似度。通過這種方式降低了直接在不同噪聲條件下進行聚類的概率,提高了聚類精度。在公開數(shù)據(jù)集AMI SDM和VoxConverse上的實驗結(jié)果表明,與基線方法相比,所提方法的日志錯誤率分別相對降低了34%和16%,充分證明了該方法的有效性。
關(guān)鍵詞:說話人日志;聚類;噪聲;鄰域
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2024)09-012-2649-06
doi:10.19734/j.issn.1001-3695.2024.01.0017
Temporal-segment-and-regroup clustering for speaker diarization
Zhu Bisong1, Mao Qirong1, 2, Gao Lijian1, Shen Yaxin1
(1. School of Computer Science & Telecommunication Engineering, Jiangsu University, Zhenjiang Jiangsu 212013, China; 2. Jiangsu Province Big Data Ubiquitous Perception & Intelligent Agriculture Application Engineering Research Center, Zhenjiang Jiangsu 212013, China)
Abstract:
The current methods for speaker diarization commonly employ standard global clustering techniques to distinguish speech segments of different speakers, without considering that voice of the same individual may exhibit various feature distribution under varying background noise conditions, which enlarges the intra-class distances and impacts clustering heavily. Motivated by that adjacent speech segments often share the same background noise, this paper proposed a novel temporal-segment-and-regroup clustering (TSARC) pipeline for speaker diarization to address above issues. Firstly, TSARC partitions all speech segments into multiple independent intervals along their temporal continuity and conducted local clustering within each interval. Afterwards, it re-associated segments attributed to the same speaker across different intervals. Moreover, during the clustering process, the method actively employed neighborhood information from speech segments to calibrate their similarities. Through this way, TSARC reduced the likelihood of direct clustering under disparate noise conditions, effectively improving the accuracy of clustering. Experimental results on the public datasets AMI SDM and VoxConverse show that, compared with the baseline method, the proposed method has achieved relatively reductions in diarization error rate (DER) by 34% and 16% respectively, which proves the effectiveness of the proposed method.
Key words:speaker diarization; clustering; noise; neighborhood
0 引言
說話人日志(speaker diarization,SD)的目標是解決“誰在何時說話”的問題[1],即區(qū)分并定位出音頻中不同說話人的語音活動。說話人日志技術(shù)可用于多種應(yīng)用場景,如會議記錄[2]、角色識別[3]及語音識別[4,5]等。目前,關(guān)于說話人日志的研究主要分為兩類:一類方法[6~8]將說話人日志任務(wù)看作多標簽分類問題,訓(xùn)練神經(jīng)網(wǎng)絡(luò)直接預(yù)測音頻幀中每一個人說話的概率,稱之為端到端的方法;另一類方法[9~25]依靠多個獨立優(yōu)化的模塊,先將長音頻切割成短片段并提取聲紋嵌入(speaker embedding),再通過無監(jiān)督的聚類方法來區(qū)分屬于不同說話人的片段,稱之為模塊化的方法。相較于端到端的方法,模塊化的方法可以更好地處理說話人數(shù)量未知和時長較長的音頻記錄[10]。大多數(shù)基于模塊化方法的工作包含以下四個步驟:利用語音活動檢測模塊去除非語音片段;切割音頻;提取聲紋嵌入;聚類。本文重點研究模塊化的方法,并遵循這四個步驟。
在模塊化的方法中,聚類模塊的性能至關(guān)重要[1]。目前的研究大多采用譜聚類(spectral custering,SC)[11~15]或凝聚層次聚類(agglomerative hierarchical clustering,AHC)[16,17]等聚類方法來區(qū)分不同說話人的語音片段。這些研究遵循一個標準的全局聚類流程,即在提取音頻片段的聲紋嵌入后,通過計算所有嵌入之間的成對相似性來構(gòu)建一個N×N的親和矩陣(affinity matrix),并使用整個親和矩陣進行聚類。然而,如圖1所示,由于大多數(shù)音頻記錄都是在不受控制的環(huán)境下錄制的,同一條音頻記錄中可能存在不同的噪聲干擾,而這些噪聲都會對聲紋嵌入的質(zhì)量產(chǎn)生一定的影響,導(dǎo)致同一個說話人的聲紋嵌入在不同的噪聲條件下具有不同的特征分布。在此影響下,全局聚類方式在計算所有嵌入的相似性時,由于嵌入具有不同的特征分布擴大了類內(nèi)距離,使得嵌入間呈現(xiàn)出錯誤的相似性,從而降低了聚類的準確率。為了解決這個問題,最近的研究利用自注意力機制(self-attention)[18,19]和圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)[20~22]聚合來自同一個說話人的不同音頻片段的聲紋嵌入,以生成更具區(qū)分性的聲紋嵌入。然而,這些方法重新引入了對標簽的依賴。考慮到人工對音頻記錄進行精細化標注非常耗時,標注樣本嚴重不足。因此,如何在無監(jiān)督的條件下減少噪聲對說話人日志系統(tǒng)性能的影響仍然是一個難題。
不同于傳統(tǒng)的聚類任務(wù),說話人日志任務(wù)中的數(shù)據(jù)是高度結(jié)構(gòu)化的[18],數(shù)據(jù)間存在時序上的聯(lián)系,相鄰的音頻片段中可能會包含相同的背景噪聲,提取出聲紋嵌入的特征分布相同。基于此,本文旨在充分利用此類數(shù)據(jù)的結(jié)構(gòu)化特性,避免像全局聚類一樣直接在不同的噪聲條件下進行聚類分析,提出了一種新的基于時間分段和重組聚類(temporal-segment-and-regroup clustering,TSARC)的說話人日志方法。與全局聚類不同,該聚類方式包含兩個步驟:a)時間分段和局部聚類,將所有聲紋嵌入按時間連續(xù)性劃分為多個組,將每一組視為一個時間段,然后分別在各個時間段內(nèi)進行局部聚類,如圖1所示,局部聚類僅關(guān)注某個時間段內(nèi)的局部特征分布,避免像全局聚類一樣直接比較不同噪聲條件下的聲紋嵌入的相似度,因此可以減輕噪聲對聚類性能的影響;b)跨時間段重組,僅使用局部聚類無法獲取最終結(jié)果,這是因為局部聚類的結(jié)果僅包含單個時間段內(nèi)的說話人語音片段,而每一個說話人的語音片段可能分散在多個時間段。為了將不同時間段內(nèi)屬于同一個說話人的語音片段重新關(guān)聯(lián)起來,TSARC進行一次全局聚類,并將全局聚類和局部聚類的結(jié)果進行集成,獲取最終的結(jié)果。同時,由于簡單的余弦相似度可能無法正確地反映兩個聲紋嵌入間的相似性,提出親和矩陣校準模塊,利用聲紋嵌入的鄰域信息來提高聲紋嵌入間相似度的準確性,獲取更加可靠的親和矩陣。在計算每一對聲紋嵌入的相似度時,在原始的余弦相似度的基礎(chǔ)上引入杰卡德相似度(Jaccard similarity)。聲紋嵌入間的杰卡德相似度通過計算其鄰居的交并比獲得,包含嵌入的上下文信息。屬于同一個說話人的聲紋嵌入的相似度會隨著相似鄰域結(jié)構(gòu)的增加而增加,而不屬于同一個說話人的則會相應(yīng)地減少。因此,杰卡德相似度可以校準親和矩陣。
本文的主要貢獻如下:
a)提出一種新的基于時間分段和重組的聚類方式TSARC,針對噪聲具有間歇性的特點,將語音片段分成多個時間段,在各個時間段內(nèi)獨立地進行局部聚類,并通過集成聚類的手段對結(jié)果進行重組合并,以減少噪聲的影響。
b)提出一種新的相似度度量方法,引入杰卡德相似度來衡量聲紋嵌入鄰域的相似性,以校準原始的余弦相似度,從而提高了親和矩陣的可靠性。
c)在AMI SDM和VoxConverse數(shù)據(jù)集上的實驗結(jié)果表明,與基線方法相比,所提方法的日志錯誤率分別相對降低了34%和16%。相較于當前先進的模塊化方法,TSARC仍表現(xiàn)出顯著的性能優(yōu)勢,證明了所提方法的有效性。
2 實驗與結(jié)果分析
2.1 數(shù)據(jù)集
為驗證方法的有效性,選用兩個公開的通用數(shù)據(jù)集AMI SDM[31]和VoxConverse[32]進行相關(guān)實驗。表1給出了這兩個數(shù)據(jù)集的相關(guān)統(tǒng)計信息。
AMI數(shù)據(jù)集由在不同的地點(愛丁堡、伊蒂普亞研究學(xué)院、荷蘭和布爾諾)錄制的會議音頻記錄組成,音頻采樣頻率為16 kHz。本文使用官方提供的腳本來劃分數(shù)據(jù)集,選取單個遠程麥克風(fēng)(single distance microphone,SDM)條件下的驗證集和測試集用于實驗。其中,驗證集包含18條錄音記錄,測試集包含16條錄音記錄。每條錄音的持續(xù)時長約為20~60 min,包含3~5個說話人。數(shù)據(jù)集中多個說話人同時說話的時長約占總時長的12.1%。
VoxConverse數(shù)據(jù)集是從YouTube視頻中提取的多說話人音頻,這些視頻包括政治辯論、小組討論、名人采訪、新聞片段和脫口秀節(jié)目,包含著大量的動態(tài)環(huán)境噪聲,如笑聲和掌聲。數(shù)據(jù)集中包含驗證集和測試集,分別由216條和232條錄音組成。每條錄音的持續(xù)時長為22~1200 s,包含1~21個說話人。數(shù)據(jù)集中多個說話人同時說話的時長約占總時長的3.0%。
2.2 評價指標
實驗采用日志錯誤率(diarization error rate,DER)[33]作為評估指標來衡量說話人日志系統(tǒng)的性能,該指標被各大賽事廣泛采用。DER是三種錯誤的總和,計算方式為
DER=FA+MS+SC(14)
其中:FA(false alarm)反映的是誤報率,即該片段無人說話,但是系統(tǒng)預(yù)測有人說話的時長占音頻記錄總時長的百分比;MS(missed speech)反映的是漏檢率,即該片段有人說話,但是系統(tǒng)預(yù)測無人說話的時長占音頻記錄總時長的百分比;SC(speaker confusion)則是反映系統(tǒng)將某個說話人誤判成另一個說話人的情況。FA和MS這兩個子指標和語音活動檢測模塊性能相關(guān),若該模塊錯誤地去除了語音片段,則會導(dǎo)致MS上升;相反,若未準確去除非語音片段,則會導(dǎo)致FA上升。SC指標則和聚類模塊的性能息息相關(guān)。通常,在計算DER時會在說話人轉(zhuǎn)換處設(shè)置0.25 s的不計分區(qū)域,以減輕符號不一致和人工標注錯誤帶來的負面影響。本文使用dscore工具來計算DER指標,不計算有多說話人重疊的部分錯誤。
2.3 實驗設(shè)置
實驗服務(wù)器配置為Intel Xeon Silver 4316 CPU,主頻為2.30 GHz,GPU采用GeForce RTX 3080Ti,顯存12 GB,內(nèi)存 64 GB。在此基礎(chǔ)上,服務(wù)器采用Ubuntu 20.04.4操作系統(tǒng),使用Python 3.9.17,CUDA 11.3和PyTorch 1.12.1 作為開發(fā)環(huán)境。
為消除由于語音活動檢測模塊的不確定性而可能引入的誤差,以更好地驗證本文所提方法的有效性,文中所有實驗都根據(jù)真實標簽來去除非語音片段。因此,本文中給出的DER結(jié)果僅反映SC錯誤。與主流方法一致,去除非語音片段后,實驗中將錄音切割成1.5 s的短片段,相鄰的兩個片段之間存在0.75 s的重疊。接著,從音頻片段中提取出80維的FBank特征,并將這些特征送入到聲紋嵌入提取器中提取聲紋嵌入,聲紋嵌入的維度為256維。本文使用Wenet官方提供的ResNet-34作為特征提取器,該模型使用VoxCeleb2[34]數(shù)據(jù)集進行預(yù)訓(xùn)練,詳細設(shè)置可參考文獻[15]。
實驗在AMI SDM數(shù)據(jù)集上,參數(shù)M的最佳取值為200,由于數(shù)據(jù)集中錄音記錄的長短變化大,所以鄰居數(shù)k的最佳取值為音頻片段總數(shù)的1%,權(quán)衡參數(shù)β的最佳取值為0.3。在VoxConverse數(shù)據(jù)集上,參數(shù)M的最佳取值為80,鄰居數(shù)k的最佳取值為片段總數(shù)的1%,權(quán)衡參數(shù)β的最佳取值為0.9。
2.4 和現(xiàn)有方法比較
為充分驗證TSARC的有效性,本節(jié)將選用以下具有代表性的模塊化的方法,即DIHARD2021[23]、SSC-PIC[24]、ECAPA-TDNN[14]、Wespeaker[15]、SHARC[22]和GADEC[25]與本文方法進行比較。其中,前四種方法均未引入監(jiān)督信息,而后兩種方法使用了監(jiān)督信息以訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)。表2給出了相關(guān)方法在AMI SDM和VoxConverse數(shù)據(jù)集上DER指標的評估結(jié)果。其中,DIHARD2021和ECAPA-TDNN的結(jié)果是通過文獻中給出的開源代碼復(fù)現(xiàn)獲得的,其余方法結(jié)果均為各自文獻中聲明的結(jié)果。
結(jié)合表2中的實驗數(shù)據(jù)可以觀察到,DIHARD2021、ECAPA-TDNN、Wespeaker以及提出的TSARC這些無監(jiān)督的方法在AMI SDM數(shù)據(jù)集上的表現(xiàn)不如在VoxConverse數(shù)據(jù)集上。這是由于AMI SDM數(shù)據(jù)集中不同說話人說話重疊率較高的原因,從同時包含多人說話的音頻片段中提取的聲紋嵌入?yún)^(qū)分性較差。與此相反,有監(jiān)督的方法SHARC和GADEC在AMI SDM數(shù)據(jù)集上表現(xiàn)更優(yōu),主要是因為VoxConverse數(shù)據(jù)集中缺乏訓(xùn)練集,缺乏足夠的真實數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),這些方法只能使用合成數(shù)據(jù)進行訓(xùn)練,從而導(dǎo)致模型學(xué)習(xí)的數(shù)據(jù)分布與真實分布之間存在偏差。本文方法在Wespeaker的基礎(chǔ)上將全局聚類的方式替換成時間分段和重組的聚類方式,并利用鄰域信息校準親和矩陣,其余模塊保持不變。在AMI SDM和VoxConverse數(shù)據(jù)集上,TSARC的DER和Wespeaker相比分別相對降低了約34%和16%。和現(xiàn)有的其他工作相比,TSARC也表現(xiàn)出了更優(yōu)的結(jié)果。實驗結(jié)果表明,通過采用局部聚類以關(guān)注局部的特征分布,并利用鄰域信息校準親和矩陣,能夠有效降低噪聲的影響,從而顯著降低說話人日志的錯誤率。
2.5 消融實驗
為驗證提出的時間分段和重組聚類以及親和矩陣校準是否能夠改善說話人日志的性能,本節(jié)在AMI SDM數(shù)據(jù)集上對所提方法進行消融實驗,實驗結(jié)果如表3所示,表中的“√”表示包含相應(yīng)的組件,充分表明了所提模塊的有效性。其中基線模型為Wespeaker。
1)時間分段和重組聚類的有效性 通過在基線模型中加入局部聚類的模塊,由表3可以看出,相較于基線模型,模型1的DER相對降低了約15%,這證明了使用局部聚類可以有效減輕噪聲對聚類性能的影響。
2)親和矩陣校準的有效性 在對親和矩陣使用鄰域信息進行校準后,相較于基線模型,模型2的DER相對降低了約24%,這證明了使用鄰域信息可以提高聲紋嵌入間相似度的準確性。
通過將時間分段和重組的聚類方式和親和矩陣校準這兩種方式結(jié)合后,性能可以獲得進一步提升,DER相對于基線模型可以降低約34%,充分證明了本文方法的有效性。
2.6 超參分析
本節(jié)將對所提方法引入的參數(shù)進行分析,包括時間分段和局部聚類步驟中的參數(shù)M,以及親和矩陣校準步驟中的鄰居數(shù)k和權(quán)衡參數(shù)β。實驗在AMI SDM數(shù)據(jù)集上進行。結(jié)果如圖3所示。其中基線模型為Wespeaker。
每個時間段中音頻片段個數(shù)M對DER的影響如圖3(a)所示,在實驗中,為防止其他參數(shù)對實驗結(jié)果的影響,固定k和β的值為0??梢杂^察到,本文方法在不同的M值上始終優(yōu)于基線模型。DER先隨著M的增大而降低,然后在超過閾值后開始升高。在M值過小時,進行局部聚類的片段數(shù)太少,無法在集成聚類時提供有用的信息,而在M值過大時,局部聚類的結(jié)果接近全局聚類,此時也無法提供有用的信息。
鄰居數(shù)k的影響如圖3(b)所示,在實驗中,為防止其他參數(shù)對實驗結(jié)果的影響,固定M值為0,β值為0.3。橫坐標表示鄰居數(shù)和錄音記錄的片段總數(shù)的比例??梢钥闯觯珼ER隨著k在一個合理范圍的增加而降低。需要注意的是,當為k分配一個較大的值時可能會引入噪聲,從而導(dǎo)致性能的下降,但是仍然優(yōu)于基線模型。
權(quán)衡參數(shù)β的影響如圖3(c)所示,在實驗中,為防止其他參數(shù)對實驗結(jié)果的影響,固定M值為0,k值為0.01。請注意,當β為0時,僅考慮杰卡德相似度作為最終相似度;而當為1時,則僅使用余弦相似度??梢杂^察到,方法始終優(yōu)于基線。這表明,使用鄰域信息對親和矩陣進行校準是有效的。
2.7 可視化分析
為直觀地展現(xiàn)本文方法的有效性,本節(jié)給出TSARC和基線模型Wespeaker在AMI SDM數(shù)據(jù)集部分音頻上的可視化結(jié)果對比圖。其中,縱軸表示不同的說話人,橫軸表示時間,以s為單位,圖中的條形表示不同說話人的語音活動。
圖4(a)(b)分別展示了編號為EN2002c和IS1009a的音頻記錄的說話人日志可視化結(jié)果,TSARC精準地預(yù)測了音頻中給出的說話人數(shù)量并定位出了說話人的語音活動,而Wespeaker則將一個說話人的語音活動誤判成兩個說話人的語音活動。圖4(c)展示了編號為IS1009b的音頻記錄的說話人日志可視化結(jié)果,在紅框部分,TSARC有著更好的區(qū)分定位結(jié)果,誤判率更低。通過對比可視化結(jié)果,證明了TSARC在說話人日志任務(wù)中的有效性。
3 結(jié)束語
本文致力于解決說話人日志任務(wù)中環(huán)境噪聲導(dǎo)致聚類性能下降的問題,提出了一種基于時間分段和重組聚類的說話人日志方法TSARC。與現(xiàn)有方法相比,所提方法通過將所有語音片段劃分成多個時間段,在每個時間段內(nèi)獨立地進行局部聚類,以關(guān)注局部的特征分布,再對局部聚類結(jié)果進行合并,從而降低了噪聲對聚類性能的影響。與此同時,通過考慮聲紋嵌入的鄰域信息,對嵌入間的相似度進行了校準,提高了親和矩陣的準確性,進一步減少了噪聲的干擾。最后,在公開數(shù)據(jù)集AMI SDM和VoxConverse上的實驗結(jié)果證明了所提方法的有效性和先進性。盡管所提方法在性能上取得了一定的提升,但是仍然存在一定的改進空間。后續(xù)工作中,將考慮如何自適應(yīng)地進行分段以及如何自適應(yīng)地確定鄰居數(shù)等方面的問題。
參考文獻:
[1]Park T J,Kanda N,Dimitriadis D,et al. A review of speaker diarization: recent advances with deep learning [J]. Computer Speech & Language,2022,72: 101317.
[2]Yu Fan,Zhang Shiliang,F(xiàn)u Yihui,et al. M2MeT: the ICASSP 2022 multi-channel multi-party meeting transcription challenge [C]// Proc of the 47th International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2022: 6167-6171.
[3]Li Yanxiong,Wang Qin,Zhang Xue,et al. Unsupervised classification of speaker roles in multi-participant conversational speech [J]. Computer Speech & Language,2017,42: 81-99.
[4]Chetupalli S R,Ganapathy S. Speaker conditioned acoustic modeling for multi-speaker conversational ASR [C]// Proc of InterSpeech. 2022: 3834-3838.
[5]沈逸文,孫俊. 結(jié)合Transformer的輕量化中文語音識別 [J]. 計算機應(yīng)用研究,2023,40(2): 424-429. (Shen Yiwen,Sun Jun. Lightweight Chinese speech recognition with Transformer [J]. Application Research of Computers,2023,40(2): 424-429.)
[6]Fujita Y,Kanda N,Horiguchi S,et al. End-to-end neural speaker diarization with permutation-free objectives [C]// Proc of InterSpeech. 2019: 4300-4304.
[7]Fujita Y,Kanda N,Horiguchi S,et al. End-to-end neural speaker diarization with self-attention [C]// Proc of IEEE Automatic Speech Recognition and Understanding Workshop. Piscataway,NJ: IEEE Press,2019: 296-303.
[8]Liu Y C,Han E,Lee C,et al. End-to-end neural diarization: From transformer to conformer [C]// Proc of InterSpeech. 2021: 3081-3085.
[9]曹潔,余麗珍. 改進的說話人聚類初始化和GMM的多說話人識別 [J]. 計算機應(yīng)用研究,2012,29(2): 590-593. (Cao Jie,Yu Lizhen. Improved speaker clustering initialization and GMM multi-speaker recognition [J]. Application Research of Computers,2012,29(2): 590-593.)
[10]Kinoshita K,Delcroix M,Tawara N. Integrating end-to-end neural and clustering-based diarization: getting the best of both worlds [C]// Proc of the 46th International Conference on Acoustics,Speech and Signal Processing. Piscataway NJ: IEEE Press,2021: 7198-7202.
[11]Ning Huazhong,Liu Ming,Tang Hao,et al. A spectral clustering approach to speaker diarization [C]// Proc of the 9th International Conference on Spoken Language Processing. Piscataway NJ: IEEE Press,2006: 2178-2181.
[12]Wang Quan,Downey C,Wan Li,et al. Speaker diarization with LSTM [C]// Proc of the 43rd International Conference on Acoustics,Speech and Signal Processing. Piscataway NJ: IEEE Press,2018: 5239-5243.
[13]Park T J,Han K J,Kumar M,et al. Auto-tuning spectral clustering for speaker diarization using normalized maximum eigengap [J]. IEEE Signal Processing Letters,2019,27: 381-385.
[14]Dawalatabad N,Ravanelli M,Grondin F,et al. ECAPA-TDNN embeddings for speaker diarization [C]// Proc of InterSpeech. 2021: 3560-3564.
[15]Wang Hongji,Liang Chengdong,Wang Shuai,et al. Wespeaker: a research and production oriented speaker embedding learning toolkit [C]// Proc of the 48th International Conference on Acoustics,Speech and Signal Processing. Piscataway NJ: IEEE Press,2023: 1-5.
[16]Sell G,Snyder D,Mccree A,et al. Diarization is hard: some experiences and lessons learned for the JHU team in the inaugural DIHARD challenge [C]// Proc of InterSpeech. 2018: 2808-2812.
[17]Sell G,Garcia-Romero D. Speaker diarization with PLDA i-vector scoring and unsupervised calibration [C]// Proc of IEEE Spoken Language Technology Workshop. Piscataway NJ: IEEE Press,2014: 413-417.
[18]Lin Qingjian,Hou Yu,Li Ming. Self-attentive similarity measurement strategies in speaker diarization [C]// Proc of InterSpeech. 2020: 284-288.
[19]Kwon Y,Jung J W,Heo H S,et al. Adapting speaker embeddings for speaker diarisation [C]// Proc of InterSpeech. 2021: 3101-3105.
[20]Wang Jixuan,Xiao Xiong,Wu Jian,et al. Speaker diarization with session-level speaker embedding refinement using graph neural networks [C]// Proc of the 45th International Conference on Acoustics,Speech and Signal Processing. Piscataway NJ: IEEE Press,2020: 7109-7113.
[21]Wang Jie,Chen Zhicong,Zhou Haodong,et al. Community detection graph convolutional network for overlap-aware speaker diarization [C]// Proc of the 48th International Conference on Acoustics,Speech and Signal Processing. Piscataway NJ: IEEE Press,2023: 1-5.
[22]Singh P,Kaul A,Ganapathy S. Supervised hierarchical clustering using graph neural networks for speaker diarization [C]// Proc of the 48th International Conference on Acoustics,Speech and Signal Processing. Piscataway NJ: IEEE Press,2023: 1-5.
[23]Ryant N,Singh P,Krishnamohan V,et al. The third DIHARD diarization challenge [C]// Proc of InterSpeech. 2021: 3570-3574.
[24]Singh P,Ganapathy S. Self-supervised representation learning with path integral clustering for speaker diarization [J]. IEEE/ACM Trans on Audio,Speech,and Language Processing,2021,29: 1639-1649.
[25]Wei Yi,Guo Haiyan,Ge Zirui,et al. Graph attention-based deep embedded clustering for speaker diarization [J]. Speech Communication,2023,155: 102991.
[26]Ng A Y,Jordan M I,Weiss Y. On spectral clustering: analysis and an algorithm [C]// Proc of the 14th International Conference on Neural Information Processing Systems: Natural and Synthetic. New York: ACM Press,2001: 849-856.
[27]Liu Hongfu,Liu Tongliang,Wu Junjie,et al. Spectral ensemble clustering [C]// Proc of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press,2015: 715-724.
[28]吳志敏,劉珍,王若愚,等. 面向移動App流量的多特征集合集成聚類方法研究與應(yīng)用 [J]. 計算機應(yīng)用研究,2019,36(10): 3101-3106. (Wu Zhimin,Liu Zhen,Wang Ruoyu,et al. Research and application of multi-feature sets based ensemble clustering method for mobile App traffic [J]. Application Research of Computers,2019,36(10): 3101-3106.)
[29]Zhong Zhun,Zheng Liang,Cao Donglin,et al. Re-ranking person re-identification with k-reciprocal encoding [C]// Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 1318-1327.
[30]韓光,葛亞鳴,張城瑋. 基于去相關(guān)高精度分類網(wǎng)絡(luò)與重排序的行人再識別 [J]. 計算機應(yīng)用研究,2020,37(5): 1587-1591,1596. (Han Guang,Ge Yaming,Zhang Chengwei. Person re-identification by decorrelated high-precision classification network and re-ranking [J]. Application Research of Computers,2020,37(5): 1587-1591,1596.)
[31]Carletta J,Ashby S,Bourban S,et al. The AMI meeting corpus: a pre-announcement [C]// Proc of the 2nd International Conference on Machine Learning for Multimodal Interaction. Berlin: Springer,2005: 28-39.
[32]Chung J S,Hun J,Nagrani A,et al. Spot the conversation: speaker diarisation in the wild [C]// Proc of InterSpeech. 2020: 299-303.
[33]Fiscus J G,Ajot J,Michel M,et al. The rich transcription 2006 spring meeting recognition evaluation [C]// Proc of the 3rd International Workshop on Machine Learning and Multimodal Interaction. Berlin: Springer,2006: 309-322.
[34]Nagrani A,Chung J S,Xie Weidi,et al. VoxCeleb: large-scale speaker verification in the wild [J]. Computer Speech & Language,2020,60: 101027.
收稿日期:2024-01-19;修回日期:2024-03-05 基金項目:國家自然科學(xué)基金重點資助項目(U1836220);國家自然科學(xué)基金面上項目(62176106);江蘇省重點研發(fā)計劃資助項目(BE2020036);江蘇省研究生科研與實踐創(chuàng)新計劃資助項目(KYCX22_3668);江蘇大學(xué)應(yīng)急管理學(xué)院專項科研項目(KY-A-01)
作者簡介:朱必松(1999—),男,江蘇鹽城人,碩士研究生,主要研究方向為說話人日志;毛啟容(1975—),女(通信作者),四川瀘州人,教授,博導(dǎo),博士,主要研究方向為模式識別、情感計算(mao_qr@ujs.edu.cn);高利劍(1993—),男,江西九江人,博士研究生,主要研究方向為聲音事件檢測;沈雅馨(1999—),女,江蘇蘇州人,碩士研究生,主要研究方向為聲音事件檢測.