賀鑫 劉凡 陳德龍 周睿志
摘 要:
近年來,音樂與人體動作之間的內(nèi)在關聯(lián)一直以來都在被廣泛研究。然而,很少有人關注音樂驅(qū)動的樂隊指揮動作生成這一任務,即以音樂為輸入信號,生成與音樂節(jié)奏和語義相協(xié)調(diào)的樂隊指揮動作。聚焦于這一任務,針對指揮動作多種語義成分時空重合的特性,提出基于動作動態(tài)頻域分解(dynamic frequency-domain motion decomposition,DFMD)的指揮動作生成方法。具體地,首先利用節(jié)拍信息構建濾波器,將指揮動作分解成高頻和低頻分量;接著,通過深度卷積神經(jīng)網(wǎng)絡動態(tài)地學習這些分量;最后合成最終的指揮動作。在大規(guī)模指揮動作數(shù)據(jù)集ConductorMotion100上進行的實驗中,基于DFMD的指揮動作生成方法得到的低頻動作分量和高頻動作分量的標準差分別達到了4.457 9和9.646 6,與真實動作十分接近。該方法突破了現(xiàn)有基于時域或空間域動作分解中連貫性與協(xié)調(diào)性不可兼得的局限,并有效避免了大幅值低頻動作對小幅值高頻動作的影響??梢暬Y果證明生成的動作自然、美觀、多樣,且與音樂信號緊密同步。為音樂與動作之間的關聯(lián)提供了新的解釋,并為音樂表演領域帶來了創(chuàng)新的應用前景。
關鍵詞:跨模態(tài)生成;人體動作生成;頻域分解;動作分解;音樂驅(qū)動生成
中圖分類號:TP391.4?? 文獻標志碼:A??? 文章編號:1001-3695(2024)03-042-0923-05doi: 10.19734/j.issn.1001-3695.2023.07.0321
Conducting motion generation based on dynamic frequency domain decomposition
He Xin, Liu Fan, Chen Delong, Zhou Ruizhi
(School of Computer & Information, Hohai University, Nanjing 210098, China)
Abstract:
In recent years, the intrinsic relationship between music and motions have been widely studied. However, very few efforts have been made to develop music-driven conducting motion generation models, which takes music as input signal to generate conducting motion in harmony with music rhythm and semantics. This paper proposed a music-driven conducting motion generation approach based on DFMD. Specifically, firstly it constructed a filter using the beat information to decompose the command action into high and low frequency components. Then, a deep convolutional neural network dynamically learnt these components, and it synthesized the final command action. Experimental results on the large-scale ConductorMotion100 dataset show that the standard deviation of the generated low-frequency and high-frequency motion components is 4.457 9 and 9.646 6, which are very close to the real motions. The proposed method breaks through the limitations of coherence and coordination in time-domain or spatial-domain motion decomposition, and effectively avoids the influence of large-value low-frequency motion on small-value high-frequency motion. The visualized results show that the generated movements are natural, beautiful, diverse, and closely synchronize with the music signal. It provides a new understanding of the connection between music and movement, and brings innovative application prospects to the field of musical performance. Key words:cross-model generation; human motion generation; frequency domain decomposition; motion decomposition; music-driven generation
0 引言
指揮是交響樂團的靈魂。自中世紀歐洲教堂唱詩班到二十一世紀的現(xiàn)代音樂,指揮技術與藝術不斷發(fā)展,已經(jīng)成為一門內(nèi)容豐富的學科[1]。指揮的肢體語言復雜多變[2],需要在樂團演奏時實時地傳達節(jié)拍、力度、情感、演奏法等多種信息[3],同時保持一定的風格與美感。近年來,隨著深度學習算法理論的發(fā)展與計算性能的飛速提升,人工智能領域的學者已經(jīng)成功地對多種人類藝術進行建模與學習。深度學習已經(jīng)能生成包括詩歌藝術、繪畫藝術、音樂藝術、舞蹈藝術在內(nèi)的多種人類藝術形式。
然而,學界對于指揮藝術的建模研究還比較初步,且主要面向判別類的任務,如節(jié)拍跟蹤、拍式識別、演奏法識別、情感識別等。生成式任務,即音樂驅(qū)動的指揮動作生成任務,指的是以音樂為條件控制信號,生成與之節(jié)奏同步且語義相關的指揮動作,而這部分的相關研究工作開展比較少。Wang等人[4]在2003年提出了首個指揮動作生成方法。隨后,幾種基于規(guī)則的生成方法[5~7]陸續(xù)被提出,但這些方法無法靈活地學習真實指揮動作的內(nèi)在規(guī)律,導致生成動作重復性強、多樣性差。目前,在各種生成任務中廣泛成功的深度學習方法尚未被應用至音樂驅(qū)動的指揮動作生成任務上。
此外,指揮動作同時包含節(jié)拍、演奏法、力度以及音樂情感等信息,可視作由高頻動作分量與低頻動作分量疊加而成的一種穩(wěn)定信號,其中高頻分量包含了幅值較小但頻率較高的節(jié)拍、力度等信息,低頻分量包含了幅值較大但頻率較低的情感以及身體朝向等成分。由于高低頻動作分量之間幅值相差較大,模型對低頻動作的學習將會占主導地位,這將導致高頻動作的學習效果欠佳。為解決這一問題,常用的方法為動作分解方法,包括時域分解[8~12]與空間域分解[13,14],均存在一定的缺陷。如圖1所示,時域分解將動作按照時間軸方向進行劃分,雖然保留了動作的時域信息,但丟失了空間域信息,使得基于時域分解方法生成的動作往往連貫但不協(xié)調(diào);而空間域分解將動作按空間軸方向進行劃分,雖然保留了動作的空間信息,但丟失了時域信息,使得基于空間域分解方法生成的動作往往協(xié)調(diào)但不連貫。
本文提出了一種基于動態(tài)頻域分解(dynamic frequency-domain motion decomposition,DFMD)的樂隊指揮動作生成方法,可以同時保留時域信息和空間域信息。由于高低頻動作的分布界限受音樂節(jié)奏影響,基于固定閾值的方法并不能夠確保分解后的動作成分之間相互獨立,所以本文提出根據(jù)音樂節(jié)奏自適應地確定用于頻域分解的閾值,進行高低頻動作的動態(tài)分解。具體地,首先通過音樂節(jié)奏估計算法動態(tài)地計算局部的音樂節(jié)奏,確定對指揮動作進行高通分解和低通分解的頻率閾值,從而將動作序列分解為高頻動作分量和低頻動作分量兩個;然后,通過兩個生成器分別對高低頻動作分量進行獨立學習,再將兩個模型的輸出結果進行合成,得到最終的指揮動作。本文在ConductorMotion100數(shù)據(jù)集上進行實驗,采用生成動作的標準差作為實驗指標來衡量生成動作的多樣性。實驗結果表明,本文方法生成的指揮動作的多樣性更接近真實動作,優(yōu)于CVPR18[15]、MM18[16]、ICASSP18[17]中三個基于深度學習的方法。與文獻[4~7]基于規(guī)則的指揮動作生成方法相比,本文方法可以生成更自然、美觀、多樣且與音樂同步的指揮動作。
1 相關工作
音樂驅(qū)動的指揮動作生成從屬于音樂驅(qū)動的人體動作生成(audio-to-motion translation)領域。由于現(xiàn)在尚不存在基于深度學習的樂隊指揮動作生成方法,本章將介紹現(xiàn)有的基于深度學習的音樂驅(qū)動的人體動作生成方法。雙模態(tài)音頻-動作生成任務涉及建立復雜的音頻-動作依賴,相同音頻條件下存在多種合理動作,使生成成為一對多病態(tài)問題,增加生成難度。以前,基于檢索法從音頻-動作數(shù)據(jù)庫檢索相似樣本作為輸出,但動作多樣性低,時間復雜度高,受數(shù)據(jù)庫規(guī)模制約。近年來,深度生成模型不斷發(fā)展,并成功應用于人體動作條件生成任務,取得了一定進展。這類方法主要可以分為基于確定性模型的生成方法[18]、基于概率模型的生成方法[19~25]與基于動作分解的生成方法[11~14]三類。
確定性模型是最簡單直接的人體動作條件生成方法,將生成動作與真實動作在樣本空間中的歐氏距離作為損失函數(shù)來指導模型的學習。這類方法將人體動作的條件下生成問題建模為一個回歸問題。文獻[18]使用二維卷積神經(jīng)網(wǎng)絡提取音頻頻譜特征,隨后使用長短期記憶網(wǎng)絡(long short term memory,LSTM)學習動作與音頻特征之間的時間依賴性。確定性模型與回歸損失在人體動作的條下件生成缺陷,在于無法從給定音頻輸入生成多樣的動作。
近年來,研究人員們逐漸意識到確定性模型與回歸損失在人體動作的條件生成這一病態(tài)生成任務上難以避免的缺陷,因此基于概率模型的方法吸引了越來越多的注意力。與確定性模型不同,概率模型試圖對真實人體動作的條件分布進行建模,使得模型不必嚴格生成與真實樣本完全一致的動作,在一定程度上緩解了回歸損失帶來的過渡平滑問題。在近幾年中被廣泛研究的多種深度生成模型,例如變分自編碼器、生成對抗網(wǎng)絡、流模型等,都被成功地應用在了這一任務上。然而,絕大部分基于概率模型的生成方法[19~25]仍然保留著回歸損失,同樣存在確定性分解中使用回歸損失的缺陷。
動作分解是人體動作條件生成領域內(nèi)另一個值得注意的研究趨勢。其中,舞蹈動作的時域分解是最常用的分解方法。這類方法首先將復雜的舞蹈動作在以節(jié)拍為依據(jù)分為基礎的分解動作單元,再學習如何對這些單元進行排列組合。然而,這種方法引入了額外的數(shù)據(jù)標注量工作,且限制了生成動作的多樣性。文獻[11,12]分別令模型首先學習低層次的舞步單元(dance units)[11]或關鍵姿態(tài)(key pose)[12],再訓練高層次的模型來編排學得的舞步單元或填充關鍵姿態(tài)之間的動作。其缺陷在于節(jié)拍檢測的誤差和數(shù)據(jù)錯位都會極大影響模型的學習效果。還有學者提出了空間域的動作分解。文獻[13,14]將小提琴家的演奏姿態(tài)數(shù)據(jù)分為左手、右手以及其余身體部分,并使用不同模型分別學習這些動作的生成。然而該種方法會使得該類方法生成的動作缺乏協(xié)調(diào)性。
2.5 網(wǎng)絡結構
節(jié)拍檢測器Ebeat根據(jù)二維的梅爾頻譜圖來預測所有的對應節(jié)拍位置。Ebeat分為三個部分:a)音樂編碼器Emusic,用于從梅爾頻譜圖中提取音樂特征;b)分類頭Hmusic,用于根據(jù)音樂特征對每一時間幀進行分類,得到對應的激活向量;c)動態(tài)貝葉斯網(wǎng)絡(dynamic Bayesian network,DBN)[27],用于對激活向量進行解碼,使得預測出的節(jié)拍位置具有更合理的全局分布。
Emusic包含三個組,每組由三個殘差層[28]和一個池化層組成,最終輸出的通道數(shù)為64。殘差層中包含卷積核為3×3的卷積層、批歸一化層(batch normalization)、ReLU激活函數(shù)與基于1×1卷積的殘差連接。
Hmusic基于時域卷積網(wǎng)絡(temporal convolutional network,TCN)[29],該網(wǎng)絡有三個帶殘差連接的一維空洞卷積層、兩個全連接層,每一個空洞卷積層的卷積核大小為5,通道數(shù)都是64。全連接層輸出維度分別為32和1,用于降低通道數(shù),此外,還包含了sigmoid激活函數(shù),用于將輸出結果控制在0~1,Hmusic的最終輸出是激活向量,向量中每一個元素的大小表示對應時間幀出現(xiàn)節(jié)拍的概率。
動作生成器G也基于時域卷積網(wǎng)絡,該網(wǎng)絡有5個一維空洞卷積層和殘差塊。每一層的卷積核大小為5,由于每一個時間步長的輸入是一個46維的音樂特征向量,第一層有46個通道,其他層通道數(shù)都是64。
由于最初的TCN是為預測類任務而設計的,所以它采用的是因果卷積。為了學習雙向依賴,本文將其改為了非因果卷積。由于動作數(shù)據(jù)已歸一化,本文使用tanh作為最后一層的激活函數(shù),其他層的激活函數(shù)為ReLU。
3 實驗
3.1 數(shù)據(jù)準備
本文采用ConductorMotion100[30]數(shù)據(jù)集進行實驗。ConductorMotion100數(shù)據(jù)集中的每一個樣本對為60 s的音頻聲波信號—指揮動作序列樣本對,總時長為100 h,采樣率為30 fps。其中,指揮動作序列Yi在每一個時間步為一個20維特征向量,對應于姿態(tài)序列中頭頂、鼻子、頸部、雙肩、雙肘、雙手、臀部這10個指揮動作關鍵點的二維坐標。
首先使用梅爾頻譜提取器和音頻特征提取器分別提取每一個樣本對中Wi對應的梅爾頻譜圖Mi和音頻特征序列Xi。其中,Mi在每一個時間步上的特征是一個128維的梅爾頻譜特征向量(Mel bank features),為128個頻帶的輸入表示,由于只包含梅爾頻譜特征,梅爾頻譜圖的歸一化處理是對整體進行的;Xi在每一時間步上的音頻特征是一個46維特征向量,包括1維的頻譜質(zhì)心(spectral centroid)、1維的觸發(fā)音力度(onset strength)、1維的主要局部脈沖(predominant local pulse,PLP)、20維梅爾頻率倒譜系數(shù)(Mel frequency cepstral coefficients,MFCC),以及以上23維特征的一階差分,與梅爾頻譜圖不同,音頻特征的每一維獨立地進行歸一化處理。
將Conductor-Motion100中每一個樣本對切分成兩個片段,每個片段時長為30 s。對每一個片段樣本對進行獨立的頻域分解,Yji以及分解后的高頻、低頻動作分量可視化如圖3所示,原始動作中大部分動作均為低頻動作,經(jīng)過動態(tài)動作頻域分解后,可以準確地將大量的包含節(jié)拍信息的低頻動作分量和少量的包含個人情感信息的高頻動作分量區(qū)分開。
ConductorMotion100數(shù)據(jù)集以9∶0.5∶0.5的比例劃分為訓練集、驗證集與測試集。
3.2 實驗設置
本文的實驗使用Intel Core i5-9400 CPU處理器(2.90 GHz),32 GB內(nèi)存,NVIDIA GeForce RTX 2080 Ti GPU (27 GB),算法基于Python 3.6、PyTorch 1.6.0實現(xiàn)。
本文在訓練過程中進行了數(shù)據(jù)增強:將樣本對乘以一個隨機的縮放系數(shù),系數(shù)取值在0.8~1.2。訓練時的batch size設置為16。每個樣本對由30 s的音頻特征與對應的指揮動作組成。動作生成器由RMSProp優(yōu)化器優(yōu)化,其學習率為0.000 5。
3.3 實驗結果
由于已有的指揮動作生成方法都是基于規(guī)則的,而本文方法是基于學習的,所以難以設計公平的對比。為了盡可能公平地比較本文方法的性能,本文選擇了以下三個基于學習的用于其他任務的音頻-動作生成模型作為實驗對比:
a)CVPR18[15],該模型是一個基于LSTM的單層模型,為樂器演奏動作生成任務而設計,其損失函數(shù)僅為MSE損失;
b)MM18[16],該模型是一個用于生成舞蹈動作的LSTM自動編碼器模型,增加了一個解碼器來重構音樂特征,并根據(jù)MSE損失和重建損失進行訓練的;
c)ICASSP18[17],該模型用于生成人臉說話動作,引入了生成對抗網(wǎng)絡,并由MSE損失和對抗性損失共同訓練。
由于上述模型沒有使用動作分解方法,它們是在原始動作數(shù)據(jù)上訓練的。為了進行對比,本文將這些方法生成的動作傳入提出的動態(tài)頻域分解,以獲得其高頻與低頻的動作分量。本文使用標準差作為衡量標準,來衡量生成動作的多樣性。具體地,高低頻動作的標準差分別可以表示為
其中:Yhigh為生成的高頻動作的均值;Ylow為生成的低頻動作的均值;標準差Shigh、Slow越接近真實動作,代表生成的動作多樣性越好。
實驗使用貝多芬第五交響曲的四個完整樂章作為測試樣本,測試結果如表1所示。由于從動作到高頻動作的映射是一對多的,很難通過MSE損失來學習,所以方法CVPR18和MM18的標準差非常低。ICASSP18引入了對抗性方法,因此其高頻動作分量的標準差更接近真實數(shù)據(jù)。然而,由于缺少動作分解,這三種比較方法都不能學習低頻動作分量。而本文方法均能較好地學習到低頻動作分量和高頻動作分量,且更加接近真實數(shù)據(jù),模型表現(xiàn)好。
3.4 可視化指揮動作生成結果
為了更直觀地展現(xiàn)本文方法的性能,本節(jié)將對生成結果進行可視化展示。圖4展示了本文方法的輸出,即各維度動作序列結合后的整體動作的效果圖,包括高頻分量、低頻分量與最終輸出。結果表明,兩個生成器能有效地學習到指揮動作的不同分量。
將本文方法與現(xiàn)有的音樂驅(qū)動的指揮動作生成模型進行比較,得到的結果如圖5所示,第一行涉及的模型有Wang等人[4]提出的基于核隱馬爾可夫模型(kernel-based hidden Markov model,KHMM)的方法,也有基于規(guī)則的模型,如文獻[5~7],第二行是本文方法的生成結果。與基于KHMM的模型相比,本文方法產(chǎn)生了更真實的動作;與基于規(guī)則的模型相比,本文方法生成的動作明顯更加靈活和多樣化。
此外,對于本文生成結果的可視化視頻(https://pan.baidu.com/s/1_-fdOg1B1J-1aMERcLJDpg?pwd=3209)可以更加直觀地展示動態(tài)頻域分解下高頻分量與低頻分量的生成效果??梢钥闯?,本文方法生成的動作靈活、真實、多樣,且與音樂輸入緊密同步。
圖6、7進一步展示了生成指揮動作基于三維動畫渲染與姿態(tài)遷移的可視化。其中,圖6為將生成的指揮動作填充為全身后,使用VideoPose3D[31]轉(zhuǎn)換為三維坐標,再使用MotionBuilder將其綁定到maxiamo的三維人體模型上的渲染結果。圖7展示的是使用基于Liquid Warping GAN的姿態(tài)遷移方法[32],將生成的指揮動作遷移至給定圖像上的效果。
4 結束語
本文提出了基于動態(tài)頻域分解的指揮動作生成方法,相較于現(xiàn)有傳統(tǒng)方法,本文方法可以生成更加自然、美觀、多樣,且與音樂同步的指揮動作,突破了現(xiàn)有動作分解方法中連貫性與協(xié)調(diào)性不可兼得的局限。本文提出的動作動態(tài)頻域分解以音樂節(jié)奏為依據(jù),將動作分解為高頻分量與低頻分量,顯著降低了學習難度。未來的研究工作將考慮進一步拓寬本文提出的基于動態(tài)頻域分解的樂隊指揮動作生成方法的應用,在舞蹈生成、說話姿勢生成等任務上驗證本文方法的可行性。
參考文獻:
[1]李嚴君. 樂隊指揮及中西方指揮形式研究[J]. 北方音樂,2020,9(18): 251-252. (Li Yanjun. A study of orchestra conducting and Chinese and western forms of conducting[J]. Northern Music,2020,9(18): 251-252.)
[2]張金鑫. 多樣化樂隊指揮形式的探究[J]. 當代音樂,2018(6): 108-109. (Zhang Jinxin. Exploration of diverse band conducting forms[J]. Contemporary Music,2018(6): 108-109.)
[3]程酢培. 試論指揮“圖式”的重要性[J]. 當代音樂,2016(14): 74-77. (Cheng Zuopei. The importance of “schema” in conducting[J]. Contemporary Music,2016(14): 74-77.)
[4]Wang Tianshu,Zheng Nanning,Li Yan,et al. Learning kernel-based HMMs for dynamic sequence synthesis[C]// Proc of the 10th Pacific Conference on Computer Graphics and Applications. Piscataway,NJ: IEEE Press,2002: 87-95.
[5]Ruttkay Z,Huang Zhisheng,Eliens A. Gestures for embodied agents with logic programming[C]// Proc of International Workshop on Constraint Solving and Constraint Logic Programming. Berlin: Springer-Verlag,2003: 266-284.
[6]Reidsma D,Nijholt A,Bos P. Temporal interaction between an artificial orchestra conductor and human musicians[J]. Computers in Entertainment,2008,6(4): 1-22.
[7]Ryosuke T,Yusaku M,Tomoo I,et al. Multiple virtual conductors allow amateur orchestra players to perform better and more easily[C]// Proc of the 20th International Conference on Computer Supported Coo-perative Work in Design. Piscataway,NJ: IEEE Press,2016:486-491.
[8]Ye Zijie,Wu Haozhe,Jia Jia,et al. ChoreoNet: towards music to dance synthesis with choreographic action unit[C]// Proc of the 28th ACM International Conference on Multimedia. New York: ACM Press,2020: 744-752.
[9]Guo Xin,Zhao Yifan,Li Jia. DanceIt: music-inspired dancing video synthesis[J]. IEEE Trans on Image Processing,2021,30: 5559-5572.
[10]Duan Yinglin,Shi Tianyang,Zou Zhengxia,et al. Semi-supervised learning for in-game expert-level music-to-dance translation[EB/OL]. (2020-09-27). https://arxiv.org/abs/2009.12763.
[11]Lee H Y,Yang Xiaodong,Liu Mingyu,et al. Dancing to music[C] // Proc of Annual Conference on Neural Information Processing Systems. 2019: 3581-3591.
[12]Li Buyu,Zhao Yongchi,Sheng Lu. DanceNet3D: music based dance generation with parametric motion Transformer[EB/OL]. (2021-05-18). https://arxiv.org/abs/2103.10206.
[13]Liu Junwei,Lin Hungyi,Huang Yufen,et al. Body movement generation for expressive violin performance applying neural networks[C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2020: 3787-3791.
[14]Kao H K,Su Li. Temporally guided music-to-body-movement generation[C]// Proc of the 28th ACM International Conference on Multimedia. New York: ACM Press,2020: 147-155.
[15]Shlizerman E,Dery L,Schoen H,et al. Audio to body dynamics[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 7574-7583.
[16]Tang Taoran,Jia Jia,Mao Hanyang. Dance with melody: an LSTM-autoencoder approach to music-oriented dance synthesis[C]// Proc of the 26th ACM International Conference on Multimedia. New York: ACM Press,2018: 1598-1606.
[17]Sadoughi N,Busso C. Novel realizations of speech-driven head movements with generative adversarial networks[C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2018: 6169-6173.
[18]Yalta N,Ogata T,Nakadai K. Sequential deep learning for dancing motion generation,SIG-Challenge-046-08[R]. [S.l.]: Japanese Society for Artificial Intelligence,2016.
[19]Sun Guofei,Wong Yongkang,Cheng Zhiyong,et al. DeepDance: music-to-dance motion choreography with adversarial learning[J]. IEEE Trans on Multimedia,2020,23: 497-509.
[20]Ren Xuanchi,Li Haoran,Huang Zijian,et al. Self-supervised dance video synthesis conditioned on music[C]// Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:46-54.
[21]Ginosar S,Bar A,Kohavi G,et al. Learning individual styles of conversational gesture[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 3497-3506.
[22]Chen Lele,Li Zhiheng,Maddox R K,et al. Lip movements generation at a glance[C]// Proc of European Conference on Computer Vision. Berlin: Springer-Verlag,2018: 520-535.
[23]Zhou Hang,Liu Yu,Liu Ziwei,et al. Talking face generation by adversarially disentangled audio-visual representation[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2019: 9299-9306.
[24]Eskimez S E,Maddox R K,Xu Chenliang,et al. End-to-end generation of talking faces from noisy speech[C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Pisca-taway,NJ: IEEE Press,2020: 1948-1952.
[25]Song Yang,Zhu Jingwen,Li Dawei,et al. Talking face generation by conditional recurrent adversarial network[EB/OL]. (2019-07-25). https://arxiv.org/abs/1804.04786.
[26]Huang Yufen,Chen Tsungping,Moran N,et al. Identifying expressive semantics in orchestral conducting kinematics[C]// Proc of the 20th International Society for Music Information Retrieval Conference. 2019: 115-122.
[27]Krebs F,Bck S,Widmer G. An efficient state-space model for joint tempo and meter tracking[C]// Proc of the 16th International Society for Music Information Retrieval Conference. 2015: 72-78.
[28]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 770-778.
[29]Bai Shaojie,Kolter J Z,Koltun V. Convolutional sequence modeling revisited[C]// Proc of the 6th International Conference on Learning Representations. [S.l.]: OpenReview.net,2018.
[30]Liu Fan,Chen Delong,Zhou Ruizhi,et al. Self-supervised music motion synchronization learning for music-driven conducting motion generation[J]. Journal of Computer Science and Technology,2022,37(3): 539-558.
[31]Pavllo D,F(xiàn)eichtenhofer C,Grangier D,et al. 3D human pose estimation in video with temporal convolutions and semi-supervised training[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 7753-7762.
[32]Liu Wen,Piao Zhixin,Min Jie,et al. Liquid warping GAN: a unified framework for human motion imitation,appearance transfer and novel view synthesis[C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 5904-5913.