国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多模態(tài)健身運(yùn)動(dòng)知識(shí)圖譜構(gòu)建

2024-10-31 00:00:00余卓成劉心怡李素建趙冰嬋羅文楊彤晨丁立祥宋繼鵬

摘 要 構(gòu)建健身運(yùn)動(dòng)知識(shí)圖譜可以為人們科學(xué)運(yùn)動(dòng)提供直觀便捷的指導(dǎo),對(duì)推動(dòng)健身研究領(lǐng)域的發(fā)展和促進(jìn)人們身體健康具有重要意義。而如何全面獲取科學(xué)健身運(yùn)動(dòng)的多模態(tài)知識(shí),并進(jìn)行系統(tǒng)的關(guān)聯(lián)和集成以及形成多模態(tài)知識(shí)圖譜,目前相關(guān)研究較少,且面臨著諸多挑戰(zhàn)。針對(duì)上述問題,利用自然語(yǔ)言處理、深度學(xué)習(xí)技術(shù)、視覺識(shí)別技術(shù)等,以人機(jī)結(jié)合的方式探索構(gòu)建多模態(tài)科學(xué)健身運(yùn)動(dòng)知識(shí)圖譜。具體步驟包括:1)數(shù)據(jù)選擇和處理,確保知識(shí)圖譜的基礎(chǔ)數(shù)據(jù)可靠且全面;2)設(shè)計(jì)多模態(tài)知識(shí)體系,以整合文字、圖像等多種信息形式;3)運(yùn)用關(guān)鍵技術(shù)獲取知識(shí),特別是將運(yùn)動(dòng)視頻轉(zhuǎn)換為細(xì)粒度運(yùn)動(dòng)文本進(jìn)行描述;4)構(gòu)建可視化平臺(tái),使知識(shí)圖譜更加直觀和易于使用。通過系統(tǒng)地關(guān)聯(lián)和集成多模態(tài)的健身知識(shí),構(gòu)建了一個(gè)包含豐富信息的健身運(yùn)動(dòng)知識(shí)圖譜。該圖譜系統(tǒng)不僅能夠有效地將運(yùn)動(dòng)視頻轉(zhuǎn)換為詳細(xì)的文本描述,還能可視化地直觀展示圖片、視頻等信息,為用戶提供易于理解和使用的科學(xué)運(yùn)動(dòng)指導(dǎo)。多模態(tài)科學(xué)健身運(yùn)動(dòng)知識(shí)圖譜的構(gòu)建,為其在健身方面的應(yīng)用提供了重要參考。這表明,多模態(tài)知識(shí)的獲取和集成是實(shí)現(xiàn)科學(xué)健身指導(dǎo)的重要途徑,能夠有效推動(dòng)健身研究領(lǐng)域的發(fā)展以及促進(jìn)人們的身體健康。

關(guān)鍵詞 多模態(tài)知識(shí)圖譜;知識(shí)獲取;科學(xué)運(yùn)動(dòng)

中圖分類號(hào):G80-05 學(xué)科代碼:040302 文獻(xiàn)標(biāo)志碼:A

DOI:10.14036/j.cnki.cn11-4513.2024.05.002

Abstract Constructing an exercise knowledge graph can provide intuitive and convenient guidance for scienti-fic exercise, significantly contributing to the development of the fitness course and the promotion of public health. However, there are currently few studies on how to comprehensively acquire multi-modal knowledge of scientific exercises and systematically integrate this knowledge to form a multi-modal knowledge graph. This task faces numerous challenges. To address these issues, we explore the construction of a multi-modal scientific fitness exercise knowledge graph using natural language processing, deep learning, and visual recognition techn-ologies in a human-machine collaborative manner. The specific steps include: 1) data selection and processing to ensure the reliability and comprehensiveness of the foundational data for the knowledge graph; 2) designing a multimodal knowledge system to integrate various forms of information, such as text, images, and videos; 3) empl-oying key technologies to acquire knowledge, particularly converting exercise videos into fine-grained textual descriptions; 4) building a visualization platform to make the knowledge graph more intuitive and user-friendly. By systematically relating and integrating multi-modal fitness knowledge, we have successfully constructed a fitness exercise knowledge graph rich in information. This graph not only effectively converts exercise videos into detailed textual descriptions but also intuitively displays the information through a visualization platform, providing users with easy-to-understand and user-friendly scientific exercise guidance. The construction of the multi-modal scientific exercise knowledge graph provides an important reference for the construction and appli-cation of knowledge graphs in the fitness field. This indicates that acquiring and integrating multi-modal knowledge is an essential approach to achieving scientific fitness guidance, which can effectively promote the development of the fitness course and enhance people's health.

Keywords multimodal knowledge graph; knowledge acquisition; scientific exercise

隨著社會(huì)的進(jìn)步和生活水平的提高,體育健身成為人們追求健康生活的主要方式?!度窠∩碛?jì)劃(2021—2025年)》和《關(guān)于構(gòu)建更高水平的全民健身公共服務(wù)體系的意見》等政府文件的發(fā)布和落實(shí),使得體育健身的社會(huì)氛圍愈加濃厚。近年來(lái),國(guó)內(nèi)外學(xué)者也從不同的角度和層次對(duì)科學(xué)健身運(yùn)動(dòng)的理論、技術(shù)等方面進(jìn)行了深入的研究和探討,涉及體育學(xué)、運(yùn)動(dòng)醫(yī)學(xué)、計(jì)算機(jī)等多個(gè)學(xué)科領(lǐng)域,形成了一些有價(jià)值的研究成果[1-3]。然而,如何全面獲取這些科學(xué)健身運(yùn)動(dòng)的相關(guān)知識(shí),并進(jìn)行系統(tǒng)的關(guān)聯(lián)和集成,形成知識(shí)圖譜,目前相關(guān)研究還比較少,面臨著諸多挑戰(zhàn)。

知識(shí)圖譜及其相關(guān)技術(shù)是人工智能知識(shí)工程領(lǐng)域的發(fā)展方向之一。知識(shí)圖譜最初由Google提出,目的是優(yōu)化搜索引擎反饋的結(jié)果和提高用戶搜索質(zhì)量。知識(shí)圖譜構(gòu)建技術(shù)則是利用自然語(yǔ)言處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行加工和分析,從中獲取常識(shí)知識(shí)和領(lǐng)域知識(shí),并用圖狀概念模型來(lái)描述這些知識(shí),從而建構(gòu)真實(shí)世界中的概念及其相互關(guān)系的技術(shù)。知識(shí)圖譜通常分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜。其中:通用知識(shí)圖譜不指向特定領(lǐng)域,會(huì)包含大量常識(shí)知識(shí);而領(lǐng)域知識(shí)圖譜則指向某個(gè)具體的專業(yè)領(lǐng)域,強(qiáng)調(diào)知識(shí)的深度,包括該領(lǐng)域的特色知識(shí)。領(lǐng)域知識(shí)圖譜因具有更實(shí)際的應(yīng)用場(chǎng)景而受到了廣泛的關(guān)注,目前多數(shù)應(yīng)用于電商平臺(tái)、金融、科技情報(bào)、生物醫(yī)藥等相關(guān)領(lǐng)域[4-6],健身運(yùn)動(dòng)方面的知識(shí)圖譜構(gòu)建工作還較為少見。

傳統(tǒng)的知識(shí)圖譜大部分以純文本形式表示,而健身運(yùn)動(dòng)方面有大量圖片、視頻等數(shù)據(jù),其中豐富的多模態(tài)知識(shí)能夠更高效地幫助并指導(dǎo)科學(xué)健身,例如,在視覺模態(tài)中,運(yùn)動(dòng)實(shí)體的位置關(guān)系可以被輕易地識(shí)別。然而,這些多模態(tài)知識(shí)無(wú)法被傳統(tǒng)知識(shí)圖譜所包含。因此,將知識(shí)符號(hào)與文本之外的其他模態(tài)數(shù)據(jù)(如圖像、聲音等)關(guān)聯(lián),即多模態(tài)化,對(duì)科學(xué)健身運(yùn)動(dòng)知識(shí)圖譜的構(gòu)建具有重要意義。近年來(lái),一些多模態(tài)知識(shí)圖譜陸續(xù)出現(xiàn)[7],大部分是在傳統(tǒng)知識(shí)圖譜的基礎(chǔ)上將一部分知識(shí)多模態(tài)化得到的多模態(tài)知識(shí)圖譜,并應(yīng)用于推薦系統(tǒng)[8]、電子商務(wù)[9]、問答系統(tǒng)[10]等垂直領(lǐng)域,然而目前在健身運(yùn)動(dòng)領(lǐng)域還沒有知識(shí)多模態(tài)化的有效實(shí)踐。

構(gòu)建科學(xué)健身運(yùn)動(dòng)多模態(tài)知識(shí)圖譜的工作面臨著諸多挑戰(zhàn),其中,如何有效地獲取高質(zhì)量的多模態(tài)健身運(yùn)動(dòng)數(shù)據(jù)、如何將這些異構(gòu)數(shù)據(jù)進(jìn)行融合并解決模態(tài)之間的不一致性和沖突、如何進(jìn)行有效的跨模態(tài)推理、如何動(dòng)態(tài)地更新知識(shí)圖譜,以及如何處理新出現(xiàn)的模態(tài)數(shù)據(jù)等問題都需要解決。針對(duì)上述挑戰(zhàn),本研究利用自然語(yǔ)言處理與多模態(tài)處理技術(shù)探索構(gòu)建科學(xué)健身運(yùn)動(dòng)多模態(tài)知識(shí)圖譜,文中將介紹該知識(shí)圖譜構(gòu)建的總體方案、描述體系設(shè)計(jì)、知識(shí)獲取技術(shù)等。

1 研究現(xiàn)狀

1.1 多模態(tài)技術(shù)在運(yùn)動(dòng)領(lǐng)域的研究現(xiàn)狀

對(duì)人體運(yùn)動(dòng)的多模態(tài)研究開展已久,并產(chǎn)生了一些成果。這些成果主要研究視覺-文本多模態(tài)學(xué)習(xí)和運(yùn)動(dòng)-文本多模態(tài)學(xué)習(xí)。在視覺-文本多模態(tài)學(xué)習(xí)研究中,分析對(duì)象為包含著人體運(yùn)動(dòng)的圖片或視頻;而在運(yùn)動(dòng)-文本多模態(tài)學(xué)習(xí)研究中,運(yùn)動(dòng)是一種獨(dú)立的模態(tài),可以實(shí)現(xiàn)與文本的對(duì)齊。

構(gòu)建視覺信息與標(biāo)注文本一一對(duì)應(yīng)的數(shù)據(jù)集是視覺-文本多模態(tài)學(xué)習(xí)的基礎(chǔ)。根據(jù)涵蓋范圍不同,現(xiàn)有的視覺數(shù)據(jù)集可以分為通用數(shù)據(jù)集和專業(yè)數(shù)據(jù)集。通用數(shù)據(jù)集規(guī)模較大,廣泛涵蓋各個(gè)主題,如圖像數(shù)據(jù)集COCO、視頻數(shù)據(jù)集MSR-VTT等。這些數(shù)據(jù)集可以為表征學(xué)習(xí)提供豐富的知識(shí),但在人體運(yùn)動(dòng)這一特定領(lǐng)域的任務(wù)上表現(xiàn)不佳。專業(yè)數(shù)據(jù)集只涵蓋某一細(xì)分領(lǐng)域的數(shù)據(jù),適合在特定任務(wù)上改善模型表現(xiàn),如只包含烹飪視頻的Youcook2數(shù)據(jù)集。近年來(lái),有一些研究聚焦于運(yùn)動(dòng)領(lǐng)域?qū)I(yè)數(shù)據(jù)集的構(gòu)建和理解,如籃球賽、足球賽等集體性體育賽事的視頻數(shù)據(jù)集。一項(xiàng)細(xì)粒度運(yùn)動(dòng)視頻描述研究收集了2 000個(gè)籃球比賽視頻,人工標(biāo)注構(gòu)建數(shù)據(jù)集,并建立了自動(dòng)生成比賽場(chǎng)實(shí)況的描述模型[11]。除了人工標(biāo)注之外,還有一些研究使用現(xiàn)存的與視頻匹配的文本構(gòu)建數(shù)據(jù)集,諸如比賽中的解說(shuō)詞或直播平臺(tái)的實(shí)時(shí)評(píng)論[12]。這些研究更側(cè)重于運(yùn)動(dòng)場(chǎng)實(shí)況的整體描述,缺少對(duì)運(yùn)動(dòng)技術(shù)的深入研究。

運(yùn)動(dòng)-文本多模態(tài)學(xué)習(xí)研究包括人體運(yùn)動(dòng)圖像或視頻與文本描述的相互轉(zhuǎn)化等任務(wù)。例如:運(yùn)動(dòng)到文本的轉(zhuǎn)化,即運(yùn)動(dòng)描述任務(wù),指的是給定運(yùn)動(dòng)圖片或視頻數(shù)據(jù),通過模型生成對(duì)該運(yùn)動(dòng)圖片或視頻數(shù)據(jù)的文本描述;文本到運(yùn)動(dòng)的轉(zhuǎn)化,即運(yùn)動(dòng)生成任務(wù),指的是給定文本,通過模型生成符合文本描述的運(yùn)動(dòng)表現(xiàn),并將其可視化為圖片或視頻,有時(shí)會(huì)將運(yùn)動(dòng)的初始狀態(tài)、結(jié)束狀態(tài)或中間狀態(tài)作為約束條件。

人體運(yùn)動(dòng)作為一種單獨(dú)的模態(tài),通常使用姿態(tài)提取獲得模型,并將其轉(zhuǎn)換為相對(duì)于父關(guān)節(jié)旋轉(zhuǎn)角的表現(xiàn)形式[13]。父關(guān)節(jié)是指在骨骼層次結(jié)構(gòu)中位于某個(gè)關(guān)節(jié)(稱為子關(guān)節(jié))上一級(jí)的關(guān)節(jié),決定了子關(guān)節(jié)的參考系。近期的運(yùn)動(dòng)-文本多模態(tài)學(xué)習(xí)模型主要采用編碼器-解碼器結(jié)構(gòu),這些模型通常使用矢量量化變分自編碼器(VQ-VAE),可以將連續(xù)的運(yùn)動(dòng)表現(xiàn)轉(zhuǎn)化為離散的詞元。將運(yùn)動(dòng)表現(xiàn)轉(zhuǎn)化為詞元后,運(yùn)動(dòng)可以被視為一種特殊的語(yǔ)言,運(yùn)動(dòng)和語(yǔ)言之間的跨模態(tài)轉(zhuǎn)換則是一個(gè)機(jī)器翻譯問題[14]。隨著預(yù)訓(xùn)練模型的變化,越來(lái)越多的研究將預(yù)訓(xùn)練模型與運(yùn)動(dòng)-文本模型進(jìn)行結(jié)合。例如:MotionCLIP在訓(xùn)練運(yùn)動(dòng)自編碼器時(shí)將運(yùn)動(dòng)的特征空間與CLIP的特征空間對(duì)齊,使運(yùn)動(dòng)特征和對(duì)應(yīng)的文本、圖片特征相接近[15];MotionGPT將運(yùn)動(dòng)自編碼器獲取的運(yùn)動(dòng)詞元和文本詞元混合,在T5模型的基礎(chǔ)上繼續(xù)預(yù)訓(xùn)練,隨后在現(xiàn)有數(shù)據(jù)集的基礎(chǔ)上建立了一個(gè)運(yùn)動(dòng)-文本的指令數(shù)據(jù)集進(jìn)行指令微調(diào)[16]。以上多模態(tài)技術(shù)都可以用于健身運(yùn)動(dòng)知識(shí)圖譜構(gòu)建。

1.2 知識(shí)圖譜相關(guān)工作

知識(shí)圖譜的概念于2012年出現(xiàn),最初用于優(yōu)化搜索引擎反饋的結(jié)果。隨著相關(guān)技術(shù)的不斷發(fā)展,知識(shí)圖譜作為一種高效的知識(shí)表示形式,逐漸在各領(lǐng)域得到了廣泛的應(yīng)用[17-18]。知識(shí)圖譜可以看作是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),以符號(hào)形式描述物理世界中的概念及其相互關(guān)系,其基本組成單位是實(shí)體及其相關(guān)屬性構(gòu)成的鍵值對(duì),實(shí)體間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)。作為一種結(jié)構(gòu)化的知識(shí),知識(shí)圖譜在學(xué)術(shù)界和工業(yè)界都引起了廣泛的研究關(guān)注[17-18]。

知識(shí)圖譜一般分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜。相較于通用知識(shí)圖譜,領(lǐng)域知識(shí)圖譜指向某一特定領(lǐng)域,專業(yè)性強(qiáng),較有權(quán)威性,知識(shí)表示相對(duì)困難,在構(gòu)建過程中需要專家的深度參與。目前,領(lǐng)域知識(shí)圖譜大多應(yīng)用于互聯(lián)網(wǎng)行業(yè),研究?jī)?nèi)容主要是知識(shí)的獲取和表達(dá)等,而其余研究分布在礦產(chǎn)、汽車制造等行業(yè)。例如:葉帥結(jié)合礦產(chǎn)學(xué)科知識(shí)的組織結(jié)構(gòu),構(gòu)建出煤礦知識(shí)圖譜的本體,形成了煤礦領(lǐng)域知識(shí)圖譜系統(tǒng)[19];魏卉子提出一種煤礦安全概念知識(shí)庫(kù)半自動(dòng)化構(gòu)建方法,為煤礦安全融合知識(shí)圖譜構(gòu)建做了初步探索[20];袁芳怡將定量知識(shí)與定性知識(shí)相結(jié)合,建立了指向制造業(yè)的知識(shí)圖譜[21];許力基于網(wǎng)絡(luò)公開數(shù)據(jù)構(gòu)建了汽車制造領(lǐng)域的知識(shí)圖譜[22]。

隨著多模態(tài)技術(shù)的發(fā)展,多模態(tài)知識(shí)圖譜成為新興研究熱點(diǎn)。根據(jù)不同的構(gòu)建方法,一般將多模態(tài)知識(shí)圖譜分為2類:一類是將其他模態(tài)的數(shù)據(jù)如圖片、視頻視為文本實(shí)體或關(guān)系的屬性;另一類則是將各模態(tài)數(shù)據(jù)均作為獨(dú)立的實(shí)體節(jié)點(diǎn)。在將圖像作為實(shí)體的關(guān)系圖譜中,通常使用視覺模型提取知識(shí)。Neil使用預(yù)訓(xùn)練的分類器為每個(gè)圖像標(biāo)注單一標(biāo)簽,并通過提取實(shí)體位置存在的啟發(fā)式規(guī)則分析視覺關(guān)系[23]。Gaia可以通過目標(biāo)識(shí)別和細(xì)粒度分類提取新聞中的細(xì)粒度概念[24]?;贕aia的框架,Resin可以提取視覺新聞事件的概念,并在小規(guī)模數(shù)據(jù)基礎(chǔ)上將識(shí)別的相關(guān)視覺實(shí)體和概念作為基本元素[25]。

檢索也是多模態(tài)知識(shí)的重要獲取途徑之一。Image-Graph可以將知識(shí)圖譜中的實(shí)體作為查詢條件,在搜索引擎中搜索圖像[26]。在此基礎(chǔ)上,通過MMKG在多個(gè)知識(shí)圖譜中對(duì)準(zhǔn)實(shí)體。為了使檢索獲取的圖像盡可能全面地反映實(shí)體[27],圖像的多樣性十分重要。因此,Richpedia訓(xùn)練了一個(gè)額外的多樣性檢索模型來(lái)選擇多樣化的圖像,但其中的實(shí)體類別僅限于城市、景點(diǎn)和人物[28]。此外,有研究者認(rèn)為,許多抽象實(shí)體無(wú)法可視化,所以應(yīng)從最典型的可視化實(shí)體開始,迭代地挖掘其他相關(guān)的可視實(shí)體[29],然而Visual Sem的規(guī)模也遠(yuǎn)遠(yuǎn)不能滿足下游應(yīng)用的知識(shí)需求。由此可見,為了滿足下游應(yīng)用的需求,需要從不斷增長(zhǎng)的海量互聯(lián)網(wǎng)數(shù)據(jù)中自動(dòng)獲取知識(shí)。而如何自動(dòng)而有效地獲取多模態(tài)數(shù)據(jù),并從數(shù)據(jù)中識(shí)別多模態(tài)的實(shí)體、實(shí)體間關(guān)系以及實(shí)體的屬性值,是一個(gè)極具挑戰(zhàn)性的問題。

2 健身運(yùn)動(dòng)知識(shí)圖譜構(gòu)建總體方案

本研究中構(gòu)建的多模態(tài)健身運(yùn)動(dòng)知識(shí)圖譜,不僅可以作為知識(shí)庫(kù)服務(wù)于運(yùn)動(dòng)姿態(tài)糾正等任務(wù),還能夠直接面向大眾,為大眾運(yùn)動(dòng)健身提供有效指導(dǎo)。因此,知識(shí)圖譜應(yīng)當(dāng)包含便于人類理解的細(xì)粒度描述文本,同時(shí)結(jié)合多模態(tài)信息,如圖片、視頻等,將運(yùn)動(dòng)技術(shù)直觀可視化。基于以上考慮,本研究設(shè)計(jì)了健身運(yùn)動(dòng)多模態(tài)知識(shí)圖譜構(gòu)建的整體流程,如圖1所示。首先,針對(duì)科學(xué)健身運(yùn)動(dòng)技術(shù)指導(dǎo)和主動(dòng)健康知識(shí)的檢索和推介需求,研究多模態(tài)知識(shí)圖譜知識(shí)0SdmY07ZUQh4P5k4DU7Y7u15+gawikITTUkzQQ6XwNk=體系的分類規(guī)范。在知識(shí)體系規(guī)范的基礎(chǔ)上,獲取相關(guān)的多模態(tài)健身運(yùn)動(dòng)技術(shù)數(shù)據(jù),并研發(fā)健身運(yùn)動(dòng)知識(shí)、健身實(shí)體屬性和健身實(shí)體之間關(guān)系的知識(shí)抽取技術(shù),將這些知識(shí)進(jìn)行融合建立知識(shí)圖譜庫(kù),最后將科學(xué)健身運(yùn)動(dòng)技術(shù)知識(shí)圖譜可視化呈現(xiàn),從而可以滿足健身運(yùn)動(dòng)知識(shí)檢索和推介的需求。

具體而言,首先在理論層面結(jié)合體育專家和運(yùn)動(dòng)醫(yī)學(xué)專家的指導(dǎo)及專業(yè)知識(shí),梳理和設(shè)計(jì)多模態(tài)健身運(yùn)動(dòng)知識(shí)體系。為了高效獲取大量的、高質(zhì)量的多模態(tài)標(biāo)注數(shù)據(jù),可以使用機(jī)器學(xué)習(xí)方法和大語(yǔ)言模型輔以專家校對(duì)進(jìn)行標(biāo)注,從而加深知識(shí)圖譜構(gòu)建的自動(dòng)化程度。在多模態(tài)知識(shí)圖譜的構(gòu)建過程中,通過實(shí)體抽取、關(guān)系抽取和屬性抽取可以逐步遞進(jìn)地提取與健身運(yùn)動(dòng)技術(shù)相關(guān)的知識(shí)。其次是基于科學(xué)健身運(yùn)動(dòng)技術(shù)的知識(shí)檢索和智能推薦等需求,搭建知識(shí)圖譜可視化平臺(tái),對(duì)科學(xué)運(yùn)動(dòng)健身多模態(tài)知識(shí)圖譜進(jìn)行可視化展示。

3 健身運(yùn)動(dòng)知識(shí)描述體系設(shè)計(jì)

當(dāng)前,體育運(yùn)動(dòng)領(lǐng)域的知識(shí)體系并沒有一個(gè)統(tǒng)一的規(guī)范,所以在設(shè)計(jì)健身運(yùn)動(dòng)知識(shí)圖譜的描述體系時(shí),從實(shí)用角度出發(fā),參考現(xiàn)在主流的運(yùn)動(dòng)知識(shí)分類標(biāo)準(zhǔn),綜合考慮健身人群、健身方式、身體機(jī)能、運(yùn)動(dòng)損傷等因素,以運(yùn)動(dòng)技術(shù)為核心,以促進(jìn)全民健身為目標(biāo),選擇了力量訓(xùn)練、瑜伽、球類運(yùn)動(dòng)等運(yùn)動(dòng)類型,構(gòu)建科學(xué)健身運(yùn)動(dòng)知識(shí)圖譜。

知識(shí)圖譜可以視為結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),主要用符號(hào)描述物理世界中的概念及其相互關(guān)系,知識(shí)表示形式通常為(實(shí)體-關(guān)系-實(shí)體)和(實(shí)體-屬性-屬性值)2類。本研究依據(jù)前人的工作也把知識(shí)圖譜定義為一個(gè)有向圖,可以形式化為六元組:G=<E,R,A,V,TR,TA>。其中:E表示實(shí)體集合;R表示關(guān)系;A表示屬性集合;V表示屬性值集合;TR=E×R×E表示實(shí)體關(guān)系三元組集合;TA=E×A×V表示實(shí)體屬性值三元組集合。在對(duì)實(shí)體進(jìn)行多模態(tài)化時(shí),可以在知識(shí)圖譜中融入圖片、視頻等多模態(tài)知識(shí)。

為了更好地定義和描述科學(xué)運(yùn)動(dòng)健身知識(shí),本研究根據(jù)不同的健身運(yùn)動(dòng)的特點(diǎn)設(shè)計(jì)了知識(shí)圖譜的本體,定義了實(shí)體的種類、每個(gè)種類的實(shí)體具有的屬性、實(shí)體之間的關(guān)系集合等。以健身運(yùn)動(dòng)為例,構(gòu)建多模態(tài)知識(shí)圖譜的體系,如圖2所示,針對(duì)健身運(yùn)動(dòng)的特點(diǎn),以及根據(jù)需要在知識(shí)圖譜中融入多模態(tài)知識(shí)的要求,定義如表1所示的實(shí)體類型。

采用將圖片、視頻等其他模態(tài)單獨(dú)作為實(shí)體節(jié)點(diǎn)的方式構(gòu)建知識(shí)圖譜,一方面可以確保不同模態(tài)具有同等作用,使知識(shí)圖譜能夠表示不同模態(tài)知識(shí)之間的關(guān)系,另一方面可以避免不同模態(tài)直接融合的錯(cuò)誤。對(duì)于不同類型的運(yùn)動(dòng),主要運(yùn)動(dòng)實(shí)體也會(huì)有所變化,如瑜伽和球類運(yùn)動(dòng),其身體部位是重要的運(yùn)動(dòng)實(shí)體,而肌肉不是主要的運(yùn)動(dòng)實(shí)體。

基于上述運(yùn)動(dòng)實(shí)體的定義,針對(duì)健身運(yùn)動(dòng)界定運(yùn)動(dòng)實(shí)體之間的關(guān)系,見表2。

需要注意的是,這些實(shí)體和關(guān)系類型用于指導(dǎo)自動(dòng)獲取知識(shí),在知識(shí)獲取過程中,也會(huì)進(jìn)一步調(diào)整知識(shí)類型。

4 健身運(yùn)動(dòng)知識(shí)獲取技術(shù)

4.1 數(shù)據(jù)來(lái)源

為了確保所獲取知識(shí)的專業(yè)性和廣泛性,需要采集多種來(lái)源的數(shù)據(jù),由于結(jié)構(gòu)化數(shù)據(jù)很難得到,一般只能獲得半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)。其中:半結(jié)構(gòu)化數(shù)據(jù)來(lái)源于百科、專業(yè)運(yùn)動(dòng)健身網(wǎng)站等信息發(fā)布網(wǎng)站,這些網(wǎng)站已經(jīng)對(duì)知識(shí)進(jìn)行了歸納和整理,實(shí)現(xiàn)了一定的結(jié)構(gòu)化,相對(duì)容易從中獲取需要的運(yùn)動(dòng)知識(shí);非結(jié)構(gòu)化數(shù)據(jù)則來(lái)源于書籍、論文、公開的健身運(yùn)動(dòng)網(wǎng)頁(yè)等,如《力量訓(xùn)練與運(yùn)動(dòng)機(jī)能強(qiáng)化指導(dǎo)》《美國(guó)國(guó)家體能協(xié)會(huì)力量訓(xùn)練指南》《老年人運(yùn)動(dòng)健身指南》。與此同時(shí),還拍攝和錄制了一些專業(yè)化的運(yùn)動(dòng)動(dòng)作,以確保獲得高質(zhì)量的圖片、視頻等多模態(tài)數(shù)據(jù)。對(duì)于半結(jié)構(gòu)化數(shù)據(jù),根據(jù)數(shù)據(jù)源的結(jié)構(gòu)解析數(shù)據(jù),利用前文定義的運(yùn)動(dòng)本體框架即可提取所需知識(shí)。對(duì)于非結(jié)構(gòu)化數(shù)據(jù),則需要應(yīng)用自然語(yǔ)言處理技術(shù)、大語(yǔ)言模型技術(shù)等自動(dòng)獲取知識(shí)。

4.2 基于文本的知識(shí)獲取技術(shù)

非結(jié)構(gòu)化文本是多模態(tài)知識(shí)圖譜構(gòu)建的重要數(shù)據(jù)來(lái)源之一,而構(gòu)建的核心在于從其中進(jìn)行知識(shí)獲取。命名實(shí)體識(shí)別和關(guān)系分類是知識(shí)獲取的基礎(chǔ)任務(wù)。命名實(shí)體識(shí)別(NER)是指識(shí)別文本中的實(shí)體,并判斷其類型。通常最簡(jiǎn)單的方式是利用規(guī)則得到文本中的實(shí)體,需要針對(duì)不同領(lǐng)域總結(jié)不同的規(guī)則,從而導(dǎo)致實(shí)體識(shí)別的召回率偏低。同時(shí),實(shí)體在文中的表現(xiàn)形式也非常靈活,可以為扁平實(shí)體、嵌套實(shí)體和不連續(xù)實(shí)體[30-31]。例如,在“引體向上主要是練習(xí)背闊肌外側(cè)和上側(cè)”的文本中,“引體向上”為扁平實(shí)體,但是“背闊肌”和“背闊肌外側(cè)”同為身體部位,是2個(gè)嵌套的實(shí)體,“背闊肌上側(cè)”則為不連續(xù)實(shí)體。近年來(lái),研究者通常用序列到序列生成式方法統(tǒng)一識(shí)別各種實(shí)體類型[32],即輸入要分析的語(yǔ)句,直接輸出若干個(gè)實(shí)體名稱及其類型。使用生成式方法識(shí)別命名實(shí)體一般存在訓(xùn)練和預(yù)測(cè)目標(biāo)不一致的問題,訓(xùn)練使用交叉熵?fù)p失函數(shù),而預(yù)測(cè)指標(biāo)卻是準(zhǔn)確率、召回率和F1,兩者之間存在差異。為了解決這個(gè)問題,本研究采用了一種基于重排序的序列似然校正方法[33],基于對(duì)比學(xué)習(xí)根據(jù)模型生成的候選項(xiàng)質(zhì)量來(lái)校準(zhǔn)模型的輸出,可以改善模型生成效果,增強(qiáng)實(shí)體識(shí)別的性能。在對(duì)文本完成實(shí)體識(shí)別、得到實(shí)體之后,關(guān)系分類能夠判斷一對(duì)實(shí)體之間的關(guān)系類型。如上例所示,“引體向上”和“背闊肌上側(cè)”已經(jīng)被識(shí)別為實(shí)體,需要判斷兩者為“鍛煉”關(guān)系。運(yùn)動(dòng)領(lǐng)域的標(biāo)注資源有限,難以使用監(jiān)督學(xué)習(xí)方法。一種可能的方式是直接使用句法分析,通過分析句子結(jié)構(gòu)并根據(jù)預(yù)定義規(guī)則判斷實(shí)體關(guān)系,但句法分析規(guī)則的局限性影響了關(guān)系分類的正確性??紤]到大語(yǔ)言模型在文本處理上的突出作用,嘗試使用大語(yǔ)言模型上下文學(xué)習(xí)方法對(duì)關(guān)系類型進(jìn)行標(biāo)注。由于不同運(yùn)動(dòng)類型的關(guān)系類型具有較大差異,大模型需要持續(xù)學(xué)習(xí)不同運(yùn)動(dòng)類型中的關(guān)系知識(shí),這容易導(dǎo)致災(zāi)難性遺忘問題。對(duì)此,本研究使用了基于解釋增強(qiáng)的增量式關(guān)系識(shí)別方法,運(yùn)用大語(yǔ)言模型對(duì)數(shù)據(jù)集中的關(guān)系分類樣本標(biāo)注解釋,通過知識(shí)蒸餾將大語(yǔ)言模型的推理能力遷移到持續(xù)學(xué)習(xí)的小模型中,該方法在公開數(shù)據(jù)集上的準(zhǔn)確率可達(dá)到80%以上[34]。

4.3 基于多模態(tài)的知識(shí)獲取技術(shù)

為了給用戶提供更為直觀的運(yùn)動(dòng)指導(dǎo),本研究中的知識(shí)圖譜融入了大量的多模態(tài)信息,這需要針對(duì)多個(gè)模態(tài)的數(shù)據(jù)來(lái)源進(jìn)行知識(shí)獲取技術(shù)的研究,如圖片、視頻等??紤]到部分的數(shù)據(jù)來(lái)源于網(wǎng)絡(luò),其形式為帶有圖片的文本,所以以下重點(diǎn)介紹結(jié)合圖片的多模態(tài)命名實(shí)體識(shí)別和關(guān)系抽取技術(shù)。同時(shí),由于獲取的很多運(yùn)動(dòng)視頻缺少對(duì)運(yùn)動(dòng)技術(shù)的詳細(xì)文字描述,以下將介紹運(yùn)動(dòng)視頻到細(xì)粒度運(yùn)動(dòng)文本描述的生成技術(shù)。

4.3.1 多模態(tài)信息抽取

給定一段與運(yùn)動(dòng)相關(guān)的非結(jié)構(gòu)化文本,相比直接對(duì)文本進(jìn)行知識(shí)抽取以及引入與該文本直接相關(guān)的圖像信息作為輔助信息,有助于模型更好地從中識(shí)別運(yùn)動(dòng)相關(guān)的實(shí)體,或進(jìn)行實(shí)體間的關(guān)系分類?,F(xiàn)有的方法主要側(cè)重于圖像和文本之間的直接交互,這種方法會(huì)同時(shí)受到語(yǔ)義間隔和模態(tài)間隔的影響。為了解決這個(gè)問題,本研究采用了一種基于夏普利值的對(duì)比對(duì)齊方法,捕捉圖像與文本對(duì)之間的語(yǔ)義和模態(tài)關(guān)系,從中獲得連貫有效的多模態(tài)表征,從而增強(qiáng)抽取多模態(tài)信息的功能。模型的整體架構(gòu)如圖3所示。

將任務(wù)的輸入設(shè)定為一段文本t={t1,…,tnt}以及對(duì)應(yīng)的圖片I,使用預(yù)訓(xùn)練的大規(guī)模多模態(tài)模型對(duì)圖片生成描述c={c1,…,cnc}。該描述將作為方法中的重要中間橋梁,通過描述-文本和描述-圖片的對(duì)齊彌補(bǔ)文本與圖片之間的語(yǔ)義間隔和模態(tài)間隔。之后,使用預(yù)訓(xùn)練的語(yǔ)言模型和視覺模型對(duì)文本、描述及圖片進(jìn)行編碼,表示為下式:

xt,Ht,xc,Hc=Transformer([t;c] ) 1);

xv,Hv=ImageEncoder(I) 2)。

下一步,使用夏普利值進(jìn)行描述-文本和描述-圖片的對(duì)齊。夏普利值源于合作博弈論[35],其是根據(jù)參與者各自在合作中的邊際貢獻(xiàn),為參與者之間的總收益公平分配提供一種解決方案。在合作游戲中,假設(shè)有k個(gè)玩家,玩家集合表示為K={1,…,k},使用效用函數(shù)u:2k→R表示每個(gè)子集的玩家分配獎(jiǎng)勵(lì)。玩家i的夏普利值計(jì)算公式如下:

?準(zhǔn)i(u)=sK\{i})[u(S∪{i} )-u(S) ] 3)。

以描述-文本對(duì)齊為例解釋對(duì)齊的過程。具體為:輸入k個(gè)描述-文本對(duì){(xac,xat ) }ka=1,首先將k個(gè)描述視為玩家K={1,…,k},將某個(gè)描述集合S(由若干描述組成,為K的一個(gè)子集)對(duì)文本xjt的語(yǔ)義貢獻(xiàn)定義為下式:

uj (S)=∑i∈Spisim(x jt,xic) 4);

pi= 5)。

有了如上定義后,可使用蒙特卡洛方法得到所有描述的夏普利值的近似{(uj),…,k(uj) }。使用對(duì)比學(xué)習(xí)的方法,最大化描述對(duì)齊對(duì)應(yīng)的文本的邊緣語(yǔ)義貢獻(xiàn),進(jìn)而同時(shí)最小化描述對(duì)其他非匹配文本的語(yǔ)義貢獻(xiàn)。定義損失函數(shù)如下式:

Lc2t=-∑k j=1[j (uj)-∑i≠jj (uj)] 6)。

同理,可將所有的k個(gè)文本視為玩家,得到損失函數(shù)Lt2c,并定義語(yǔ)義對(duì)齊的損失函數(shù)如下式:

Lsemantic=(Lc2t+Lt2c) 7)。

類似地,進(jìn)行描述-圖片對(duì)齊,損失函數(shù)如下式:

Lmodality=(Lc2v+Lv2c) 8)。

為了進(jìn)行更為精細(xì)的跨模態(tài)融合,本研究設(shè)計(jì)了一種自適應(yīng)注意力融合模塊,該模塊可根據(jù)2種模態(tài)的不同特征以及連接它們的上下文的相關(guān)性動(dòng)態(tài)權(quán)衡不同特征在2種模態(tài)中產(chǎn)生的影響,從而增強(qiáng)實(shí)體識(shí)別和關(guān)系抽取的功能。

4.3.2 運(yùn)動(dòng)視頻到細(xì)粒度文本生成技術(shù)

在圖譜構(gòu)建的過程中,本研究將運(yùn)動(dòng)視頻作為獨(dú)立的實(shí)體,并從網(wǎng)絡(luò)中收集了大量的運(yùn)動(dòng)視頻,但其中很多運(yùn)動(dòng)視頻沒有相應(yīng)的文字描述,這會(huì)對(duì)用戶精確地掌握運(yùn)動(dòng)動(dòng)作造成困擾。為此,本研究構(gòu)建了細(xì)粒度人體運(yùn)動(dòng)視頻描述任務(wù)的對(duì)應(yīng)數(shù)據(jù)集,并提出了一種使用大語(yǔ)言模型的解決方案。具體是:通過三維人體姿態(tài)識(shí)別技術(shù)捕捉視頻中人體的姿態(tài),并將姿態(tài)轉(zhuǎn)換為視頻與文本之間的中間表示;隨后使用少樣本學(xué)習(xí)方法,命令大語(yǔ)言模型根據(jù)示例樣本和給定的中間表示生成人體動(dòng)作的細(xì)粒度描述。方法的整體結(jié)構(gòu)如圖4所示。

首先,使用MotionBERT[36]從給定視頻中提取三維人體運(yùn)動(dòng)信息。MotionBERT既可以確定每幀中人體骨骼關(guān)鍵點(diǎn)的三維坐標(biāo),也可以計(jì)算關(guān)節(jié)圍繞運(yùn)動(dòng)樹上父關(guān)節(jié)的局部旋轉(zhuǎn)。獲得人體關(guān)節(jié)三維坐標(biāo)和局部旋轉(zhuǎn)后,得到如下2種表示方式作為視頻和描述文本的中間表示。

1)夾角表示。該方法假設(shè)人體的肢體為剛體,并直接計(jì)算人體不同肢體對(duì)之間的夾角。首先,定義一種人體坐標(biāo)系統(tǒng)。將右髖至左髖的方向定義為Y軸,骨盆中心至腰椎的方向定義為Z軸,垂直于Y軸和Z軸方向定義為X軸。隨后根據(jù)關(guān)節(jié)的自由度將人體的關(guān)節(jié)分為2類,如果關(guān)節(jié)只有一個(gè)自由度,則計(jì)算關(guān)節(jié)連接的兩部分肢體之間的夾角;在其他情況下,計(jì)算肢體相對(duì)于人體坐標(biāo)系各坐標(biāo)軸的夾角。此外,使用人體相對(duì)于全局坐標(biāo)系的跳躍、旋轉(zhuǎn)和平移建模運(yùn)動(dòng)。

2)泰特布萊恩角表示。泰特布萊恩角也稱為ZYX歐拉角,將3D坐標(biāo)中的旋轉(zhuǎn)表示為圍繞z軸,y軸,x軸的3個(gè)連續(xù)旋轉(zhuǎn)。首先從MotionBERT中得到關(guān)節(jié)旋轉(zhuǎn)的四元數(shù)表示[36]q=[q ]T,根據(jù)相關(guān)研究[37],將其轉(zhuǎn)換為泰特布萊恩角表示為下式:

?準(zhǔn)=arctan2(q-(q21+q22)) 9);

θ=arcsin(-)) 10);

ψ=arctan2(q(q22+q23))11)。

對(duì)第i個(gè)視頻的第t幀,使用上式計(jì)算所有關(guān)節(jié)的泰特布萊恩角Li,t∈R16×3。同時(shí),取根節(jié)點(diǎn)(骨盆)在全局坐標(biāo)系中的旋轉(zhuǎn)作為全局信息gi,t=[xr,yr,zr],將它們拼接后得到當(dāng)前時(shí)刻的中間表示為:Ri,t=[gi,t,Li,t]。

憑借預(yù)訓(xùn)練大語(yǔ)言模型的上下文學(xué)習(xí)能力3eC9Un0krmKkHR+gkaJWhQ==,分別根據(jù)以上2種中間表示設(shè)計(jì)提示詞,生成視頻描述。對(duì)于零樣本場(chǎng)景,提示詞由中間表示含義的描述(c)、任務(wù)提示(q)、注意事項(xiàng)說(shuō)明(n)和各時(shí)刻中間表示序列(Ri)組成,可以表示為: Pi=[c,q,n,Ri] 。

對(duì)于單樣本學(xué)習(xí),在零樣本提示詞的基礎(chǔ)上另外添加樣例R0和I0,表示為: Pi=[c,q,n,R0,I0,Ri]。

將提示詞輸入大語(yǔ)言模型,即可運(yùn)用大語(yǔ)言模型生成細(xì)粒度的視頻描述文本,表示為=LLM(Pi) 。

最后,把生成的視頻描述作為圖譜中視頻的屬性,豐富圖譜內(nèi)容。

5 健身運(yùn)動(dòng)知識(shí)圖譜平臺(tái)

為了便于用戶檢索知識(shí)圖譜的內(nèi)容、了解健身運(yùn)動(dòng)知識(shí),本研究設(shè)計(jì)并研發(fā)了知識(shí)圖譜可視化平臺(tái)。

首先,該展示平臺(tái)采用了前后端分離框架,后端使用了MySQL數(shù)據(jù)庫(kù)和Neo4j圖數(shù)據(jù)庫(kù),完成了數(shù)據(jù)和知識(shí)的增刪查改等工作,并向前端提供API接口,前端接受后端Json數(shù)據(jù)對(duì)圖譜進(jìn)行展示。該平臺(tái)在部署階段使用了Docker容器,顯著減少了運(yùn)維調(diào)試的成本。

其次,該平臺(tái)界面分為“功能區(qū)”“檢索區(qū)”“展示區(qū)”3個(gè)部分。在“功能區(qū)”,用戶將看到本軟件具有的功能的入口。在“檢索區(qū)”,實(shí)體和關(guān)系按照不同的分類標(biāo)準(zhǔn)形成層級(jí)的樹形結(jié)構(gòu)。用戶可在期望的分類下查詢或搜索所需要的實(shí)體和關(guān)聯(lián)知識(shí)。在“展示區(qū)”,該平臺(tái)將對(duì)用戶所選實(shí)體和相關(guān)關(guān)系進(jìn)行展示?;谝陨?,用戶可以用鼠標(biāo)拖動(dòng)實(shí)體節(jié)點(diǎn),查看圖譜的任意部分,還可以點(diǎn)擊實(shí)體節(jié)點(diǎn),查看實(shí)體的屬性信息。對(duì)于視頻和圖片節(jié)點(diǎn),用戶點(diǎn)擊該實(shí)體節(jié)點(diǎn)后,可以對(duì)視頻或圖片進(jìn)行展示,還可以雙擊某個(gè)實(shí)體節(jié)點(diǎn),對(duì)該實(shí)體的圖的結(jié)構(gòu)進(jìn)行擴(kuò)展,可以圍繞該實(shí)體展示與該實(shí)體相關(guān)的知識(shí)。此外,該平臺(tái)支持將查詢結(jié)果以Json格式進(jìn)行導(dǎo)出和對(duì)知識(shí)圖譜的增、刪、改等操作。

6 結(jié)束語(yǔ)

科學(xué)健身運(yùn)動(dòng)多模態(tài)知識(shí)圖譜的構(gòu)建工作剛剛起步,本研究介紹了該知識(shí)圖譜構(gòu)建的總體方案、知識(shí)獲取技術(shù)、多模態(tài)技術(shù)等。未來(lái)工作將繼續(xù)針對(duì)不同的健身運(yùn)動(dòng)類型,采用數(shù)據(jù)驅(qū)動(dòng)的方法,利用自然語(yǔ)言處理、大語(yǔ)言模型、數(shù)據(jù)挖掘等技術(shù)進(jìn)一步改進(jìn)多模態(tài)實(shí)體和關(guān)聯(lián)知識(shí)的抽取,逐步完善科學(xué)運(yùn)動(dòng)健身知識(shí)圖譜平臺(tái)。同時(shí)需要考慮百科知識(shí)等外部知識(shí)數(shù)據(jù),研究實(shí)體鏈接和對(duì)齊等技術(shù)與已有領(lǐng)域圖譜知識(shí)的關(guān)聯(lián)。

參考文獻(xiàn):

[1] CHENG K, GUO Q, HE Y, et al. Artificial intelligence in sports medicine: Could GPT-4 make human doctors obsolete?[J]. Annals of Biomedical Engineering, 2023, 51(8): 1658-1662.

[2] SONG H, MONTENEGRO-MARIN C E, KRISHNAMOORTHY S. Secure prediction and assessment of sports injuries using deep learning based convolutional neural network[J]. Journal of Ambient Intelligence and Humanized Computing, 2021, 12: 3399-3410.

[3] NAIK B T, HASHMI M F, BOKDE N D. A comprehensive revi-ew of computer vision in sports: Open issues, future VjgHDkMHhwSJ/8unFqWSyA==trends and research directions[J]. Applied Sciences, 2022, 12(9): 4429.

[4] BAKAL G, TALARI P, KAKANI E V, et al. Exploiting semanti-c patterns over biomedical knowledge graphs for predicting treatment and causative relations[J]. Journal of Biomedical Info-rmatics, 2018, 82: 189-199.

[5] TENNAKOON C, ZAKI N, ARNAOUT H, et al. Leveraging biomedical and healthcare data[M]. New York: Academic Press, 2019: 107-120.

[6] VLIETSTRA W J, ZIELMAN R, VAN DONGEN R M, et al. Automated extraction of potential migraine biomarkers using a semantic graph[J]. Journal of Biomedical Informatics, 2017, 71: 178-189.

[7] ZHU X, LI Z, WANG X, et al. Multi-modal knowledge graph construction and application: a survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 36(2): 715-735.

[8] SUN R, CAO X, ZHAO Y, et al. Multi-modal knowledge graphs for recommender systems[C]//Proceedings of the 29th ACM international conference on information & knowledge managem-ent. New York: Association for Computing Machinery, 2020: 1405-1414.

[9] XU G, CHEN H, LI F L, et al. Alime mkg: A multi-modal knowledge graph for live-streaming e-commerce[C]//Proceedi-ngs of the 30th ACM International Conference on Information & Knowledge Management. New York: Association for Computing Machinery, 2021: 4808-4812.

[10] LI M, ZAREIAN A, LIN Y, et al. Gaia: A fine-grained multim-edia knowledge extraction system[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. Stroudsburg: ACL, 2020: 77-86.

[11] YU H, CHENG S, NI B, et al. Fine-grained video captioning for sports narrative[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 6006-6015.

[12] SUGLIA A, LOPES J, BASTIANELLI E, et al. Going for GOAL: A resource for grounded football commentaries[Z/OL]. (2022-11-08)[2024-02-15]. https://arxiv.org/abs/2211.04534.

[13] KANG H, LI Y, LIU D, et al. Human kinematics modeling and simulation based on OpenSim[C]//2021 International Confere-nce on Control, Automation and Information Sciences (ICCAIS). Piscataway: IEEE, 2021: 644-649.

[14] GUO C, ZUO X, WANG S, et al. Tm2t: Stochastic and tokeniz-ed modeling for the reciprocal generation of 3d human motions and texts[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 580-597.

[15] TEVET G, GORDON B, HERTZ A, et al. Motionclip: Exposing human motion generation to clip space[C]//European Confere-nce on Computer Vision. Cham: Springer Nature Switzerland, 2022: 358-374.

[16] JIANG B, CHEN X, LIU W, et al. MotionGPT: Human motion as a foreign language[Z/OL]. (2023-07-20)[2024-02-15] https://arxiv.org/abs/2306.14795.

[17] DONG X, GABRILOVICH E, HEITZ G, et al. Knowledge vault: A web-scale approach to probabilistic knowledge fusion[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: Association for Computing Machinery, 2014: 601-610.

[18] NICKEL M, MURPHY K, TRESP V, et al. A review of relationa-l machine learning for knowledge graphs[C]//Proceedings of the IEEE. Piscataway: IEEE, 2015, 104(1): 11-33.

[19] 葉帥. 基于Neo4j的煤礦領(lǐng)域知識(shí)圖譜構(gòu)建及查詢方法研究[D]. 徐州:中國(guó)礦業(yè)大學(xué),2019:1-81.

[20] 魏卉子. 煤礦安全融合知識(shí)圖譜構(gòu)建研究[D]. 徐州:中國(guó)礦業(yè)大學(xué),2020:1-88.

[21] 袁芳怡. 面向制造業(yè)的知識(shí)圖譜表示模型與構(gòu)建技術(shù)研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2019:1-63.

[22] 許力. 汽車智能客戶服務(wù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 綿陽(yáng):西南科技大學(xué),2020:1-66.

[23] CHEN X, SHRIVASTAVA A, GUPTA A. Neil: Extracting vis-ual knowledge from web data[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE, 2013: 1409-1416.

[24] LI M, ZAREIAN A, LIN Y, et al. Gaia: A fine-grained multim-edia knowledge extraction system[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. Stroudsburg: ACL, 2020: 77-86.

[25] WEN H, LIN Y, LAI T, et al. Resin: A dockerized schema-guided cross-document cross-lingual cross-media information extrac-tion and event tracking system[C]//Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies( Demonstrations). Stroudsburg: ACL, 2021: 133-143.

[26] ORO-RUBIO D, NIEPERT M, GARCA-DURN A, et al. Answering visual-relational queries in web-extracted knowledge graphs[Z/OL]. (2019-05-03)[2024-02-15]. https://arxiv.org/abs/1709.02314.

[27] LIU Y, LI H, GARCIA-DURAN A, et al. MMKG: multi-modal knowledge graphs[C]//The Semantic Web: 16th International Conference, ESWC 2019. Cham: Springer International Publis-hing, 2019: 459-474.

[28] WANG M, WANG H, QI G, et al. Richpedia: A large-scale, comprehensive multi-modal knowledge graph[J]. Big Data Research, 2020, 22: 1-11.

[29] ALBERTS H, HUANG T, DESHPANDE Y, et al. Visual Sem: A high-quality knowledge graph for vision and language[Z/OL]. (2021-10-20)[2024-02-15] .&nbsp; https://arxiv.org/abs/2008.09150.

[30] LI J, FEI H, LIU J, et al. Unified named entity recognition as word-word relation classification[Z/OL]. (2021-12-19)[2024-02-16]. https://arxiv.org/abs/2112.10070.

[31] YAN H, GUI T, DAI J, et al. A unified generative framework for various NER subtasks[Z/OL]. (2021-06-02)[2024-02-16]. https://arxiv.org/abs/2106.01223.

[32] LU Y, LIU Q, DAI D, et al. Unified structure generation for un-iversal information extraction[Z/OL]. (2022-03-23)[2024-02-17]. https://arxiv.org/abs/2203.12277.

[33] XIA Y, ZHAO Y, WU W, et al. Debiasing generative named entity recognition by calibrating sequence likelihood[C]//Proc-eedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Stroudsb-urg: ACL, 2023: 1137-1148.

[34] XIONG W, SONG Y, WANG P, et al. Rationale-enhanced language models are better continual relation learners[Z/OL].(2023-10-10)[2024-02-17]. https://arxiv.org/abs/2310.06547.

[35] DUBEY P. On the uniqueness of the shapley value[J]. Intern-ational Journal of Game Theory, 1975, 4(3): 131-139.

[36] ZHU W, MA X, LIU Z, et al. Motionbert: A unified perspective on learning human motion representations[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2023: 15085-15099.

[37] BERNER P, TOMS R, TROTT K, et al. Technical concepts: Orientation, rotation, velocity and acceleration, and the SRM[S/OL].[S.I.]:[s.n], 2008: 39[2023-12-15]. https//sedris.org/wg8home/document.htm.

万载县| 马关县| 肥东县| 五河县| 南和县| 麟游县| 峡江县| 大厂| 无为县| 陇南市| 大余县| 阆中市| 宣化县| 抚顺市| 姜堰市| 厦门市| 西平县| 庆云县| 曲麻莱县| 肥乡县| 温州市| 涡阳县| 会昌县| 桐城市| 丰宁| 澄迈县| 瑞昌市| 沧州市| 南华县| 武胜县| 彭州市| 进贤县| 于田县| 武定县| 上饶县| 曲水县| 达拉特旗| 宜丰县| 常山县| 古交市| 灵武市|