国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

詞序視角下學(xué)術(shù)文本關(guān)鍵詞分布特征及其差異研究*

2022-08-23 08:40靳嘉林王曰芬曹嘉君
情報(bào)雜志 2022年8期
關(guān)鍵詞:詞序選詞學(xué)術(shù)論文

王 琦 靳嘉林 王曰芬 曹嘉君

(1. 南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院 南京 210094;2. 天津師范大學(xué)管理學(xué)院 天津 300387)

0 引 言

學(xué)術(shù)文本是記錄科研成果和科學(xué)知識的載體[1],有學(xué)術(shù)論文、學(xué)位論文、科學(xué)技術(shù)報(bào)告等形式。而關(guān)鍵詞作為表述學(xué)術(shù)文本的中心內(nèi)容有實(shí)質(zhì)意義的代表詞匯[2],既反映研究成果的核心內(nèi)容和方法[3],又揭示科研內(nèi)容之間的內(nèi)在聯(lián)系、學(xué)術(shù)研究的方向,更為檢索提供了重要手段[4]。

隨著我國科學(xué)研究能力與水平的逐步提升,以學(xué)術(shù)文本為代表的科研成果數(shù)量急速增長。同時(shí)在現(xiàn)代信息技術(shù)推動(dòng)下,采集加工、組織存儲(chǔ)、分發(fā)傳遞學(xué)術(shù)文本的文獻(xiàn)數(shù)據(jù)庫也在大量的快速發(fā)展,以更加便利而有效地支撐科研成果的傳播、分享與利用。而在文獻(xiàn)數(shù)據(jù)庫的生產(chǎn)與檢索中,關(guān)鍵詞具有連接學(xué)術(shù)文本中心內(nèi)容、數(shù)據(jù)庫內(nèi)在特征檢索入口的關(guān)鍵橋梁作用,更是基于文獻(xiàn)數(shù)據(jù)庫開展學(xué)術(shù)文本內(nèi)容分析的重要單元。

因此,關(guān)鍵詞是科研成果表達(dá)的主題概念,是學(xué)術(shù)文本的必要構(gòu)件[5],是科研人員進(jìn)行學(xué)術(shù)交流的有力工具,是文獻(xiàn)數(shù)據(jù)庫加工、存儲(chǔ)、檢索與分析的重要組成。所以,在創(chuàng)建學(xué)術(shù)文本時(shí),被作者標(biāo)注的關(guān)鍵詞,是否充分表征科研成果的主題思想、表達(dá)過程中是否體現(xiàn)出重要程度的次序,以及是否依賴于作者的先驗(yàn)知識或者情感傾向等,不僅關(guān)系到科研成果與科學(xué)知識的傳播和分發(fā),而且關(guān)系到信息資源的挖掘分析與開發(fā)利用。由此,針對關(guān)鍵詞開展深入研究,將為準(zhǔn)確而有效地標(biāo)注、提取與分析關(guān)鍵詞,發(fā)揮關(guān)鍵詞在科學(xué)傳播、數(shù)據(jù)庫資源建設(shè)、信息分析與知識服務(wù)方面的作用,具有重要的理論價(jià)值與實(shí)踐意義。

1 相關(guān)研究

現(xiàn)有的關(guān)于學(xué)術(shù)文本關(guān)鍵詞的研究中,按研究內(nèi)容的不同可分為面向關(guān)鍵詞的研究和基于關(guān)鍵詞的研究兩類。前者是指利用統(tǒng)計(jì)分析等方法,以關(guān)鍵詞為研究對象,利用詞數(shù)、詞頻等量化指標(biāo)或公式法、曲線擬合法等,多維度分析關(guān)鍵詞分布特征以及評估學(xué)術(shù)論文質(zhì)量等[6-7]。其中,對學(xué)術(shù)文本關(guān)鍵詞位置的統(tǒng)計(jì)分析發(fā)現(xiàn),描述問題或方法的關(guān)鍵詞多處于列表的前置位[8]。后者則是以關(guān)鍵詞為研究手段(語料),對采集到的題錄信息抽取關(guān)鍵詞,利用詞頻分析[9]、共詞分析[10-11]、耦合分析[12]、聚類[13]與社會(huì)網(wǎng)絡(luò)分析[14]等分析方法在不同的視角下發(fā)掘熱點(diǎn)、跟蹤主題演化、挖掘潛在合作關(guān)系、呈現(xiàn)學(xué)科間的主題關(guān)聯(lián)關(guān)系、識別突變詞等。關(guān)鍵詞分析方法的研究成果在圖書情報(bào)領(lǐng)域獲得了廣泛的認(rèn)可和應(yīng)用,主要原因在于關(guān)鍵詞分析是以關(guān)鍵詞的價(jià)值假設(shè)為前提,即學(xué)術(shù)文本中關(guān)鍵詞具有語義關(guān)聯(lián)價(jià)值[15]、邏輯關(guān)系價(jià)值[16]和實(shí)際應(yīng)用價(jià)值[4]。然而,關(guān)鍵詞分析方法通常假定任何兩個(gè)詞只要“共現(xiàn)”就認(rèn)為有語義關(guān)聯(lián),并未充分考慮關(guān)鍵詞之間的實(shí)際語義分布特征以及不同詞序和不同類型學(xué)術(shù)文本的特征差異。

特定領(lǐng)域的學(xué)術(shù)文本關(guān)鍵詞分布特征是作者、領(lǐng)域?qū)W術(shù)期刊編輯、審稿人等共同作用的結(jié)果[4]。關(guān)鍵詞數(shù)量和質(zhì)量關(guān)系到學(xué)術(shù)資源的傳播效率和學(xué)術(shù)規(guī)范性,進(jìn)而對作者、期刊的學(xué)術(shù)影響力產(chǎn)生影響。國家標(biāo)準(zhǔn)局1987年發(fā)布的《科學(xué)技術(shù)報(bào)告、學(xué)位論文和學(xué)術(shù)論文編寫格式》對3種類型學(xué)術(shù)文本進(jìn)行概念界定并規(guī)定了關(guān)鍵詞編寫規(guī)范[13]。在此基礎(chǔ)上,中國科協(xié)學(xué)會(huì)學(xué)部2002年發(fā)布試行通知,對系統(tǒng)內(nèi)的學(xué)會(huì)、地方性科協(xié)學(xué)會(huì)部規(guī)定關(guān)鍵詞詞數(shù)下限(不少于4個(gè)),未標(biāo)注關(guān)鍵詞的論文從技術(shù)角度視作非學(xué)術(shù)論文,并在詞序視角下規(guī)定關(guān)鍵詞的排序規(guī)則[17]。在CNKI檢索主題中包含“關(guān)鍵詞標(biāo)引”的論文共749篇,其中500余篇為期刊編輯部結(jié)合本刊關(guān)鍵詞撰寫的分布現(xiàn)狀提出投稿關(guān)鍵詞標(biāo)注規(guī)范,可見規(guī)范標(biāo)引關(guān)鍵詞對學(xué)術(shù)發(fā)表與期刊影響力傳播的重要性與迫切性。

綜上所述,本文結(jié)合現(xiàn)有的關(guān)鍵詞分布特征研究,在整體把握學(xué)術(shù)文本關(guān)鍵詞詞數(shù)分布特征的基礎(chǔ)上,從詞序研究的視角出發(fā),以選詞偏好特征、選詞多樣性特征和選詞語義特征3個(gè)維度切入,選擇與構(gòu)建關(guān)鍵詞復(fù)現(xiàn)度、關(guān)鍵詞重合度、關(guān)鍵詞復(fù)用度、關(guān)鍵詞均勻度和關(guān)鍵詞語義相似度等關(guān)鍵詞分布特征量化指標(biāo),提出指標(biāo)的具體描述與算法。然后,選取學(xué)術(shù)文本中具有代表性的核心期刊學(xué)術(shù)論文和碩、博士學(xué)位論文作為實(shí)證分析的數(shù)據(jù)源,以人工智能主題為實(shí)證分析的數(shù)據(jù)樣本,對比分析人工智能主題不同類型學(xué)術(shù)文本關(guān)鍵詞的分布狀態(tài)與差異。為深入分析關(guān)鍵詞的使用并提升其作用,提供有價(jià)值的研究參考。

2 研究設(shè)計(jì)

2.1 概念界定

詞序視角,i,j∈{1,2,…,n},n為篇含關(guān)鍵詞[7]個(gè)數(shù),即關(guān)鍵詞標(biāo)注過程中的先后位置關(guān)系,分為相鄰詞序(j=i+1)與不相鄰詞序(j>i+1)。本文對所涉及的詞序相關(guān)概念做如下界定:

a. 定義單個(gè)關(guān)鍵詞從左至右的位置變化為詞序增加;

b. 對比研究中,Ki相對位置不變,Kj位置逐漸右移為詞序增加。

2.2 方案設(shè)計(jì)

本文以探究學(xué)術(shù)文本關(guān)鍵詞分布特征問題為出發(fā)點(diǎn),設(shè)計(jì)如圖1所示的研究方案,即在詞序視角下從多個(gè)維度設(shè)計(jì)、選取關(guān)鍵詞分布特征量化指標(biāo)。實(shí)證部分,采集學(xué)術(shù)文本中具有代表性的核心期刊學(xué)術(shù)論文和碩、博士學(xué)位論文,利用構(gòu)建的關(guān)鍵詞分布特征指標(biāo)量化學(xué)術(shù)文本的關(guān)鍵詞特征,并對比不同類型學(xué)術(shù)文本關(guān)鍵詞分布特征的同質(zhì)性和異質(zhì)性。

圖1 研究思路與內(nèi)容框架

2.3 量化指標(biāo)

詞序視角下,從學(xué)術(shù)文本關(guān)鍵詞的選詞偏好特征、選詞多樣性特征和選詞語義特征等角度選取關(guān)鍵詞分布特征量化指標(biāo)。在選詞偏好特征中,選擇復(fù)現(xiàn)度指標(biāo);在選詞多樣性特征中,選擇關(guān)鍵詞重合度、關(guān)鍵詞復(fù)用度和關(guān)鍵詞均勻度指標(biāo);在語義分布特征中,選取關(guān)鍵詞語義相似度指標(biāo)。有關(guān)指標(biāo)選取角度、關(guān)鍵分布特征指標(biāo)與指標(biāo)描述,見表1。

表1 詞序視角下學(xué)術(shù)文本關(guān)鍵詞分布特征量化指標(biāo)說明

2.3.1關(guān)鍵詞復(fù)現(xiàn)

學(xué)術(shù)文本題名與摘要具有相似的特征,是作者對學(xué)術(shù)文本內(nèi)容提煉后的結(jié)構(gòu)化或非結(jié)構(gòu)化表達(dá)。通過構(gòu)建復(fù)現(xiàn)度指標(biāo),量化關(guān)鍵詞在學(xué)術(shù)文本題名和摘要中重復(fù)出現(xiàn)的詞數(shù),可以揭示特定領(lǐng)域作者標(biāo)注關(guān)鍵詞的選詞偏好特征。復(fù)現(xiàn)度越高,作者越偏向于在題名或摘要中選擇主題詞作為關(guān)鍵詞。

2.3.2關(guān)鍵詞重合度

關(guān)鍵詞重合度指Kj與Ki列重合的詞數(shù)與Kj列不重復(fù)關(guān)鍵詞數(shù)的比值,在單列關(guān)鍵詞總數(shù)不變的前提下,重合度越高則選詞多樣性越低。

2.3.3關(guān)鍵詞復(fù)用度

學(xué)術(shù)文本關(guān)鍵詞標(biāo)注目的在于利用標(biāo)注的主題詞或?qū)I(yè)術(shù)語描述文獻(xiàn)資源,服務(wù)文獻(xiàn)組織和檢索[4],復(fù)用度的實(shí)質(zhì)是關(guān)鍵詞詞頻與關(guān)鍵詞數(shù)量的比例。為豐富復(fù)用度的含義,本文選擇在詞序視角下,統(tǒng)計(jì)關(guān)鍵詞復(fù)用情況。復(fù)用度越高,則選詞多樣性越低。

2.3.4關(guān)鍵詞均勻度

關(guān)鍵詞的選擇沒有固定的標(biāo)準(zhǔn),是作者結(jié)合論文內(nèi)容和《漢語主題詞表》的主觀選擇,因此,學(xué)術(shù)文本關(guān)鍵詞標(biāo)注系統(tǒng)屬于開放系統(tǒng)。借鑒Shannon的信息熵[18]概念在生態(tài)系統(tǒng)多樣性測度領(lǐng)域的應(yīng)用[19],如同一座山在不同海拔呈現(xiàn)出的不同生態(tài)系統(tǒng)多樣性,此處將不同詞序的關(guān)鍵詞視作不同的海拔,同一詞序中的關(guān)鍵詞視作生物物種,不同類型的學(xué)術(shù)文本視作不同的生態(tài)系統(tǒng)。熵值反映了同一詞序不同類型學(xué)術(shù)文本關(guān)鍵詞的選詞多樣性。熵值越大,表明系統(tǒng)中關(guān)鍵詞分布均勻度越高,則關(guān)鍵詞選詞多樣性越高。熵值越小,表明系統(tǒng)中關(guān)鍵詞均勻度越低,則關(guān)鍵詞選詞多樣性越低。

2.3.5關(guān)鍵詞語義相似度

學(xué)術(shù)文本關(guān)鍵詞不僅可以揭示研究內(nèi)容,關(guān)鍵詞之間也存在著特定的語義關(guān)系,現(xiàn)有的共詞網(wǎng)絡(luò)研究便是基于此類語義關(guān)系。本文借助詞向量模型[20],利用余弦相似度[21]量化學(xué)術(shù)文本作者關(guān)鍵詞語義相似性,余弦相似度越大則關(guān)鍵詞詞對語義相似度越高,KSSD取值范圍為[-1,1]。

3 實(shí)證研究

3.1 數(shù)據(jù)來源與預(yù)處理

學(xué)術(shù)論文與學(xué)位論文分屬不同類型的學(xué)術(shù)文本,但碩、博士學(xué)位論文與核心期刊學(xué)術(shù)論文有著較大的同質(zhì)性,如學(xué)術(shù)屬性、文本結(jié)構(gòu)、專家評審、學(xué)術(shù)傳播渠道等,且兩者均屬于同類學(xué)術(shù)文本中最具代表和最富學(xué)術(shù)價(jià)值的文本類型。因此,本文以CNKI為數(shù)據(jù)源,設(shè)定主題檢索詞為 “人工智能”,檢索主題相關(guān)的學(xué)術(shù)文本,采集具有代表性的核心期刊學(xué)術(shù)論文和碩、博士學(xué)位論文,時(shí)間跨度為2011年1月1日到2020年12月31日,數(shù)據(jù)收集日期是2021年6月27日,共得到31 550條記錄,其中核心期刊學(xué)術(shù)論文15 356條,碩、博士學(xué)位論文16 194條。自定義下載文獻(xiàn)的題名、作者、摘要、關(guān)鍵詞、出版年、文獻(xiàn)來源、單位等題錄信息。

將原始數(shù)據(jù)按核心期刊與碩、博士學(xué)位論文標(biāo)準(zhǔn)轉(zhuǎn)化為2個(gè)二維列表,為列表內(nèi)文檔建立標(biāo)識符id,刪除征文通知、本刊訊等機(jī)構(gòu)發(fā)文,對作者、關(guān)鍵詞、摘要等題錄信息缺失的數(shù)據(jù)予以剔除并去重,得到核心期刊學(xué)術(shù)論文13 906條與碩、博士學(xué)位論文16 171條。觀測數(shù)據(jù)特征,將關(guān)鍵詞分隔符統(tǒng)一替換為“,”后拆分關(guān)鍵詞。借助R語言工具自編函數(shù),循環(huán)提取關(guān)鍵詞詞對,分別構(gòu)建核心期刊學(xué)術(shù)論文和碩、博士學(xué)位論文關(guān)鍵詞詞對數(shù)據(jù)集。人工智能研究主題相關(guān)的專業(yè)性較強(qiáng),指定作者關(guān)鍵詞作為自定義詞典,利用JiebaR分詞技術(shù)拆分題名和摘要,封裝為題名關(guān)鍵詞和摘要關(guān)鍵詞數(shù)據(jù)集,服務(wù)后續(xù)研究。

3.2 描述性統(tǒng)計(jì)

采集到的學(xué)術(shù)文本中,核心期刊學(xué)術(shù)論文有1 603個(gè)期刊來源,其中69個(gè)期刊刊載40篇以上人工智能主題論文,1 186個(gè)期刊收錄不少于2篇該主題學(xué)術(shù)論文,可見人工智能主題研究學(xué)科分布廣泛。碩、博士學(xué)位論文分屬于573所高校,按照學(xué)位論文數(shù)量排序,前115所高校擁有11 986篇該研究主題碩、博士學(xué)位論文,符合二八定律,系統(tǒng)深入的研究呈現(xiàn)高校集聚現(xiàn)象。

作者標(biāo)注一定數(shù)量的關(guān)鍵詞使得學(xué)術(shù)文本具備結(jié)構(gòu)上的完整性,關(guān)鍵詞能夠反映論文的主題,篇含關(guān)鍵詞過少,則無法有效揭示論文的核心內(nèi)容;篇含關(guān)鍵詞過多,則會(huì)影響文獻(xiàn)檢索的查準(zhǔn)率,關(guān)鍵詞標(biāo)引的數(shù)量多少關(guān)系到學(xué)術(shù)資源的傳播效率。因此,學(xué)術(shù)文本一般選取3~8個(gè)詞作為關(guān)鍵詞[5]。核心期刊學(xué)術(shù)論文數(shù)據(jù)集中,平均篇含關(guān)鍵詞4.594個(gè),有5篇學(xué)術(shù)論文標(biāo)注8個(gè)以上關(guān)鍵詞。碩、博士學(xué)位論文數(shù)據(jù)集中,平均篇含關(guān)鍵詞4.662個(gè),有151位作者為論文標(biāo)注8個(gè)以上關(guān)鍵詞?!叭斯ぶ悄堋毖芯肯嚓P(guān)的學(xué)術(shù)文本篇含關(guān)鍵詞一般為4~5個(gè),核心期刊學(xué)術(shù)論文與碩、博士學(xué)位論文雖然論文屬性存在差異,但篇含關(guān)鍵詞平均個(gè)數(shù)差異并不顯著。

3.3 結(jié)果分析

3.3.1不同類型學(xué)術(shù)文本關(guān)鍵詞選詞偏好分布特征及其差異

復(fù)現(xiàn)度是量化選詞偏好的指標(biāo),核心期刊學(xué)術(shù)論文篇含關(guān)鍵詞在題名(TI)、題名摘要合并文本(TS)的平均復(fù)現(xiàn)度分別為37.50%和69.46%,碩、博士學(xué)位論文篇含關(guān)鍵詞在題名、題名摘要合并文本中平均復(fù)現(xiàn)度分別為32.94%和80.48%。篇含關(guān)鍵詞在題名、題名摘要合并文本中的復(fù)現(xiàn)情況如圖2所示。其中JN_TI_KA、JN_TS_KA分別對應(yīng)核心期刊學(xué)術(shù)論文(JN)關(guān)鍵詞在題名、題名摘要合并文本中的復(fù)現(xiàn)詞數(shù),MP_TI_KA、MP_TS_KA分別對應(yīng)碩、博士學(xué)位論文(MP)關(guān)鍵詞在題名、題名摘要合并文本中的復(fù)現(xiàn)詞數(shù)。從復(fù)現(xiàn)度與復(fù)現(xiàn)詞數(shù)分布結(jié)果可以看出,存在一定比例的關(guān)鍵詞復(fù)現(xiàn)在題名和摘要中。以核心期刊為例,關(guān)鍵詞在題名中的復(fù)現(xiàn)詞數(shù)中位數(shù)為2,平均數(shù)為1.689,表明有50%的核心期刊至少有2個(gè)關(guān)鍵詞復(fù)現(xiàn)在題名中。

此外,核心期刊學(xué)術(shù)論文與碩、博士學(xué)位論文關(guān)鍵詞在題名中的復(fù)現(xiàn)詞數(shù)有著近似的核密度估計(jì),如圖2所示。在題名摘要合并文本中,不同類型學(xué)術(shù)文本核密度估計(jì)具有較為明顯的差異,一個(gè)重要原因是摘要文本長度存在差異,期刊論文一般要求摘要的長度不超過300個(gè)字符。對比題名數(shù)據(jù),復(fù)現(xiàn)詞數(shù)在題名摘要合并文本中有顯著增加,更加接近篇含關(guān)鍵詞的分布特征。

圖2 學(xué)術(shù)文本關(guān)鍵詞復(fù)現(xiàn)分布特征

為深入了解關(guān)鍵詞復(fù)現(xiàn)分布特征,選擇在詞序視角下進(jìn)一步統(tǒng)計(jì)分析前8列關(guān)鍵詞,即Ki,i∈{1,2,3,4,5,6,7,8},結(jié)果如表2所示。

從表2中可以看出,前8列關(guān)鍵詞,隨著詞序的增加,復(fù)現(xiàn)詞數(shù)絕對數(shù)值和相對占比(Ki關(guān)鍵詞復(fù)現(xiàn)詞數(shù)占Ki關(guān)鍵詞的比值)均呈現(xiàn)顯著遞減趨勢并逐漸趨向于0,即作者更傾向在詞序靠前的位置選擇來自題名的詞作為關(guān)鍵詞。值得注意的是,K1有超過半數(shù)的作者從題名中選擇關(guān)鍵詞。

3.3.2不同類型學(xué)術(shù)文本關(guān)鍵詞選詞多樣性分布特征及其差異

利用重合度、復(fù)用度和均勻度指標(biāo)多角度描述學(xué)術(shù)文本關(guān)鍵詞選詞多樣性,其中重合度、復(fù)用度與選詞多樣性呈反比,均勻度與選詞多樣性呈正比。

表2 詞序視角下關(guān)鍵詞在題名中復(fù)現(xiàn)詞數(shù)統(tǒng)計(jì)

a.關(guān)鍵詞重合度分布特征。

根據(jù)學(xué)術(shù)文本標(biāo)注關(guān)鍵詞的選詞結(jié)構(gòu)特征,每篇論文選擇不超過8個(gè)關(guān)鍵詞,即Ki,i∈{1,2,3,4,5,6,7,8},并以矩陣形式保存在R語言中。詞序視角下,表3和4分別為核心期刊學(xué)術(shù)論文和碩、博士學(xué)位論文,i

表3 核心期刊學(xué)術(shù)論文關(guān)鍵詞重合詞數(shù)和重合度

由表3和4可知,核心期刊學(xué)術(shù)論文相鄰詞序重合度分布在區(qū)間[0.1307,0.3276],碩、博士學(xué)位論文重合度分布在區(qū)間[0.0416,0.2144]。隨著詞序的增加,重合詞數(shù)(絕對數(shù)值)逐漸降低,與單列關(guān)鍵詞詞數(shù)保持同一趨勢特征。對于Ki和Kj關(guān)鍵詞,后一列關(guān)鍵詞在前一列關(guān)鍵詞的重合度(相對占比)整體呈現(xiàn)先減后增的趨勢,對應(yīng)的選詞多樣性整體呈先增后減的趨勢,核心期刊學(xué)術(shù)論文與碩、博士學(xué)位論文整體趨勢一致,但重合度分布水平呈現(xiàn)顯著差異。其中核心期刊學(xué)術(shù)論文從開始,剩余分組關(guān)鍵詞的相對占比(重合度)整體呈現(xiàn)逐漸增加的趨勢,碩、博士學(xué)位論文從開始,剩余詞序關(guān)鍵詞的相對占比(重合度)則整體呈現(xiàn)逐漸增加的趨勢,上述結(jié)果表明,人工智能研究主題相關(guān)的學(xué)術(shù)文本關(guān)鍵詞隨詞序增加單列關(guān)鍵詞呈現(xiàn)選詞多樣性先增后減的特征。

表4 碩、博士學(xué)位論文關(guān)鍵詞重合詞數(shù)和重合度

b. 關(guān)鍵詞復(fù)用度分布特征。

為進(jìn)一步探究關(guān)鍵詞選詞多樣性分布特征,對比不同類型學(xué)術(shù)文本分布特征差異,本文在詞序視角下分別統(tǒng)計(jì)Ki列關(guān)鍵詞復(fù)用度,表5和表6分別為核心期刊學(xué)術(shù)論文和碩、博士學(xué)位論文Ki列關(guān)鍵詞復(fù)用度TOP 5關(guān)鍵詞。

從表5和表6可知,復(fù)用度較高的關(guān)鍵詞具有被重復(fù)使用在不同詞序的分布特征。此外,不同類型學(xué)術(shù)文本的K1TOP 5關(guān)鍵詞復(fù)用度均明顯高于其他列,表明K1選詞更集中。從關(guān)鍵詞復(fù)現(xiàn)度TOP5 內(nèi)容可以看出,人工智能主題相關(guān)的學(xué)術(shù)文本中,作者會(huì)在靠前詞序標(biāo)注與該研究主題核心概念高度相關(guān)的主題詞作為關(guān)鍵詞選詞來源。結(jié)合表3和表4可以看出,相鄰詞序受篇含關(guān)鍵詞互異性(同一篇學(xué)術(shù)文本關(guān)鍵詞具有不重合特征)影響,Ki高復(fù)用度關(guān)鍵詞在Ki+1復(fù)用度降低,但Ki+1與Ki重合度卻在增加,進(jìn)一步表明同一研究主題一定規(guī)模數(shù)據(jù)下的相鄰詞序關(guān)鍵詞選詞多樣性隨詞序增加而降低。復(fù)用度越高,表明關(guān)鍵詞相對占比越高,在關(guān)鍵詞總數(shù)不變的情況下,該列關(guān)鍵詞選詞多樣性降低,相較于核心期刊,碩、博士學(xué)位論文關(guān)鍵詞復(fù)用度較低,表明碩、博士學(xué)位論文關(guān)鍵詞的選詞多樣性水平更高。

表5 核心期刊學(xué)術(shù)論文Ki關(guān)鍵詞復(fù)用度TOP 5關(guān)鍵詞

表6 碩、博士學(xué)位論文Ki關(guān)鍵詞復(fù)用度TOP 5關(guān)鍵詞

c.關(guān)鍵詞均勻度。

統(tǒng)計(jì)不同類型學(xué)術(shù)文本詞序前8的所有關(guān)鍵詞并去重,得到核心期刊29 655個(gè)不重復(fù)關(guān)鍵詞集,碩、博士學(xué)位論文12 290個(gè)不重復(fù)關(guān)鍵詞集。利用Countif函數(shù)計(jì)算不同詞序關(guān)鍵詞在關(guān)鍵詞集中的映射情況,對得到的29 655×8維和36 448×8維數(shù)據(jù)集分別計(jì)算信息熵,結(jié)果如表7所示。

表7 不同類型學(xué)術(shù)文本不同詞序信息熵分布情況

結(jié)果顯示,核心期刊學(xué)術(shù)論文與碩、博士學(xué)位論文均勻度(信息熵)指標(biāo)在同一水平,不同的詞序存在一定差異。橫向?qū)Ρ炔煌~序的均勻度分布,發(fā)現(xiàn)隨著詞序的增加,不同類型學(xué)術(shù)文本關(guān)鍵詞均勻度指標(biāo)均呈現(xiàn)先增后減的趨勢,且關(guān)鍵詞均勻度指標(biāo)在K3較高,即隨著詞序的增加,學(xué)術(shù)文本關(guān)鍵詞選詞多樣性呈現(xiàn)先增后減的趨勢。

基于重合度、復(fù)用度和均勻度量化的關(guān)鍵詞選詞多樣性分布特征表明,學(xué)術(shù)文本關(guān)鍵詞隨詞序的增加,選詞多樣性呈現(xiàn)先增后減的現(xiàn)象。在關(guān)鍵詞的文獻(xiàn)計(jì)量、信息組織研究中,應(yīng)將關(guān)鍵詞的選詞多樣性分布特征考慮在內(nèi)。本文計(jì)算的重合度是對所在列關(guān)鍵詞去重后的結(jié)果,消除了詞頻的影響,在關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)相關(guān)研究中,重合詞起到連通各個(gè)知識單元作用,重合度越高的列,該列關(guān)鍵詞在網(wǎng)絡(luò)中充當(dāng)連接詞的相對占比越高。若存在滿足不重合特征的知識單元,則會(huì)成為孤立的邊緣網(wǎng)絡(luò)。同一研究主題的學(xué)術(shù)文本共詞網(wǎng)絡(luò)中,邊緣網(wǎng)絡(luò)往往隨研究內(nèi)容的增加與其他網(wǎng)絡(luò)串聯(lián)形成較大的卡夫曼網(wǎng)絡(luò)[22]。然而,受到樣本采集的時(shí)間跨度、檢索方式和學(xué)術(shù)文本類型等因素的影響,邊緣網(wǎng)絡(luò)并不一定會(huì)消失,甚至?xí)罅看嬖?。因此,在相關(guān)研究開展前期,應(yīng)充分調(diào)研采集到的關(guān)鍵詞樣本重合度分布特征,以消除或降低上述因素對研究結(jié)果科學(xué)性的影響。在結(jié)果分析階段,應(yīng)更加關(guān)注不重合的關(guān)鍵詞在網(wǎng)絡(luò)中的分布情況。

3.3.3不同類型學(xué)術(shù)文本關(guān)鍵詞選詞語義分布特征及其差異

學(xué)術(shù)文本關(guān)鍵詞復(fù)現(xiàn)分布特征顯示,篇含關(guān)鍵詞在不同類型學(xué)術(shù)文本題名摘要合并文本中的平均復(fù)現(xiàn)度分別為69.46%、78.29%,結(jié)合預(yù)實(shí)驗(yàn)結(jié)果,現(xiàn)有語料庫無法完全覆蓋。在不破壞原有數(shù)據(jù)完整性的前提下,本文采取抽樣的方式開展探索性研究。設(shè)定關(guān)鍵詞數(shù)大于4個(gè),復(fù)現(xiàn)度為100%作為實(shí)驗(yàn)數(shù)據(jù)集選擇標(biāo)準(zhǔn),抽取到1 166條核心期刊學(xué)術(shù)論文和3 054條碩、博士學(xué)位論文。

將題名摘要合并文本分詞,剔除無實(shí)義詞后映射為詞向量,每篇選擇5個(gè)關(guān)鍵詞即Ki,i∈{1,2,3,4,5},并提取關(guān)鍵詞對,借助余弦相似度量化關(guān)鍵詞對的語義相似性。核心期刊與碩、博士學(xué)位論文關(guān)鍵詞對整體語義相似性分布如表8所示。

表8 不同類型學(xué)術(shù)文本關(guān)鍵詞詞對語義相似度分布情況

針對選取的實(shí)驗(yàn)樣本,從表8可以看出,不同類型學(xué)術(shù)文本關(guān)鍵詞詞對間語義相似性總體表現(xiàn)較好,但也存在少部分詞對間相似度為負(fù)。隨著詞序的增加,詞對相似度平均值呈下降趨勢,組內(nèi)數(shù)據(jù)離散程度呈現(xiàn)一定的上升趨勢,表明關(guān)鍵詞詞對之間呈現(xiàn)一定的語義相似度遞減特征。采取計(jì)算差值的方式進(jìn)一步探究相鄰詞序之間的語義相似度,首先,計(jì)算差值,共有2 376篇學(xué)術(shù)文本滿足差值大于零,其中核心期刊學(xué)術(shù)論文有709篇,碩、博學(xué)位論文1 667篇。對2 376篇學(xué)術(shù)文本進(jìn)一步計(jì)算差值,共有1 171篇學(xué)術(shù)文本滿足差值大于零,其中核心期刊學(xué)術(shù)論文有394篇,碩、博學(xué)位論文777篇。最后,對剩余的1 171篇學(xué)術(shù)文本計(jì)算差值,共有464篇學(xué)術(shù)文本滿足差值大于零,其中核心期刊學(xué)術(shù)論文有180篇,碩、博學(xué)位論文284篇。結(jié)果顯示,在4 220條實(shí)驗(yàn)樣本中,前3列關(guān)鍵詞之間存在較高的語義相似度,隨著詞序的增加,語義相似度降低。

因此,在基于關(guān)鍵詞語義關(guān)聯(lián)關(guān)系的相關(guān)研究中,研究人員應(yīng)充分考慮關(guān)鍵詞語義負(fù)相關(guān)、語義相似度隨詞序增加而下降特征。例如,以關(guān)鍵詞語義關(guān)聯(lián)關(guān)系為基礎(chǔ)的共詞網(wǎng)絡(luò)研究中,應(yīng)充分考慮關(guān)鍵詞詞對語義相似度隨詞序增加而下降的現(xiàn)象:是否應(yīng)剔除語義負(fù)相關(guān)關(guān)鍵詞?對不同詞序的關(guān)鍵詞是否應(yīng)賦予相應(yīng)的語義相似度權(quán)重?值得相關(guān)領(lǐng)域研究人員深入思考。

4 總結(jié)與展望

通過實(shí)證研究發(fā)現(xiàn),首先在關(guān)鍵詞標(biāo)注的數(shù)量上,人工智能研究主題相關(guān)的學(xué)術(shù)文本的篇含關(guān)鍵詞一般為4~5個(gè)。核心期刊學(xué)術(shù)論文與碩、博士學(xué)位論文受論文屬性影響,篇含關(guān)鍵詞平均個(gè)數(shù)存在一定差異,但并不顯著,碩、博士學(xué)位論文標(biāo)注相對更多的關(guān)鍵詞;其次,隨著詞序增加,學(xué)術(shù)文本關(guān)鍵詞分布呈現(xiàn)的狀態(tài)為:a.復(fù)現(xiàn)詞數(shù)絕對數(shù)值和相對占比均呈現(xiàn)顯著遞減趨勢并逐漸趨向于0。b.重合詞數(shù)(絕對數(shù)值)逐漸降低,與單列關(guān)鍵詞詞數(shù)保持同一趨勢特征,對于Ki和Kj關(guān)鍵詞,后一列關(guān)鍵詞在前一列關(guān)鍵詞的重合度(相對占比)整體呈現(xiàn)先減后增的趨勢,對應(yīng)的選詞多樣性整體呈先增后減的趨勢。同時(shí),學(xué)術(shù)文本關(guān)鍵詞均勻度指標(biāo)均呈現(xiàn)先增后減的趨勢。c.關(guān)鍵詞詞對相似度平均值呈下降趨勢,組內(nèi)數(shù)據(jù)離散程度呈一定的上升趨勢。

上述的分布狀態(tài)揭示出學(xué)術(shù)文本關(guān)鍵詞分布的主要特征體現(xiàn)在:a.在關(guān)鍵詞選詞偏好上,作者更傾向在詞序靠前的位置選擇標(biāo)注來自題名的詞作為關(guān)鍵詞;b.在選詞多樣性上,作者會(huì)在靠前詞序標(biāo)注與該研究主題核心概念高度相關(guān)的主題詞作為關(guān)鍵詞選詞來源。同時(shí),關(guān)鍵詞的選詞多樣性隨詞序變化先增后減;c.在選詞語義上,關(guān)鍵詞詞對之間呈現(xiàn)一定的語義遞減特征。

不同類型學(xué)術(shù)文本關(guān)鍵詞分布特征存在著差異,主要體現(xiàn)在:a.在選詞偏好上,復(fù)現(xiàn)度指標(biāo)存在一定差異,但并不顯著;b.在選詞多樣性上,碩、博士學(xué)位論文關(guān)鍵詞重合度與復(fù)用度均低于核心期刊學(xué)術(shù)論文;c.在選詞語義上,抽樣結(jié)果顯示,不同類型學(xué)術(shù)文本不同詞序的關(guān)鍵詞詞對語義相似性整體分布特征差異性較小。

本文提出探究學(xué)術(shù)文本關(guān)鍵詞分布特征的研究問題,嘗試從詞序視角出發(fā),基于3個(gè)維度構(gòu)建指標(biāo)體系,量化學(xué)術(shù)文本關(guān)鍵詞分布特征及其差異,并在詞序視角下將一維量化指標(biāo)置于二維平面分析,為文獻(xiàn)計(jì)量領(lǐng)域的關(guān)鍵詞分析方法提供新的研究視角,一定程度突破了對關(guān)鍵詞的固有認(rèn)知,可以作為研究的創(chuàng)新之處。此外,探索性地將詞序與語義相結(jié)合,挖掘關(guān)鍵詞詞對之間的語義關(guān)系。在科學(xué)研究場景下,本文所選擇的實(shí)驗(yàn)數(shù)據(jù)集,驗(yàn)證了量化指標(biāo)體系具備一定的可用性和可解讀性,所發(fā)現(xiàn)的學(xué)術(shù)文本關(guān)鍵詞分布特征及其差異為后續(xù)深入研究提供相關(guān)的基礎(chǔ)和方法支撐;在實(shí)際應(yīng)用場景下,機(jī)標(biāo)關(guān)鍵詞、Keyword Plus等作為數(shù)據(jù)庫平臺(tái)增加學(xué)術(shù)文本傳播效率的輔助手段,其標(biāo)注的標(biāo)準(zhǔn)也應(yīng)以作者關(guān)鍵詞分布特征為參照,通過修正參數(shù),提升查全率與查準(zhǔn)率,從而實(shí)現(xiàn)學(xué)術(shù)成果更高效率的傳播?,F(xiàn)有的實(shí)證結(jié)果顯示,學(xué)術(shù)文本關(guān)鍵詞間存在著一定程度的語義遞減關(guān)系,受制于編程能力和掌握的語義挖掘方法,未能更深層次挖掘中文語境下的關(guān)鍵詞對語義相似性遞減分布特征是否屬于包含關(guān)系。在后續(xù)研究中,將進(jìn)一步完善編程能力,并嘗試探究外文語境下關(guān)鍵詞的語義分布特征。

猜你喜歡
詞序選詞學(xué)術(shù)論文
本期主要學(xué)術(shù)論文英文題目及摘要
學(xué)術(shù)論文征集啟示
學(xué)術(shù)論文征集啟事
選詞寫故事
選詞填空好方法
漢語“在”方位短語詞序在日文與韓文中的對應(yīng)
讀一讀,選詞填空
漢語搭配信息對詞匯識別的影響
俄漢語定語對比
影響詞序的“普通重音”規(guī)則
健康| 林西县| 乃东县| 定边县| 永福县| 天台县| 河曲县| 阆中市| 陈巴尔虎旗| 瓦房店市| 大邑县| 云南省| 昌江| 威宁| 曲麻莱县| 尼勒克县| 岳西县| 阜宁县| 河曲县| 达拉特旗| 兴安盟| 正蓝旗| 洛隆县| 吉安市| 静海县| 耒阳市| 文水县| 石棉县| 桐乡市| 年辖:市辖区| 道孚县| 江阴市| 昌都县| 新民市| 孝昌县| 谢通门县| 牡丹江市| 湖口县| 永泰县| 白城市| 扎鲁特旗|