国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

摘要語言視角下醫(yī)學(xué)突破性論文識別研究*

2023-06-30 02:27:24林紫洛楊雪梅于詩睿陳逸菲唐小利
關(guān)鍵詞:語步突破性語料

林紫洛 楊雪梅 于詩睿 陳逸菲 唐小利

(中國醫(yī)學(xué)科學(xué)院/北京協(xié)和醫(yī)學(xué)院醫(yī)學(xué)信息研究所/圖書館 北京 100005)

1 引言

近年來,我國對突破性研究的重視程度逐步提高。具體到生物醫(yī)學(xué)領(lǐng)域,在一些情況下生物醫(yī)學(xué)創(chuàng)新受到關(guān)鍵科學(xué)發(fā)現(xiàn)的指導(dǎo),當(dāng)醫(yī)療供應(yīng)方取得科學(xué)突破或新進(jìn)展時,可能促成醫(yī)學(xué)創(chuàng)新[1]。學(xué)術(shù)論文作為基礎(chǔ)研究工作的重要呈現(xiàn)形式,具有發(fā)現(xiàn)新觀點、傳播新方法、承載新理論、推廣新技術(shù)等作用[2],若能在論文發(fā)表初期把握其中反映的重大突破,有助于推進(jìn)突破性研究的遴選與培育,為相關(guān)機構(gòu)加強重要研究項目資助提供參考依據(jù)。在論文寫作過程中作者有時會采用特定描述聲明一項研究的首創(chuàng)性,分析這些描述的語言學(xué)特征可以揭示論文新發(fā)現(xiàn)的語言模式[3]。因此,通過論文文本的語言學(xué)特征識別潛在突破性論文是目前值得探索的方向。

2 相關(guān)研究

突破性研究指根本性突破或重要進(jìn)展,影響力可輻射其他領(lǐng)域,同時具有原創(chuàng)性[4]。記錄突破性研究、表現(xiàn)突破性意義的學(xué)術(shù)論文為突破性論文,其識別方法分為基于文獻(xiàn)計量學(xué)和基于文獻(xiàn)內(nèi)容兩種。

2.1 基于文獻(xiàn)計量學(xué)的識別方法

基于文獻(xiàn)計量學(xué)的識別方法主要可分為引文頻次分析、引文網(wǎng)絡(luò)分析和多維分析。引文頻次分析從論文被引頻次、引用時間分布入手,進(jìn)行統(tǒng)計分析或繪制引文曲線。早期識別潛在突破性論文的方法是找到高被引論文[5-6]。隨著引文分析方法的發(fā)展,研究者逐漸意識到僅使用引文頻次不足以衡量論文價值,不再通過設(shè)置被引閾值篩選論文,如Bornmann L等[7]通過計算學(xué)科領(lǐng)域和時間的動態(tài)標(biāo)準(zhǔn)化影響評分來識別突破性論文。引文網(wǎng)絡(luò)分析的基礎(chǔ)是文獻(xiàn)之間的相互引證。Marx W等[8]引入引文出版年光譜,通過引文高峰年份找到關(guān)鍵的開創(chuàng)性論文。Huang Y H等[9]認(rèn)為突破性研究會引起現(xiàn)有范式論文引用鏈遭到破壞,計算“破裂分?jǐn)?shù)”以識別這種變化。引文分析方法表現(xiàn)良好,但在論文發(fā)表初期,與引用相關(guān)的特征并不明顯,需要一定時間窗口的積累。多維分析從論文、期刊、作者等多個維度遴選文獻(xiàn)外部特征,采用回歸分析或機器學(xué)習(xí)方法進(jìn)行突破性識別。如Wolcott H N等[10]考察引用計數(shù)、是否開放獲取、合著者數(shù)量等一系列指標(biāo),使用隨機森林模型評估其識別突破性論文的能力。梁國強[11]遴選變革性研究的參考文獻(xiàn)及施引文獻(xiàn)特征,采用熵權(quán)法、因子分析法等構(gòu)建變革性研究的早期識別模型。這類方法避免了使用單一指標(biāo)無法全面測度研究的問題,但是部分特征不易獲取或計算復(fù)雜,在推廣應(yīng)用上有所局限。

2.2 基于文獻(xiàn)內(nèi)容的識別方法

相比起引文特征,論文的文本特征不需時間積累,更有利于突破性論文的早期識別,基于內(nèi)容的識別方式應(yīng)運而生。目前基于文獻(xiàn)內(nèi)容的識別方法所用語料主要是引用語句。Small H等[12]將引用時使用“discovery”“discover”和“discovered”等術(shù)語的句子稱為發(fā)現(xiàn)句,并提出用機器學(xué)習(xí)方法識別描述科學(xué)發(fā)現(xiàn)的論文。王雪等[13]獲取突破性文獻(xiàn)集引用語句中表征突破性評價意義的特征詞,提出基于引用語句,結(jié)合深度學(xué)習(xí)算法的突破性論文識別方法。引用語料的獲取受限于論文全文的可訪問性,相比之下,摘要的可獲取性更強。在摘要中作者可能討論研究目的、總結(jié)研究成果、評估研究意義或影響,從而突出論文價值。杜建等[14]在分析典型變革性研究論文中的表達(dá)時發(fā)現(xiàn),其標(biāo)題或摘要在表述上突顯變革性,如“propose a new type of…,we overcome the limit by…”。從這個角度考慮,論文標(biāo)題或摘要若出現(xiàn)類似術(shù)語可能是潛在的突破性論文。Fischer I等[15]將隨機試驗報告按照重要性分類,使用神經(jīng)網(wǎng)絡(luò)方法學(xué)習(xí)摘要語言模式,發(fā)現(xiàn)報告的重要程度與摘要語言的情感相關(guān)。已有研究證明基于內(nèi)容識別突破性論文具備可行性,且摘要語料更易獲取,能夠彌補引文滯后性導(dǎo)致的引用不足,因此本文旨在探索使用論文摘要文本識別生物醫(yī)學(xué)領(lǐng)域潛在突破性論文的方法。

3 研究設(shè)計(圖1)

3.1 突破性論文摘要特征提取

3.1.1 金標(biāo)準(zhǔn)數(shù)據(jù)集 突破性論文摘要特征提取的首要任務(wù)是選擇具有代表性的突破性論文作為金標(biāo)準(zhǔn)數(shù)據(jù)集,這些論文相較于其他論文可能具有突出的語言學(xué)特征。本研究從兩方面考慮,將以下4個來源的論文納入金標(biāo)準(zhǔn)數(shù)據(jù)集。一方面是具有滯后性的重大科學(xué)貢獻(xiàn)出版物評審,如科學(xué)界最高獎項諾貝爾獎,其官網(wǎng)自1981年開始在介紹當(dāng)年獲獎?wù)邥r會列舉其關(guān)鍵論文;《自然》雜志不定期發(fā)布“里程碑”系列專題,總結(jié)某領(lǐng)域在過去取得的突破性進(jìn)展。另一方面是針對近期發(fā)表論文的評審,如《科學(xué)》雜志自1996年起每年評選出當(dāng)年最具代表性的10個科學(xué)突破并提供參考文獻(xiàn);Faculty Opinions數(shù)據(jù)庫遴選生物醫(yī)學(xué)領(lǐng)域重要論文,由領(lǐng)域?qū)<覍φ撐倪M(jìn)行評價和推薦,少數(shù)論文被推薦為“里程碑”。資料獲取時間為2022年10月。刪除其中綜述、評論、新聞等類型的文獻(xiàn)并去重,最終得到968篇(89.5%)可獲取摘要的突破性論文。

3.1.2 突破性特征句式 為說服讀者接受文章觀點,作者會采用顯性或隱性描述闡明研究的重要意義或新穎成果[16]。對論文摘要進(jìn)行語言學(xué)特征分析,分析角度包括常用于表述突破性研究的特征詞及其搭配、特征句在摘要中的位置等。采用人工判別方式閱讀金標(biāo)準(zhǔn)突破性論文摘要,找出表明研究具有新發(fā)現(xiàn)、新觀點、新方法以及存在重要意義或貢獻(xiàn)的句子。單詞具有廣泛搭配,某個詞在詞組中的含義可能與原來不同,因此從前述篩選的句子中提取出特征詞及其搭配,根據(jù)句中單詞的依存關(guān)系組成特征句式。提取時,將名詞分別以單數(shù)和復(fù)數(shù)形式表示,將動詞以不同時態(tài)表示,見表1。

表1 突破性特征句式提取過程示例

3.1.3 突破性特征句位置特點 摘要是對文獻(xiàn)內(nèi)容的高度概括,為盡可能多提供信息,作者可能會將背景、目的、方法、結(jié)果、結(jié)論等內(nèi)容組織進(jìn)摘要中,描述這些內(nèi)容的句子稱為語步??萍嘉墨I(xiàn)知識人工智能引擎SciAIEngine[17]集成自動識別摘要語步類型功能。使用其對摘要進(jìn)行語步劃分,并統(tǒng)計突破性特征句在摘要中的位置,進(jìn)一步考察其位置特點。

3.2 訓(xùn)練數(shù)據(jù)獲取及人工標(biāo)注

基本科學(xué)指標(biāo)數(shù)據(jù)庫(essential science indicators,ESI)是評估學(xué)者、機構(gòu)等學(xué)術(shù)水平及影響力的重要指標(biāo),入選ESI一定程度上說明論文具有較高學(xué)術(shù)價值,更有可能是突破性論文。與之相對,影響因子較低的期刊論文中存在突破性論文的可能性較低。因此從近10年生物醫(yī)學(xué)領(lǐng)域ESI論文中隨機抽取一部分含摘要的非綜述類論文,同時獲取與ESI論文發(fā)表年份和學(xué)科領(lǐng)域相同,被《期刊引證報告》(journal citation report,JCR)收錄為Q4期刊分區(qū)的論文。將突破性論文的識別任務(wù)轉(zhuǎn)換為“是否為突破性論文”的二分類任務(wù),對摘要進(jìn)行人工標(biāo)注,若摘要表征文章具有重大發(fā)現(xiàn)或首創(chuàng)性,則標(biāo)注為“1”,反之標(biāo)注為“0”。

3.3 突破性論文識別模型構(gòu)建

3.3.1 摘要語步劃分 由于學(xué)術(shù)論文摘要之間存在體量差異,一些較長摘要中存在諸多非關(guān)鍵信息句,可能影響利用摘要識別突破性研究的效果,因此引入語步識別方法拆分摘要結(jié)構(gòu),得到背景、目的、方法、結(jié)果、結(jié)論,對文本進(jìn)行降維處理。此外,通過前期獲取的突破性特征句式匹配摘要中的特征句,特征句和摘要語步共同構(gòu)成輸入語料。

3.3.2 識別模型構(gòu)建 采用深度學(xué)習(xí)算法進(jìn)行識別模型訓(xùn)練,自動學(xué)習(xí)語言學(xué)特征并實現(xiàn)分類。前期使用小樣本測試支持向量機(support vector machine,SVM)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)、雙向編碼器表征(bidirectional encoder representation from transformers,BERT)等多種深度學(xué)習(xí)算法,發(fā)現(xiàn)BERT和DNN表現(xiàn)較優(yōu),并且DNN能以更快速度與更優(yōu)性能得到和BERT相近的結(jié)果,因此選擇DNN算法進(jìn)行識別模型構(gòu)建。DNN是一種多層深度神經(jīng)網(wǎng)絡(luò)算法,包括輸入層、隱藏層和輸出層,層與層之間存在相互連接、具有某種線性關(guān)系的神經(jīng)元,再經(jīng)由激活函數(shù)得到分類結(jié)果。在模型訓(xùn)練階段,首先由隱藏層將語料中的詞轉(zhuǎn)化為固定維度的詞向量,以表示不同詞之間的語義關(guān)系,然后模型自動學(xué)習(xí)輸入語料的語言特征與人工標(biāo)注結(jié)果的關(guān)系;在測試階段,模型將對語料進(jìn)行同樣處理,輸出標(biāo)簽為“1”和“0”的分類結(jié)果及對應(yīng)概率。

4 實證分析

4.1 突破性論文摘要語言學(xué)特征

通過人工判別方式從395篇金標(biāo)準(zhǔn)數(shù)據(jù)集摘要(占總數(shù)的40.8%)中篩選出477個顯性描述文章突破性意義的句子,并提取出1 192個突破性特征句式。在含有顯性突破性特征句的摘要中,特征句在各語步中出現(xiàn)的概率分別為背景2.0%、目的16.6%、方法1.1%、結(jié)果13.7%、結(jié)論66.7%,說明作者撰寫摘要時更可能在目的、結(jié)果或結(jié)論中使用顯性表述闡明研究的突破性價值。在目的中出現(xiàn)次數(shù)較多的特征句式有“第1次(for the first time)”等,表明研究的重要意義;結(jié)果中出現(xiàn)較多的特征句式有“我們找到(we found)”“我們發(fā)現(xiàn)(we discovered)”等,說明研究的關(guān)鍵發(fā)現(xiàn);結(jié)論中出現(xiàn)較多的特征句式有“據(jù)我們所知(to our knowledge)”“提供……證據(jù)(provide...evidence)”等,突出研究的特殊價值或創(chuàng)新性貢獻(xiàn)。

4.2 突破性論文摘要識別模型訓(xùn)練結(jié)果

獲取5 000條ESI論文摘要(占近10年生物醫(yī)學(xué)ESI論文總數(shù)的6%)和5 000篇被JCR收錄的Q4期刊分區(qū)論文摘要,923篇摘要經(jīng)人工標(biāo)注后標(biāo)為“1”,9 077篇摘要標(biāo)為“0”,正負(fù)樣本比例約為1∶9。樣本不平衡可能影響預(yù)測結(jié)果,可以采用減少負(fù)樣本或增強正樣本的方法解決??紤]到減少負(fù)樣本可能忽略數(shù)據(jù)中的有用信息,本研究使用美國Protago實驗室提出的簡單數(shù)據(jù)增強技術(shù)(easy data augmentation,EDA)增加正樣本數(shù)量[18],使正負(fù)樣本比例達(dá)到1∶1,模型性能得到一定提升。

對摘要進(jìn)行語步劃分,其中含目的語步的摘要有7 975篇、結(jié)果8 658篇、結(jié)論9 738篇,使用不同語步作為輸入語料進(jìn)行自動識別模型訓(xùn)練,見表2。可以看出,使用語步訓(xùn)練的模型識別效果優(yōu)于使用摘要,而加入特征句能夠有效提升識別效果。整體而言,使用目的、結(jié)論語步和特征句的語料訓(xùn)練模型識別效果最好,F(xiàn)1值為0.835 1。

表2 突破性論文摘要識別模型訓(xùn)練結(jié)果

4.3 T細(xì)胞領(lǐng)域?qū)嵶C測試集

T細(xì)胞作為特殊淋巴細(xì)胞,在免疫系統(tǒng)中發(fā)揮著重要作用,識別T細(xì)胞生物學(xué)發(fā)展進(jìn)程中的重大突破,有助于未來研究人員對高效免疫治療方法的探索。實證測試集的正樣本包括兩個部分。一是Faculty Opinions數(shù)據(jù)庫中每篇受推薦的論文都有相應(yīng)評級與分類,評級說明研究的重要程度,exceptional等級重要程度最高,分類包括controversial、good for teaching、new finding等10類,其中new finding類表明該研究存在新發(fā)現(xiàn),被推薦為new finding類的次數(shù)越多可能表明研究首創(chuàng)性越強。評級為exceptional且被推薦為new finding類次數(shù)大于6的T細(xì)胞領(lǐng)域論文共125篇,約占該數(shù)據(jù)庫中T細(xì)胞領(lǐng)域受推薦文章的2%,是較頂尖的醫(yī)學(xué)論文,可視為潛在突破性論文。二是《自然》雜志于2022年12月推出T細(xì)胞“里程碑”系列專題,回顧過去60年內(nèi)T細(xì)胞研究關(guān)鍵進(jìn)展,并總結(jié)34篇相關(guān)里程碑文章。兩部分內(nèi)容去重后得到154篇正樣本論文。負(fù)樣本獲取方式與訓(xùn)練數(shù)據(jù)相同,以相同數(shù)量T細(xì)胞領(lǐng)域的Q4期刊分區(qū)論文作為負(fù)樣本,將測試集的摘要文本語料輸入識別模型后得到預(yù)測結(jié)果。

4.4 T細(xì)胞領(lǐng)域?qū)嵶C識別結(jié)果分析

4.4.1 識別效果評估 利用訓(xùn)練中識別效果最優(yōu)的“目的+結(jié)論+特征句”模型對T細(xì)胞領(lǐng)域測試集進(jìn)行識別,共識別出90篇突破性論文,其中65篇被收錄在Faculty Opinions數(shù)據(jù)庫或《自然》雜志“里程碑”系列,精確率為72.2%。在全部154篇正樣本中,有89篇未被識別為突破性論文,其中37篇摘要沒有表征論文突破性意義的句子,調(diào)整后對突破性論文識別的召回率為52.3%??傮w來看,本研究構(gòu)建的摘要識別模型一定程度上能夠識別出潛在突破性論文,精確率略高于召回率。

4.4.2 正樣本識別結(jié)果分析 進(jìn)一步分析正樣本中的兩類論文,F(xiàn)aculty Opinions數(shù)據(jù)庫的潛在突破性論文精確率為76.1%,召回率為43.2%,而《自然》雜志“里程碑”系列論文精確率為61.9%,召回率為39.4%,識別效果弱于Faculty Opinions數(shù)據(jù)庫論文??赡艿脑蚴恰袄锍瘫蓖悄骋谎芯糠较虻拈_創(chuàng)者,顛覆了過去的研究視角或模式,研究成果有待時間檢驗,作者在撰寫摘要時傾向于避免使用過于積極的話語表述,但具有開創(chuàng)性的里程碑論文畢竟是少數(shù),大多數(shù)突破性論文屬于領(lǐng)域內(nèi)的漸進(jìn)式重大進(jìn)展,相對而言作者在摘要中使用顯性特征句說明研究貢獻(xiàn)的概率更高。

5 結(jié)語

本研究在分析金標(biāo)準(zhǔn)突破性論文摘要語言學(xué)特征的基礎(chǔ)上,提取摘要突破性特征句式,并利用深度神經(jīng)網(wǎng)絡(luò)DNN訓(xùn)練突破性論文自動識別模型。實踐說明通過摘要的語步及語言學(xué)特征識別突破性論文具有可行性,能夠避免利用引文相關(guān)指標(biāo)進(jìn)行識別的時滯性問題,為突破性論文的早期識別提供參考。但本研究也存在局限性,在具體醫(yī)學(xué)領(lǐng)域中進(jìn)行實證時召回率較低,后續(xù)研究中可以將語言特征和計量特征相結(jié)合,驗證二者結(jié)合的方法是否能兼顧精確率與召回率,并盡可能實現(xiàn)早期識別。此外,模型語料中使用語步結(jié)構(gòu),語步識別工具精度會對模型實證研究結(jié)果造成一定影響。

猜你喜歡
語步突破性語料
特別策劃《突破性創(chuàng)新與突破性創(chuàng)新設(shè)計研究綜述》
包裝工程(2022年18期)2022-09-27 03:41:30
“雙超”油菜新品種選育取得突破性進(jìn)展
裁定書的語步結(jié)構(gòu)分析
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
新形勢下湖北省體育產(chǎn)業(yè)突破性發(fā)展思考
中外光學(xué)學(xué)術(shù)論文摘要非常規(guī)語步的對比分析
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
專家作者與學(xué)術(shù)新手間的摘要修辭對比研究
京津冀公衛(wèi)合作的突破性意義
《苗防備覽》中的湘西語料
潜山县| 南乐县| 平武县| 曲靖市| 沂南县| 吉木萨尔县| 高邑县| 龙口市| 临泽县| 武城县| 南丹县| 乡城县| 宕昌县| 大洼县| 庆元县| 北碚区| 疏勒县| 西乡县| 文昌市| 莱阳市| 万荣县| 文安县| 耿马| 天峻县| 香格里拉县| 南江县| 桦川县| 望谟县| 彭州市| 茌平县| 台中市| 新沂市| 监利县| 连山| 承德县| 常州市| 富阳市| 松溪县| 海宁市| 朔州市| 德江县|