陳憶金
科研論文數(shù)量迅速增長,如何在龐大的文本集合中快速獲得需要的信息是每一位研究人員急需解決的問題。讀者對科研論文全文內(nèi)容的需求與對特定部分內(nèi)容的需求同時存在。隨著知識資源形態(tài)的多樣化和用戶知識需求的精準化,學術文獻組織呈現(xiàn)出細粒度和語義化的發(fā)展趨勢[1-2],幫助用戶快速準確定位科學論文中的情報單元,并進行比較分析和戰(zhàn)略閱讀,就顯得尤為重要[3]。
理解學術論文研究方法的組成部分及結構具有重要意義。從語言學角度揭示作者的寫作意圖、修辭結構等語義特征,分析識別內(nèi)容組件,有助于實現(xiàn)深層次的知識組織與資源聚合[4]。學術論文研究方法的內(nèi)容構成結構復雜,規(guī)范描述并準確表達論文中的研究方法的語義屬性,是實現(xiàn)論文深度語義標引、知識挖掘和知識發(fā)現(xiàn)的基礎[5-7]。在學術論文知識單元研究[3,8]中,普遍將研究方法作為論文整體結構中的一部分,但沒有對研究方法自身的語義功能結構進行理想的表達,在一定程度上限制了學術論文研究方法這一重要情報的自動抽取和知識發(fā)現(xiàn)。
本文基于體裁理論,選取引文分析法、田野研究法、共詞分析法、實驗法、比較分析法和問卷調查法等6種研究方法為研究對象,剖析每種方法的知識單元構成;采用文本分析法,再選擇CSSCI圖情領域18種期刊,檢索使用以上6種研究方法的論文,進行知識單元層次的深度標引,作為知識庫構建語料;采用系統(tǒng)設計法,使用python的DjangoRestFramework框架,前端的html,css,Vue框架,mysql數(shù)據(jù)庫開發(fā)學術論文研究方法學習系統(tǒng);采用實驗法,招募30位研究生使用系統(tǒng),根據(jù)用戶體驗,使用可用性評價方法檢驗知識庫的可用性。
體裁理論是篇章語言學的重要分支,1981年由Swales在分析學術期刊論文導言部分時提出經(jīng)典的IMRD框架[9]。該理論強調每一種體裁都是參與者基于一個共同的目的而進行的交際事件。領域內(nèi)作者為了與同行或讀者交流,往往運用規(guī)范化的篇章結構表達固定的語義功能,彌補了單純從定量分析語篇的不足,透過文本篇章結構的分布情況挖掘文本的語義功能。隨后該理論在科技英語體裁分析中被廣泛應用,相關研究針對Swales理論框架及研究方法提出了不少修正意見。語輪是一個由一系列詞匯、主題意義和修辭特征所表明的具有統(tǒng)一意義傾向的語篇片段,語步則是為實現(xiàn)語輪的交際功能而劃分的更細小的步驟[10]。一個語輪可以包含一個或多個語步。
學術論文研究方法是指在科學研究、撰寫學術論文過程中所使用的研究方法,具體指的是整個研究過程中的思路、程序、策略和方法。讀者通過了解研究過程和方法,對研究成果的可靠性和質量有一個初步的判斷,同時某些研究結果可能與所采用的研究過程和方法密切相關。不同的研究方法有不同的使用環(huán)境,也會有不同的效果,具體在論文中使用哪種研究方法由論文的研究主題以及研究對象決定,且在一篇論文中往往不只使用一種研究方法。
陸偉等[1-2]提出一種研究性論文的結構功能框架以實現(xiàn)對學術文本的理解;王曉光等[3]以科學論文為研究對象,以功能單元理論為基礎,提出科學論文功能單元本體的設計方案,用于揭示科學論文正文各部分的語義特征;曹樹金等[4]為解決網(wǎng)絡信息資源聚合搜索的準確性,以體裁分析為理論基礎,構建了細粒度聚合單元的源數(shù)據(jù)描述框架。本文首先根據(jù)Swales[9]提出的IMRD模型,即介紹、方法、結果和討論4個語輪為實證型論文劃分依據(jù);然后根據(jù)楊瑞英[11]提出的介紹、理論基礎、論證和結論4個語輪為非實證型論文劃分依據(jù);再從圖書情報學期刊論文中,選擇以引文分析法、田野研究法、共詞分析法、實驗法、比較分析法、問卷調查法等為主要研究方法的文章,結合每種研究方法的具體應用,劃分語輪語步,以最小語步作為知識單元。
(1)引文分析法論文知識單元劃分。結合邱均平[12]提出的文獻計量學中有關引文分析法的介紹,使用引文分析法的文章中與該研究方法相關的內(nèi)容可以具體劃分為7個語輪22個語步。引文分析論文的知識單元劃分結果見表1。
(2)田野研究法論文知識單元劃分。田野研究包括6個主要步驟:提出研究問題;選擇調查點或調查對象;取得進入現(xiàn)場的資格;進入現(xiàn)場并與當?shù)鼐用窠⒂押藐P系;收集和分析資料;撰寫研究報告。根據(jù)田野調查步驟,可將田野調查法的應用規(guī)則總結為7個語輪19個語步。田野研究法的知識單元構成見表2。
(3)共詞分析法論文知識單元劃分。共詞分析過程是共詞分析理論研究的出發(fā)點,也是將其應用于實證的基準。運用共詞分析法進行文獻情報的分析研究知識單元可分為4個語輪11個語步,在實際操作上有些步驟是可以合并的或重復使用的。共詞分析法的知識單元構成見表3。
表1 引文分析法的知識單元分析
表2 田野調查法的知識單元分析
表3 共詞分析法的知識單元分析
(4)實驗法論文知識單元劃分。實驗法是為了發(fā)現(xiàn)社會現(xiàn)象之間的因果關系,對這種因果關系作出解釋。實驗要在特定條件下按照程序進行,需要精心準備后才能實施。根據(jù)實驗研究的程序,本文將實驗法的應用規(guī)則總結為5 個語輪23個語步。實驗法的知識單元構成見表4。
表4 實驗法的知識單元分析
(5)比較分析法論文知識單元劃分。本文對比較分析法在圖書情報領域中應用規(guī)則的構建以語輪和語步為單位,將比較分析法的應用規(guī)則總結為3個語輪11個語步,知識單元構成見表5。
表5 比較分析法的知識單元分析
(6)問卷調查法論文知識單元劃分。根據(jù)調查研究不同階段中的具體工作內(nèi)容,并結合圖書情報領域學術文章特點,本文將問卷調查法的應用規(guī)則總結為6個語輪31個語步。問卷調查法的知識單元構成見表6。
表6 問卷調查法的知識單元分析
本文選用學術期刊論文,將期刊來源限定為圖書情報領域的18種CSSCI核心期刊,使用高級檢索功能,以研究方法名稱作為檢索詞,檢索位置設置為全文,考慮人工處理樣本量的限制,設置了相應的時間范圍,分別在CNKI、萬方、維普3個數(shù)據(jù)庫中對使用相應研究方法的文章進行檢索。對檢索結果的篩選標準主要為:是否以該研究方法為主要研究方法,以及使用該研究方法的過程的規(guī)范性。最后用作研究方法論文知識庫的語料概況見表7。
表7 學術論文知識庫語料概況
知識庫的前端基于html5,css3,ES6 與Vue.js開發(fā)而成,實現(xiàn)與用戶交互的功能,方便后期維護[14]。后端語言選擇python開發(fā),其中在web 開發(fā)方面有眾多成熟框架,如Django,F(xiàn)lask,Tornado,每個框架都能滿足不同的開發(fā)需求,對快速開發(fā)web系統(tǒng)有極大的優(yōu)勢。不同需求會使用不同的數(shù)據(jù)庫,本系統(tǒng)選擇mysql作為關系型數(shù)據(jù)的數(shù)據(jù)庫,且為了方便后端進行數(shù)據(jù)庫設計,使用python 對應Django 框架下的ORM模型設計關系型數(shù)據(jù)庫;知識庫用戶訪問記錄等數(shù)據(jù)用非關系型數(shù)據(jù)庫redis進行存儲。
知識庫web系統(tǒng)的構建要基于能夠幫助用戶更便捷地學習和掌握某一論文研究方法的需求。用戶在學習某一研究方法時主要包括3個步驟:一是明確學習的研究方法;二是獲取研究方法的學習資料;三是學習和實踐研究方法。本文主要從第二個步驟考慮系統(tǒng)功能需求。
數(shù)據(jù)庫設計主要包括5個實體:論文實體、研究方法實體、方法語輪實體、方法語輪對應的語步實體、論文對應每個語步抽取的內(nèi)容實體。整個數(shù)據(jù)庫的設計符合三范式的原則,且根據(jù)已有數(shù)據(jù)對相應的實體屬性進行了一定的調整。
(1)數(shù)據(jù)來源。由于該系統(tǒng)的數(shù)據(jù)是學術論文研究方法的數(shù)據(jù),有較高的準確性要求,因此本系統(tǒng)的數(shù)據(jù)人工采集之后會再驗證準確性。數(shù)據(jù)包括研究方法的語輪、語步數(shù)據(jù),以及研究方法的論文案例對應各語步抽取的內(nèi)容數(shù)據(jù)。
(2)概念模型設計。本系統(tǒng)數(shù)據(jù)庫概念模型采用的ER圖模型,并使用UML的標準對ER圖進行描述,其中通過在線網(wǎng)站processon 提供的UML描述圖形進行ER圖設計,出于方便,在一對多和多對多的關系設計里用黑色菱形表示多的一方。完整的數(shù)據(jù)庫ER模型見圖1(P52)。
LIS學術論文研究方法知識庫的用戶交互界面見圖2(P52),設計了5個主要功能以滿足用戶對研究方法的學習需求。
該功能用于展示論文研究方法的知識單元,如圖2所示,左邊方法區(qū)域展示了用于測試的6種方法,用戶可以使用該功能有條理地學習各種研究方法,從而達到熟練掌握該方法的目標。
該功能用于展示對應每個方法的論文案例數(shù)據(jù),點擊每個方法的圖標可以查看到知識庫里標注使用了該方法的論文案例,且在右邊的搜索欄中輸入相應的關鍵字進行搜索可以對展示的論文案例進行篩選,檢索字段包括標題、來源期刊、主題、時間等。點擊相應的論文鏈接可以跳轉到相應的論文詳情頁。
該功能主要用于根據(jù)論文的屬性,包括論文題目、主題、關鍵詞、來源期刊等進行搜索,其中由于初始測試時導入的數(shù)據(jù)只包括論文標題、來源期刊,因此主要根據(jù)論文的期刊來源以及論文的標題作為檢索項進行搜索匹配,搜索的結果會顯示相應論文的來源期刊、標題以及所使用的論文方法,點擊論文標題可以跳轉至論文的詳情頁,該搜索頁面與論文案例板塊的搜索頁面不同點在于論文案例板塊的論文是首先根據(jù)論文方法進行分類后再對分類后的論文進行搜索,即以學習研究方法為導向進行論文的搜索學習,而論文搜索板塊的搜索則無研究方法的限制,搜索范圍是整個論文數(shù)據(jù)庫的論文,暫時不支持類似知網(wǎng)的高級搜索。
圖1 UML規(guī)范的ER圖
圖2 LIS學術論文研究方法知識庫用戶界面
該功能可以根據(jù)關鍵詞對論文進行搜索,對搜索的結果進行統(tǒng)計,可以根據(jù)論文的主題、
關鍵詞等進行搜索從而獲得該類主題論文的常用研究方法分布情況,對某主題學術研究領域的研究方法使用情況進行分析,即使用者可以首先根據(jù)“關鍵詞方法預覽”板塊的功能對準備進行研究的主題進行搜索獲得常用的該主題領域的研究方法,然后通過“方法介紹”“論文案例”板塊的功能對相應的論文研究方法進行學習。
該功能主要用于展示論文的詳情頁數(shù)據(jù)(如圖3),包括論文使用的研究方法、論文的標題、來源期刊以及論文對應研究方法每個語步抽取的論文內(nèi)容等,左邊的方法欄可以點擊每個語步使頁面移動到相應的位置,從而使用戶能根據(jù)需要來回切換,有針對性地對每個語步進行細致的學習。左下角的返回首頁按鈕可以點擊返回到網(wǎng)頁首頁。
本研究招募30位圖書情報學專業(yè)的碩士研究生作為樣本,其中研究生一年級樣本8個、二年級樣本15個、三年級樣本7個。每個被試者首先閱讀研究方法知識庫的功能介紹以及操作指南,然后使用研究方法知識庫的方法介紹、論文案例、論文搜索、關鍵詞-方法預覽4種主要功能,并基于其用戶體驗對系統(tǒng)進行可用性評價??捎眯栽u價基于系統(tǒng)可用性量表(SUS)[15]進行改進,采用五刻度量表進行測量,具體指標如表8所示,其中題1、3、5、7、9 為正面問題,題2、4、6、8、10為負面問題。
圖3 論文詳情頁頁面
對每個樣本的題項得分進行計算,正面問題轉化分值為x-1,負面問題轉化分值為5-x,所有題目得分后乘以2.5即得到介于0-100 的分值。根據(jù)30 位被試填寫問卷結果,統(tǒng)計得分為 S=84.5,該可用性分值大于國際公開資料顯示的均值(66.4)[16],說明該知識庫的可用性較好。各題項的平均得分分別為4.5、1.8、4.2、1.6、4.4、1.5、4.3、1.6、4.5、1.3。
表8 研究方法知識庫可用性評價量表
為探索圖書情報學領域學術論文中所使用的研究方法的語義功能,為用戶提供基于知識單元的細粒度檢索服務,本文在分析論文研究方法知識單元結構的基礎上,開發(fā)設計了學術論文研究方法知識庫,為用戶提供方法學習、論文案例、論文檢索、關鍵詞-方法預覽等功能。
首先,基于體裁理論來分析引文分析法、田野研究法、共詞分析法、實驗法、比較分析法和問卷調查法的知識單元構成。研究結果表明,體裁理論能為分析學術論文研究方法的語義特征提供理論和方法基礎。
其次,采用文本分析法,再選擇CSSCI圖書情報學領域的18種期刊中檢索使用6種研究方法的論文,對其進行知識單元層次的深度標引,知識庫的語料輸入知識庫。研究結果表明,基于體裁理論劃分的研究方法知識單元具有很好的語義表現(xiàn)能力,為深層次知識單元標引奠定了基礎。
再次,采用系統(tǒng)設計法,使用python 的DjangoRestFramework 框架,前端的html,css,Vue框架以及mysql數(shù)據(jù)庫開發(fā)具有4種功能的學術論文研究方法知識庫。研究結果表明,研究方法的知識單元分析是構建研究方法知識庫的重要前提,相較于已有的學術論文檢索系統(tǒng),該知識庫既能為用戶提供對具體研究方法的全局把握,更能為用戶提供具體使用研究方法的論文的細節(jié)以及語義檢索。
最后,采用實驗法,招募30位研究生使用系統(tǒng),并根據(jù)用戶體驗,對其可用性進行評價。研究結果表明,本研究設計的學術論文研究方法知識庫具有很好的可用性,用戶體驗良好。
總體而言,本研究揭示了論文研究方法使用過程各部分的語義特征,基于知識單元構成而設計的學術論文研究方法知識庫能有效幫助用戶學習研究方法,為學術論文研究方法內(nèi)容的深度語義標引和本體開發(fā)奠定了基礎,也為用戶提供細粒度、多維度的論文研究方法內(nèi)容的檢索服務,提供了一種有效的學術論文知識發(fā)現(xiàn)與知識挖掘途徑,完善了情報學視角下的學術論文研究方法的語義結構與功能理論,對面向知識發(fā)現(xiàn)的知識組織研究具有一定的參考意義。
后續(xù)研究方向包括:在知識單元構成基礎上構建研究方法的語義本體,增加更多的研究方法種類,豐富知識庫的功能,以及深入研究用戶需求與研究方法知識單元之間的聯(lián)系,為用戶提供更好的交互體驗等。
致謝 感謝華南師范大學經(jīng)濟與管理學院本科生林揚宇,研究生田燕飛、武佳佳、葉斌等在知識庫構建過程中的辛勤勞動。