劉明國
[摘要]在CNKI中國期刊全文數(shù)據(jù)庫中選取2001-2010近10年間關于語義網的研究論文共736篇,用文獻計量學的方法,結合內容分析法對這些論文進行分析。從近10年間論文量變化、論文的地區(qū)分布、論文作者的機構分布、作者分布、刊物分布等方面總結我國語義網應用研究的現(xiàn)狀,并預測今后5年內語義網應用研究的趨勢。
[關鍵詞]語義網應用;文獻計量學;內容分析法
[中圖分類號]TP39[文獻標志碼]B[文章編號]1005-6041(2012)03-0086-03
1、引言
萬維網的發(fā)明人蒂姆·伯納斯·亨爵士于15年前預見到了語義網的興起,我國關于語義網的研究起步于2002年。至今語義網已在諸多方面發(fā)揮其作用,例如:通用及垂直搜索引擎、文本助理工具、個人信息管理系統(tǒng)、語義瀏覽工具。近兩年,國外學者對語義網的應用研究集中在信息組織、虛擬組織、知識管理和Web 2.0等領域。除此之外,圖書館功能在語義網中的應用、受控詞表在語義網中的應用、語義網與數(shù)字圖書館的研究也正日漸倍受關注。
2、資料與方法
本文選用CNKI中國期刊網全文數(shù)據(jù)庫的數(shù)據(jù),從中搜集2001-2010年間有關語義網的學術研究論文并進行統(tǒng)計。檢索方法如下:使用關鍵詞檢索,檢索詞為“語義網”,范圍為“全部期刊”(包含EI來源期刊、SCI來源期刊、核心期刊和其他),匹配方式為“精確”。
3、結果與分析
3.1現(xiàn)狀分析
3.1.1從文獻量的變化看我國語義網應用研究的發(fā)展狀況。
(1)根據(jù)CNKI的檢索結果,2001-2010年間有關語義網的研究論文總量為736篇。經過手工去重、手工去除內容不合要求的文獻共64篇(如發(fā)刊詞、商業(yè)評論、會議記錄、人物訪談等),共得到文獻692篇(表1)。通過數(shù)據(jù)分析,我國對語義網的研究始于2002年,從2006年始文獻增長量趨于穩(wěn)定(調查時間為2010年7月15日)。
(2)語義網研究分為兩個方面:理論研究和應用研究。理論研究是針對語義網自身的研究,其可以是宏觀的理論研究,也可以是微觀的技術探索。應用研究是有關語義網理論或技術在其之外領域的應用,且語義網的理論和技術在其中起顯著作用。利用內容分析法將2001-2010年間有關語義網的692篇論文按“理論研究”和“應用研究”分類并計數(shù),理論研究的論文數(shù)量為237篇,占總量的35.27%;應用研究的論文量為435篇,占總量的64.73%。
(3)2001-2010年間,語義網應用研究各年的論文數(shù)量及其占當年語義網研究(包括理論研究和應用研究)的百分比制成表格,如表2所示。并將表2中的百分比以年為單位,制成年度折線圖,如圖1??梢钥闯?,語義網應用研究論文數(shù)量最多的年份是2006年,為92篇,同年語義網應用研究論文數(shù)量的百分比也為近10年中最高,77.87%。
通過對折線圖的分析,語義網應用研究的論文數(shù)量占語義網研究的百分比從2003年起趨于平穩(wěn),2003-2009年7年間,這個百分比的平均值為67.42%。這表明我國對語義網應用研究的重視程度較理論研究高,且從2003年起一直穩(wěn)定。
(4)通過內容分析法發(fā)現(xiàn),語義網應用研究已涉及眾多的領域。例如:圖情檔(信息檢索、數(shù)字圖書館、信息資源管理、個性化信息服務)、互聯(lián)網建設(e-learning、folksonomy、Web2.0、Web3.0、Web服務、網站建設、網絡安全、網絡社區(qū))、計算機科學(計算機編程、軟件開發(fā)、計算機工程、智能代理)、教育、國民經濟(工業(yè)、農林業(yè)、商業(yè)金融、物流、傳媒、進出口)、電子政務、軍隊建設,另外還包括地理學、生物學等。以上的各個領域之間有可能存在交叉,它們在各自發(fā)展成熟的過程中相互借鑒和融合,因此并不能截然劃分。對于內容交叉的論文,將根據(jù)內容主次,歸入其主要內容所屬的一類。
在上述眾多的研究領域當中,存在一些“熱點方向”和“新興方向”。熱點方向的論文數(shù)量較多,新興方向的論文數(shù)量較少且出現(xiàn)時間較晚。以占語義網應用研究論文總量的比重4%為界,超過4%的被稱作熱點方向,低于4%且第一篇論文出現(xiàn)的時間在2008-2010年間的被稱作新興方向。通過數(shù)據(jù)分析和內容分析,共得出6個熱點方向,分別是商業(yè)金融、Web服務、教學、數(shù)字圖書館、信息檢索、知識管理。論文數(shù)量比例合計占53.79%,論文數(shù)量最多的方向為信息檢索,為20%;4個新興方向,分別是智能代理、Web2.0/3.0、e-learning、計算機科學,論文數(shù)量比例合計占9.8%。如圖2表示為:
3.1.22001-2010年間論文的地區(qū)分布。
在本次統(tǒng)計中,標明作者單位的論文共計615篇。此處的作者指論文的第一責任人。除中央級單位的論文41篇之外,地方級高校和科研院所的論文數(shù)量為574篇。按照省(自治區(qū)、直轄市)的分布進行數(shù)據(jù)分析并按論文量多寡排序,得出的結論是,北京為論文量最多的地區(qū),有97篇,其次依次為湖北(62篇)、江蘇(53篇)、上海(47篇)、浙江(40篇)、廣東(39篇)、陜西(27篇)。其余省份不作枚舉。
2001-2010年間論文作者(指第一責任人)的機構分布。將作者單位按大專院校、科研機構、醫(yī)療單位及其他單位進行分類統(tǒng)計,每類再按“中央”“地方”“其他”分別統(tǒng)計,其結果見表3。
根據(jù)論文作者的單位進行分類統(tǒng)計排序之后得出,在2001-2010年間論文出產量最高的單位是武漢大學(25篇),其次依次為浙江大學(17篇)、北京大學(15篇)、清華大學(13篇)、同濟大學(13篇)、吉林大學(12篇)、中南大學(12篇)、華中科技大學(11篇)、南京大學(11篇)。其余不作枚舉。
3.1.3論文的作者分布情況。
據(jù)統(tǒng)計,2001-2010年間,發(fā)表論文最多的是中南大學信息科學與工程學院的徐德智、武漢大學計算機學院的虞為,各為5篇。應該指出的是,二人發(fā)表論文的年限均為2006-2008年間。
3.1.42001-2010年間文獻的刊物分布及排序。
經統(tǒng)計,發(fā)表論文量在10篇以上的刊物共有17種,共計234篇,占語義網研究文獻總量的34.82%。按刊載文獻量的多寡排序如表4。
3.2趨勢分析
一門學科的興衰動向與其表達科學成果的文獻數(shù)量和文獻內容結構緊密相連,并具某種相關性。預測2010-2014年語義網應用研究的論文數(shù)量及其相對于2009年論文數(shù)量的百分比,以觀察其增長情況見表5。
由表5可見,2014年關于語義網研究的論文數(shù)量將比2009年增長10.77%,2014年增長13.98%,2014論文數(shù)量年較2002年增長25.53倍。預計未來幾年,我國關于語義網應用研究仍將處于上升趨勢。