陳 健,孫濟慶,吉久明
隨著我國高校國際化課程的發(fā)展,對外國教學參考書引進工作力度加大,引進外國教學參考書數量顯著增長。如何評價引進的外國教學參考書,對教學參考資料的質量應用客觀科學的評價方法,是引進教學參考書急需解決的問題。國內圖書館界對國外文獻資源評價的研究較少,現有文獻多為對外國教學參考書評價存在的問題、評價標準等定性研究,缺乏定量研究的過程與方法。
為了能定量地、客觀地對外國文獻資源質量進行評價研究,不能僅從單個指標或單角度進行評價,而應從反映文獻質量的多因素與多角度客觀評價,即在評價研究中需要引入更多的與外國文獻資源質量有關系的指標,對其進行綜合評價分析。本文提出的基于文獻外部特征的評價方法,綜合利用主成分分析法和投影尋蹤法對外國教學參考書質量進行評價研究,以期能達到客觀綜合評價國外文獻資源的目標。
主成分分析法作為基礎的定量分析方法,實際應用廣泛,比如人口統(tǒng)計學、農業(yè)科學、醫(yī)學等學科中均有應用[1-3];應用于期刊評價的研究比較多,比如張弘[4]等人利用主成分分析法對科技期刊評價。投影尋蹤模型在環(huán)境質量評價與環(huán)境監(jiān)測、交通安全評價、農業(yè)基礎科學、地震預報、水資源調查與水利規(guī)劃、經濟評價等方面得到了成功應用[5-10];應用于期刊評價的研究也開始出現,比如劉金福[11]等人利用投影尋蹤模型對我國農業(yè)類大學學報的學術水平進行綜合分析,周曉蔚和李春陽[12]用投影尋蹤和遺傳算法對期刊質量進行評價。這兩種方法相結合應用于外國教學參考書的評價還沒有出現過,具有較強的新穎性。主成分分析法與投影尋蹤法都是對高維評價指標的降維方法[13]。兩者有優(yōu)缺點。
在分析處理多指標問題時,由于指標之間往往存在著一定的相關性,使得指標數據所反映的信息存在重疊現象。主成分分析法可以用少數幾個互不相關的綜合指標來盡可能地反映原來指標數據所含有的絕大部分信息,避免信息重疊,減輕工作量。然而在求主成分綜合得分時,主成分分析法通常取各主成分的方差貢獻率作為權重;由于在實際問題中,通常第一主成分的特征值遠遠大于其他主成分的特征值,所以第一主分的方差貢獻也常常很大,而其他主成分的方差貢獻卻很小,這樣主成分綜合值對m 個主成分起到的綜合作用較小,因此取各主成分的方差貢獻率作為主成分權重的設定方法具有一定的主觀性[14]。
投影尋蹤法[15]將多維指標的教學參考書樣本數據按照某種投影方向投影到一維空間,根據投影值散布特征的要求構造投影指標函數,尋找出投影指標函數達到最優(yōu)時的投影值和最佳投影方向。投影尋蹤法是用來分析和處理高維觀測數據的一種統(tǒng)計方法,尤其是對于非線性、非正態(tài)高維數據有很好效果的。它要求選擇的指標之間相關性不能太大,否則會造成最終投影評價效果產生不好的影響。
基于上述對主成分分析法和投影尋蹤法優(yōu)缺點的分析,可以看出主成分分析法與投影尋蹤法具有優(yōu)勢互補的特點,主成分分析法可以彌補投影尋蹤法在評價指標選擇上的指標相關性不能太強的缺陷,投影尋蹤法可以通過尋找最佳投影方向來解決主成分分析方法在主成分權重的選擇上存在主觀性的問題。
本文依據文獻的外部特征選取了能較為客觀地反映文獻的質量的7 個評價指標:作者H指數(x1)、作者出版教學參考書種數(x2)、出版社選定學科五年影響因子(x3)、收藏該教學參考書的圖書館數(x4)、出版時間(x5)、出版版次(x6)、銷售排名(x7),提出一種結合主成分分析法和投影尋蹤法各自優(yōu)點的外國教學參考書質量評價模型。該模型既考慮指標的相關性問題,又在指標權重的選擇上能夠通過挖掘已有的數據信息,消除主觀因素的影響,可以使評價結果客觀科學。具體的建模過程如圖1 所示。
圖1 外國教學參考書質量評價建模過程示意圖
該模型的過程為:首先,運用主成分分析法通過原始數據標準化、計算相關矩陣、確定主成分個數得到主成分矩陣,把得到的主成分矩陣作為投影尋蹤法處理的原始數據;然后運用投影尋蹤法構造投影指標函數、優(yōu)化投影指標函數,從而得到最佳投影方向,進而計算得到投影值;最后根據得到的最佳投影方向和投影值對外國教學參考書質量進行綜合評價。
(1)原始數據標準化處理。為方便之后的投影尋蹤分析,在主成分分析之前先將逆指標和適度指標數據進行同趨勢化處理,確保所有指標數據都是正向指標。對逆指標一般采用倒數的方法;對于適度指標,當區(qū)間為[a,b]時采用公式x*i=1/|xi- (a+b)/2| 進行,其中xi為適度指標x 第i 個原始數據,x*i為適度指標正向化后數據。對樣本進行標準化變換[16],從而各項指標值具有可比性。
(2)計算標準化后兩兩指標間的相關系數,得到相關系數矩陣R。利用spss 軟件會自動求出。
(5)構造投影指標函數。將得到的主成分矩陣F 作為樣本集。設投影向量為α=[α(1),α(2),…,α(m)],樣本集F 一維投影值為Gi:
(6)投影指標函數可以表達成Q(a)=SGDG,SG為類間距離,等于投影值Gi的標準差,SG越大,散布越開;DG為局部密度,即:
R 為求局部密度的窗口半徑,一般取為0.1[17];rij表示樣本之間的距離,即|Gi- Gj|;u(t)為單位階躍函數,當t<0 時其值為0,當t≥0 時其值為1;DG越大,分類越顯著。
(7)優(yōu)化投影指標函數。由于投影指標函數Q(a)只隨投影方向α 的變化而變化,最佳投影方向α 能夠最大限度揭示高維數據的特征結構,因此投影尋蹤的關鍵是找到最佳投影方向α。此過程多采用遺傳算法[18],利用Matlab 軟件通過求解投影指標函數Q(a)最大化的問題來估計最佳投影方向,即:
(8)根據優(yōu)化得到的最佳投影方向α 可以計算出投影值Gi。根據Gi值的大小對外國文獻資源質量進行評價。
本文隨機選取哈佛大學和麻省理工大學各10 本教學參考書。以序號1 到10 賦予哈佛大學的教學參考書,以序號11 到20 賦予麻省理工大學的教學參考書。原始數據通過以上7 個指標在Web of knowledge 數據庫、亞馬遜網上書店、Worldcat 聯機書目數據庫和CALIS 聯合目錄公共檢索系統(tǒng)中搜集整理得到。具體數據信息如表1 所示。
表1 哈佛大學和麻省理工大學教學參考書基本信息表
由于銷售排名(x7)為逆指標,采用倒數的方法進行正向化處理,其余為正指標,不需要同趨勢處理。進行主成分分析,首先要進行KMO和Bartlett 的檢驗。KMO 統(tǒng)計量越接近1,表明指標間的相關性越強,越適合做主成分分析,一般要求該值大于0.5;Bartlett 球形檢驗認為顯著性值小于0.05 主成分分析才是適宜的。將整理后的數據導入spss19.0 進行KMO 和Bartlett 的球形檢驗,得到的KMO 值為0.655,Bartlett 球形檢驗的顯著性值為0.019,具備做主成分分析的條件。通過spss 軟件計算可以得到相關系數矩陣,從大到小排列的成分特征值、方差(貢獻率)、累計方差(累計貢獻率)如表2所示。
表2 成分特征值及方差累計方差信息表
本文選取累計貢獻率大于85%的前4 個成分作為主成分,即m=4,得到主成分因子載荷矩陣,即成分矩陣,如表3 所示。
表3 成分矩陣信息表
利用得到的主成分矩陣數據通過軟件Matlab7.0 建立投影尋蹤模型,此過程中設定樣本數量n=20,指標數m=4,交叉概率pc= 0.8.,變異概率pm=0.2,R=0.1。經計算得到,當目標函數Q(a)取最大值時,最佳投影方向向量α=(0.8815,0.1754,0.0445,0.4361),主成分矩陣、各樣本的投影值Gi 及排名如表4 所示。
表4 主成分矩陣、各樣本的投影值Gi及排名信息表
根據投影值Gi,可以得到哈佛大學和麻省理工大學教學參考書得分的散點圖,如圖2 所示。排名前10 位中,哈佛大學的占6 位,哈佛大學和麻省理工大學的教學參考書平均得分分別為0.42555 和- 0.42556。哈佛大學的教學參考書評價得分高于麻省理工大學的得分。這一結果與兩校綜合排名相符合,也與人們的普遍印象相一致,從而驗證基于主成分分析法和投影尋蹤法的外國文獻資源質量評價模型的可行性和科學合理性。
圖2 教學參考書得分散點圖
本文通過分析主成分分析法和投影尋蹤法優(yōu)缺點,提出了一種主成分分析法和投影尋蹤法相結合的外國教學參考書評價模型,既考慮評價指標相關性問題,又摒棄了權重選擇上存在主觀性的問題。通過案例分析和比較,驗證了該方法的有效性和科學合理性,彌補了現有外國教學參考書評價研究方法存在的不足,為外國文獻資源質量評價提供一種新思路和新方法。
[1] 楊興民,董安廣.主成分分析法在暫住人口統(tǒng)計分析中的應用[J].科技信息(學術研究),2007(23) .
[2] 于曉秋,任國春,儀秀琴,等.主成分分析方法在農業(yè)技術經濟效益評價上的應用[J].農業(yè)與技術,2007,27(3):120- 124.
[3] 余發(fā)軍,趙元黎,劉偉,等.主成分分析結合感知器在醫(yī)學光譜分類中的應用[J].光譜學與光譜分析,2008,28(10):2396- 2400.
[4] 張弘,趙惠祥,劉燕萍,等.基于主成分分析法的科技期刊評價方法[J].編輯學報,2008,20(1):87- 90.
[5] 王順久,張欣莉,侯玉,等.投影尋蹤聚類分析在環(huán)境質量綜合評價中的應用[J]. 三峽環(huán)境與生態(tài),2002,24(3):74- 76.
[6] 林雨,牛建峰,徐穎.道路交通安全宏觀評價投影尋蹤法[J].安全與環(huán)境學報,2011,11(2):221-223.
[7] 封志明,鄭海霞,劉寶勤.基于遺傳投影尋蹤模型的農業(yè)水資源利用效率綜合評價[J].農業(yè)工程學報,2005,21(3):66- 70.
[8] 王瓊,朱令人.投影尋蹤聚類在新疆地震預報中的應用[J].內陸地震,2005,19(1):8- 15.
[9] 王順久,侯玉,張欣莉,等.流域水資源承載能力的綜合評價方法[J].水利學報,2003(1):88- 92.
[10] 投影尋蹤模型在國民經濟綜合評價中的應用[J]. 運籌與管理,2005,14(5):85- 88.
[11] 劉金福,楊林香,李振華,等.基于投影尋蹤模型的科技期刊學術水平評價研究[J].圖書情報工作,2009,53(20):144- 147.
[12] 周曉蔚,李春陽.基于投影尋蹤和遺傳算法的期刊質量評價模型[J].情報科學,2013(2) .
[13] 劉睿劼,張智慧.基于兩階段降維的中國經濟發(fā)展協調性評價[J].中國人口·資源與環(huán)境,2011,21(9):117- 122.
[14] 徐永智,華惠川.對主成分分析三點不足的改進[J].科技管理研究,2009(6) .
[15] 段俊杰,蔣美紅,資文華,等.基于遺傳算法優(yōu)化的投影尋蹤烤煙質量綜合評價[J]. 湖北農業(yè)科學,2012,51(10):2040- 2044.
[16] 俞立平,潘云濤,武夷山.學術期刊綜合評價數據標準化方法研究[J]. 圖書情報工作,2009 (12) .
[17] Yang SL,Wang S,Gong D N. Approach to Weighted Geometric Evaluation Based on Projection Pursuit [J].Engineering Sciences,2006,4 (1):85- 88.
[18] 李世玲. 基于投影尋蹤和遺傳算法的一種非線性系統(tǒng)建模方法[J].系統(tǒng)工程理論與實踐,2005,25(4):22- 28.