毛國(guó)敏,吳何珍,生冬梅
(1.中國(guó)地震局地球物理研究所,北京100081;2.中國(guó)地震局工程力學(xué)研究所,黑龍江 哈爾濱150080)
對(duì)數(shù)正態(tài)分布函數(shù)是一種常見(jiàn)的用來(lái)描述正偏態(tài)數(shù)據(jù)的分布,在實(shí)際問(wèn)題中有著非常重要的應(yīng)用.韓春明[1]對(duì)新疆西準(zhǔn)噶爾地區(qū)古生代地層銅的微量數(shù)據(jù)進(jìn)行統(tǒng)計(jì),認(rèn)為該地區(qū)古生代地層銅含量服從于對(duì)數(shù)正態(tài)分布;胡曉華等[2]對(duì)上海股票交易所584個(gè)交易日大盤日成交量進(jìn)行統(tǒng)計(jì)分析,認(rèn)為股市大盤日成交量服從或近似服從對(duì)數(shù)正態(tài)分布;于洋[3]介紹了對(duì)數(shù)正態(tài)分布在股票價(jià)格模型中的應(yīng)用.
期刊論文下載次數(shù)是一個(gè)非常客觀的指標(biāo),顯示論文被使用和受重視的程度,論文下載的次數(shù)越多說(shuō)明該論文受到同行的關(guān)注也越高.隨著期刊檢索系統(tǒng)的發(fā)展,獲取期刊論文被下載的數(shù)據(jù)已成為可能.本文利用期刊論文下載次數(shù)的數(shù)據(jù),運(yùn)用對(duì)數(shù)正態(tài)模型,研究期刊論文下載次數(shù)指標(biāo)的分布問(wèn)題.
本文的主要觀測(cè)對(duì)象是 《CT理論與應(yīng)用研究》期刊 (簡(jiǎn)稱A刊)論文下載次數(shù)的分布.A刊在中國(guó)學(xué)術(shù)期刊影響因子年報(bào)[4]中的學(xué)科類別為自動(dòng)化技術(shù)計(jì)算機(jī)技術(shù) (TP)類或軍事醫(yī)學(xué)與特種醫(yī)學(xué) (R8)類,2013年起科學(xué)類別更改為綜合性科學(xué)技術(shù) (N/Q,T/X)類或綜合性醫(yī)藥衛(wèi)生 (R)類,學(xué)術(shù)影響力一般,載文規(guī)模較小.為了進(jìn)一步驗(yàn)證期刊論文下載次數(shù)的分布規(guī)律,我們?cè)儆昧韮煞N不同學(xué)科類別、載文規(guī)模和學(xué)術(shù)影響力的B刊和C刊論文下載次數(shù)資料,分析其分布規(guī)律.其中:B刊為某地球物理 (P)類精品期刊,學(xué)術(shù)影響力較大,載文規(guī)模中等;C刊是為某高校學(xué)報(bào),學(xué)術(shù)影響力較大,載文規(guī)模較大.
A刊自創(chuàng)刊 (1992年)至2011年發(fā)表的不含信息、報(bào)道等有效論文1 063篇,其中有4條論文下載次數(shù)為0,與文獻(xiàn)[5]樣本數(shù)相比,本文刪除了4條下載為0的記錄.表1(見(jiàn) 101頁(yè))為3種期刊論文下載次數(shù)數(shù)據(jù)基本統(tǒng)計(jì)量,3種期刊的樣本數(shù)據(jù)分別為1 059、2 156和14 017.
從表1中的偏度和峰度系數(shù)的絕對(duì)值遠(yuǎn)大于0可知,3種期刊的論文下載次數(shù)的分布呈現(xiàn)左偏、尖峰態(tài),遠(yuǎn)偏離正態(tài)分布.從圖1(見(jiàn) 102頁(yè))中原數(shù)據(jù)0點(diǎn)的分布狀態(tài)也可直觀地看出左偏尖峰的分布特點(diǎn).原始數(shù)據(jù)來(lái)源于文獻(xiàn)[6、7],對(duì)數(shù)據(jù)感興趣的讀者可向作者索取.表2為從原始數(shù)據(jù)經(jīng)統(tǒng)計(jì)得到的A刊論文下載次數(shù)x及其概率y,B刊和C刊論文下載次數(shù)x及其概率y見(jiàn)表3.
表1 3種期刊論文下載次數(shù)數(shù)據(jù)基本統(tǒng)計(jì)情況
表2 A刊論文下載次數(shù)及其概率
表3 B刊和C刊論文下載次數(shù)及其概率
在概率論與數(shù)理統(tǒng)計(jì)學(xué)中,對(duì)數(shù)正態(tài)分布是對(duì)數(shù)為正態(tài)分布的任意隨機(jī)變量的概率分布.如果X是正態(tài)分布的隨機(jī)變量,則變量為對(duì)數(shù)正態(tài)分布;同樣,如果變量Y=exp(X)是對(duì)數(shù)正態(tài)分布,則為正態(tài)分布[8~10].
對(duì)于x>0,對(duì)數(shù)正態(tài)分布的概率分布函數(shù)為:
式中μ≥0,σ>0.
理論上,μ和σ分別為變量對(duì)數(shù)的平均值與標(biāo)準(zhǔn)差,相應(yīng)的分布函數(shù)為
根據(jù)分布函數(shù)和密度函數(shù)的定義[11、12],顯然,表2中的論文下載次數(shù)的概率y即為下載次數(shù)x的密度函數(shù),累積概率z即為x的分布函數(shù).根據(jù)y隨x的增加先快速上升、達(dá)最高點(diǎn)后又迅速下降、逐步趨近于0的特點(diǎn)(見(jiàn) 圖1原數(shù)據(jù)0點(diǎn)),我們不妨假設(shè)y與x的關(guān)系如公式(1),即假設(shè)論文下載次數(shù)的概率密度服從對(duì)數(shù)正態(tài)分布.
我們運(yùn)用SPSS20軟件工具中非線性迭代計(jì)算方法,用公式(1)模型對(duì)數(shù)據(jù)進(jìn)行擬合,并與理論對(duì)數(shù)正態(tài)分布進(jìn)行比較.為敘述方便和清晰起見(jiàn),先以A刊為例,利用對(duì)數(shù)正態(tài)函數(shù)為模型,對(duì)A刊論文下載次數(shù)的概率密度分布進(jìn)行分析,得到模擬結(jié)果.為了檢驗(yàn)?zāi)P偷目煽啃裕肂刊和C刊再做進(jìn)一步的驗(yàn)證.
表4為3種期刊論文下載次數(shù)分布的對(duì)數(shù)正態(tài)模型檢驗(yàn),從表4中A刊欄檢驗(yàn)統(tǒng)計(jì)量可知,A刊模型通過(guò)統(tǒng)計(jì)檢驗(yàn),F(xiàn)=994.255,且擬合優(yōu)度優(yōu)良,R2=0.898,說(shuō)明對(duì)數(shù)正態(tài)模型對(duì)A刊的論文下載次數(shù)的密度分布擬合是可行的,模型擬合可以解釋原數(shù)據(jù)89.8%的變異.
表5為3種期刊論文下載次數(shù)分布的對(duì)數(shù)正態(tài)模型參數(shù)估計(jì)及其檢驗(yàn),從表5中A刊欄檢驗(yàn)統(tǒng)計(jì)量可知,A刊的模型參數(shù)μ和σ的均通過(guò)檢驗(yàn),估計(jì)值分別為3.783、1.115,與理論值3.690、1.078非常接近.
表4 三種期刊論文下載次數(shù)分布的對(duì)數(shù)正態(tài)模型檢驗(yàn)
表5 三種期刊論文下載次數(shù)分布的對(duì)數(shù)正態(tài)模型參數(shù)估計(jì)及其檢驗(yàn)
圖1(a)為A刊下載次數(shù)的原數(shù)據(jù)、對(duì)數(shù)正態(tài)模型擬合及理論對(duì)數(shù)正態(tài)概率分布圖,圖中:點(diǎn)○為下載分布的原數(shù)據(jù),點(diǎn)*為對(duì)數(shù)正態(tài)模型擬合,點(diǎn)□為對(duì)數(shù)正態(tài)函數(shù)分布理論值.從圖1(a)點(diǎn)*曲線可見(jiàn),對(duì)數(shù)正態(tài)模型與原數(shù)據(jù)擬合良好,并且與理論函數(shù)基本重合.
通過(guò)上述分析,我們可以得出A刊論文的下載次數(shù)指標(biāo)服從對(duì)數(shù)正態(tài)分布.
為了進(jìn)一步驗(yàn)證論文下載次數(shù)服從對(duì)數(shù)分布這個(gè)結(jié)論的可靠性,我們?cè)倮肂刊和C刊的數(shù)據(jù),類似A刊的分析過(guò)程,經(jīng)統(tǒng)計(jì)檢驗(yàn),B刊和C刊也通過(guò)模型的檢驗(yàn)(見(jiàn) 表4中的B刊和C刊欄),論文下載指標(biāo)密度分布與對(duì)數(shù)正態(tài)函數(shù)擬合,且擬合優(yōu)度優(yōu)良,決定系數(shù)R2分別為0.959和0.972;由于B刊和C刊樣本比A刊大,與A刊相比擬合更優(yōu).模型參數(shù)μ和σ的也通過(guò)檢驗(yàn)(見(jiàn) 表5中的B刊和C刊欄),B刊的估計(jì)值分別為3.769和0.933,與理論值3.732、0.879非常接近,C刊為4.473和0.962,與理論值4.365、0.937也非常接近.對(duì)比圖1(b)和圖1(c)中點(diǎn)○和點(diǎn)□曲線,點(diǎn)○和點(diǎn)□基本重合,可直觀地看出B刊和C刊論文的下載次數(shù)是服從理論對(duì)數(shù)正態(tài)分布的.
圖2為3種期刊論文下載次數(shù)直方圖,從圖中明顯可看出期刊論文下載次數(shù)指標(biāo)是非正態(tài)的,呈左偏、尖峰態(tài).通過(guò)分析,我們知道了期刊論文下載次數(shù)指標(biāo)概率密度是服從對(duì)數(shù)正態(tài)分布的.那么,根據(jù)對(duì)數(shù)正態(tài)分布的性質(zhì),對(duì)x取對(duì)數(shù),即令v=ln(x),則v變量服從正態(tài)分布.圖3為3種期刊v的直方圖,從圖3看出,v的分布與正態(tài)分布幾乎是吻合的.
在撰寫本文過(guò)程中我們本著大膽假設(shè)、小心求證的態(tài)度,做了大量的探索性工作.為了充分驗(yàn)證,我們從A、B和C刊隨機(jī)抽取50%的數(shù)據(jù)進(jìn)行模擬,也證明論文下載次數(shù)指標(biāo)的概率密度服從對(duì)數(shù)正態(tài)分布.實(shí)際上,C刊是某高校學(xué)報(bào),包括:社會(huì)科學(xué)版 (1993~2002年)、農(nóng)業(yè)科學(xué)版(1994-)、哲學(xué)社會(huì)科學(xué)版 (2002-)、醫(yī)學(xué)版 (2006-),在文獻(xiàn)[6、7]中統(tǒng)稱為C刊,我們分別對(duì)C刊各分學(xué)科版樣本單獨(dú)進(jìn)行擬合,還將A刊和B刊兩個(gè)樣本相加組成的新樣本進(jìn)行擬合,都通過(guò)模型檢驗(yàn)且擬合優(yōu)度良好,得出類似如圖1的分布結(jié)果,對(duì)應(yīng)的直方圖也與圖2和圖3相似.通過(guò)這些探索性的分析工作,說(shuō)明期刊論文下載次數(shù)指標(biāo)概率密度服從對(duì)數(shù)正態(tài)分布具有 “加法性”,這種簡(jiǎn)單的分布特征可能揭示了論文下載次數(shù)隱含的某種普通規(guī)律性.
在運(yùn)用數(shù)理原理對(duì)觀察對(duì)象做統(tǒng)計(jì)分析時(shí),一般對(duì)數(shù)據(jù)的分布有一定要求,很多數(shù)理模型如方差分析和回歸分析要求數(shù)據(jù)服從正態(tài)分布[13、14].在我們以往觀察和研究期刊計(jì)量指標(biāo)關(guān)系時(shí)[5、15、16],發(fā)現(xiàn)其他指標(biāo)的偏度系數(shù)和峰度系數(shù)的絕對(duì)值遠(yuǎn)大于0,即指標(biāo)變量的密度分布遠(yuǎn)離標(biāo)準(zhǔn)正態(tài)函數(shù).實(shí)際上,許多社科類指標(biāo)的概率密度分布都不是正態(tài)的,這就為有效合理利用這些指標(biāo)做深入進(jìn)一步分析帶來(lái)了困難.當(dāng)指標(biāo)數(shù)據(jù)分布為非中心對(duì)稱時(shí),一般不能直接利用原始數(shù)據(jù)做分析,需要對(duì)原始數(shù)據(jù)的分布有所了解,在此基礎(chǔ)上做必要的變換,才能做有關(guān)的統(tǒng)計(jì)分析.
理論上,隨機(jī)變量的密度分布函數(shù),包含了該變量的全部信息.獲得變量的密度函數(shù),就等于掌握了變量的內(nèi)在規(guī)律,只有對(duì)變量的分布有所了解,才能合理、有效地利用數(shù)據(jù)進(jìn)行各種分析.因此,期刊指標(biāo)的分布規(guī)律研究是一項(xiàng)基礎(chǔ)性工作.
本文通過(guò)對(duì)不同學(xué)科類別、載文規(guī)模和學(xué)術(shù)影響力、有一定代表性的3種期刊進(jìn)行分析,得出期刊論文下載次數(shù)指標(biāo)x的概率密度服從對(duì)數(shù)正態(tài)分布,因此,一般不能直接用x與其他指標(biāo)如被引次數(shù)等做回歸等統(tǒng)計(jì)分析,必須對(duì)x做適當(dāng)?shù)淖儞Q.在理論上,如果對(duì)x取對(duì)數(shù)變換,v=ln(x),這樣v就能滿足正態(tài)分布的要求,可以利用v做各種對(duì)數(shù)據(jù)有要求的分析,為今后進(jìn)一步合理利用論文下載次數(shù)這一指標(biāo)提供了參考依據(jù).通過(guò)本文探索性的分析和研究,論文下載次數(shù)這種簡(jiǎn)單的對(duì)數(shù)正態(tài)分布規(guī)律有可能具有普適性,實(shí)際情況是否如此,有待進(jìn)一步驗(yàn)證.