国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

廣義洛特卡數(shù)據(jù)的混并

2016-06-16 02:59:18陳道蘭毛一波
大學(xué)圖書情報學(xué)刊 2016年2期
關(guān)鍵詞:特征參數(shù)交叉

陳道蘭,毛一波

(重慶文理學(xué)院,永川 402160)

?

廣義洛特卡數(shù)據(jù)的混并

陳道蘭,毛一波

(重慶文理學(xué)院,永川 402160)

摘要:從廣義洛特卡分布特征參數(shù)的解區(qū)間出發(fā),針對具有相容性的兩組科學(xué)生產(chǎn)數(shù)據(jù),驗(yàn)證了在有交叉的情況下混并后的數(shù)據(jù)仍然有可能滿足同一廣義洛特卡分布,表明無交叉條件不是數(shù)據(jù)混并前后滿足同一廣義洛特卡分布的必要條件。

關(guān)鍵詞:洛特卡分布;特征參數(shù);解區(qū)間;交叉;混并

引言

洛特卡定律、布拉德福定律和齊夫定律合稱情報學(xué)或文獻(xiàn)計量學(xué)的三大定律。洛特卡定律描述和揭示了不同科學(xué)生產(chǎn)率水平的科學(xué)工作者分布的規(guī)律,它是由美國著名的數(shù)學(xué)家洛特卡于1926年提出的[1]。洛特卡定律可以簡單地用公式xn·y(x)=c表示,其中x為論文數(shù)量,y(x)為寫x篇論文的作者占作者總數(shù)的比例,c,n為參數(shù)[2]。洛特卡最初在提出該定律時,曾指出n取值為2。20世紀(jì)80年代以后,學(xué)術(shù)界掀起了關(guān)于洛特卡定律實(shí)踐性檢驗(yàn)的熱潮。在洛特卡定律的普適性驗(yàn)證中研究者們發(fā)現(xiàn),洛特卡分布的特征參數(shù)n常常不囿于2,從而提出了廣義洛特卡定律[3]-[7]。由于在驗(yàn)證廣義洛特卡定律時,需要采集大容量的樣本,這給數(shù)據(jù)處理帶來了一定的難度。基于此,1992年張賢澳[8]提出了廣義洛特卡數(shù)據(jù)的混并方法,即將滿足一定條件的兩組小樣本數(shù)據(jù)進(jìn)行混并,通過小樣本的廣義洛特卡分布規(guī)律,試圖研究它們混并后得到的大樣本所具有的規(guī)律,這為降低大樣本數(shù)據(jù)的處理難度帶來了一定的方便。目前關(guān)于廣義洛特卡數(shù)據(jù)的混并一般僅限于無交叉條件的數(shù)據(jù)之間進(jìn)行混并,且此方面的文獻(xiàn)并不多見[9]-[11],特別是2000年后對數(shù)據(jù)的混并的研究更少[12]。

兩組具有相容性的數(shù)據(jù)如果有交叉,它們在混并后得到的數(shù)據(jù)是否也具有同一廣義洛特卡分布?或者說無交叉條件是數(shù)據(jù)混并后滿足同一廣義洛特卡分布規(guī)律的充分條件還是必要條件?因此研究在有交叉條件下兩組數(shù)據(jù)混并后是否仍然滿足同一廣義洛特卡分布是一個值得研究的課題。

本文從廣義洛特卡分布特征參數(shù)的解區(qū)間出發(fā),通過對幾組具有交叉的數(shù)據(jù),驗(yàn)證它們之間的相容性,從而在有交叉的情況下混并后也有可能服從同一廣義洛特卡分布,表明無交叉條件不是數(shù)據(jù)混并前后滿足同一廣義洛特卡分布的必要條件。

1特征參數(shù)的解區(qū)間和數(shù)據(jù)的相容性

為了研究科學(xué)生產(chǎn)數(shù)據(jù)的混并,需要涉及到廣義洛特卡分布特征參數(shù)的解區(qū)間和數(shù)據(jù)相容性的概念。

定義2:[14]設(shè)A、B為兩組科學(xué)生產(chǎn)數(shù)據(jù),其特征參數(shù)n的解區(qū)間交集非空,則稱A、B是弱相容的。如果A、B的特征參數(shù)n的最優(yōu)值均落在該交集內(nèi),則稱A、B是強(qiáng)相容的。A、B弱相容和強(qiáng)相容統(tǒng)稱A、B是相容的。

2有交叉數(shù)據(jù)的混并

性質(zhì)1:反映了兩組數(shù)據(jù)在無交叉并滿足其它條件情況下,混并后可以服從同一廣義洛特卡分布。如果兩組服從同一廣義洛特卡分布的數(shù)據(jù),在有交叉的情況下混并后是否也可以服從同一廣義洛特卡分布呢?下面以《情報理論與實(shí)踐》1989—2013年的著者數(shù)據(jù)為例,通過數(shù)據(jù)的解區(qū)間進(jìn)行研究,結(jié)果表明服從同一廣義洛特卡分布的兩組數(shù)據(jù)在有交叉的情況下混并后也可能服從同一廣義洛特卡分布。從而可知,性質(zhì)1的無交叉條件不是必要的。

以《中國期刊全文數(shù)據(jù)庫》(CNKI) 為調(diào)查統(tǒng)計源,對《情報理論與實(shí)踐》雜志1989-2013年發(fā)表的論文進(jìn)行收集整理,在數(shù)據(jù)統(tǒng)計時只統(tǒng)計國內(nèi)第一作者、多篇連載文章只按一篇統(tǒng)計[16]。按照上述原則,固定統(tǒng)計時間跨度(分別以10年、20年)、按不同統(tǒng)計初始時間得到著者數(shù)據(jù) (見下表1和表2);其次對所得到的著者數(shù)據(jù)利用非線性回歸方法[17]進(jìn)行洛特卡分布特征參數(shù)n的估算。

表1 《情報理論與實(shí)踐》雜志1989-2013年跨度10年著者情況(注:空白欄表示著者人數(shù)為0)

表2 《情報理論與實(shí)踐》雜志1991-2013年跨度20年著者情況(注:空白欄表示著者人數(shù)為0)

為了研究兩組有交叉數(shù)據(jù)的相容性,以及它們混并后的數(shù)據(jù)是否服從同一廣義洛特卡分布,根據(jù)前面關(guān)于相容性的定義和性質(zhì),只需要研究有交叉的數(shù)據(jù)及它們混并后的數(shù)據(jù)的解區(qū)間即可。對于數(shù)據(jù)的混并,可以理解為表1中1989-1998年的數(shù)據(jù)A和1999-2008年的數(shù)據(jù)B混并后得到表2中1989-2008年的數(shù)據(jù)A+B,顯然A、B中數(shù)據(jù)有交叉(因?yàn)樵?989-1998年發(fā)表文章的著者有一部分在1999-2008年也發(fā)表了文章,另外也可以從數(shù)據(jù)A和B各發(fā)表1篇文章的著者人數(shù)之和大于A+B發(fā)表1篇文章的著者人數(shù)體現(xiàn)出來)。同理,表2中1990-2009年的數(shù)據(jù)可視為表1中1990-1999年的數(shù)據(jù)和2000-2009年數(shù)據(jù)的混并,其余類推。

對于表1和表2中數(shù)據(jù)的混并,可利用張賢澳提出的非線性回歸方法[18],對這些數(shù)據(jù)計算出其特征參數(shù)n的解區(qū)間[19]和最優(yōu)值[20],研究其相容性和所服從的廣義洛特卡分布情況,得到下表3。

表3 數(shù)據(jù)混并前后特征參數(shù)n的解區(qū)間和最優(yōu)值

特征參數(shù)n的解區(qū)間[11]和最優(yōu)值的具體計算方法是: 先輸入表1(或2)中各行數(shù)據(jù),計算發(fā)表1至j篇論文的實(shí)際頻率,然后計算參數(shù)c值允許范圍(G-D,G+D)(其中G=y(1)/∑y(x)),再通過n,c值對應(yīng)關(guān)系[21]

(1)

反查出n的允許范圍(nk,nl) (公式(1)表明由c確定的隱函數(shù)n=n(c)無明確表達(dá)式,一般由公式(1)構(gòu)造n,c值對應(yīng)表,再通過對應(yīng)表由c值查出n值),再將(nk,nl)若干等分,對其所有分點(diǎn)n及其對應(yīng)的c進(jìn)行K—S檢驗(yàn),通過檢驗(yàn)的n的最小值和最大值之間的區(qū)間即為所求的解區(qū)間I=(nl,nr)。在解區(qū)間范圍內(nèi),以一定的步長,逐漸增大n值,進(jìn)行著者實(shí)際累計頻率與理論累積頻率的絕對偏差的計算,在絕對偏差最小的意義下從中選出n的最優(yōu)值。在最優(yōu)n值情況下,再由c-n值匹配表查出最優(yōu)的c值,然后進(jìn)行K-S檢驗(yàn)。若通過檢驗(yàn),表明符合洛特卡定律,反之則不符合。

從表3可以看出,1989-1998年的數(shù)據(jù)A和1999-2008年數(shù)據(jù)B的解區(qū)間交集IA∩IB=(2.5151,2.8380)非空,且它們的最優(yōu)值nA=2.5773,nB=2.7166∈IA∩IB,A、B強(qiáng)相容,混并后得到的1989-2008年的數(shù)據(jù)A+B的最優(yōu)值nA+B=2.5311落在IA∩IB之內(nèi), A、B、A+B均服從特征參數(shù)n=2.5311的同一廣義洛特卡分布。

同樣地,1991-2000年的數(shù)據(jù)A和2001-2010年數(shù)據(jù)B的解區(qū)間交集IA∩IB=(2.3379,2.6280)非空,但最優(yōu)值nA=2.6485?IA∩IB,A、B弱相容,混并后得到的1991-2010年的數(shù)據(jù)A+B的最優(yōu)n值落在IA∩IB之內(nèi), A、B、A+B均服從特征參數(shù)n=2.4632的同一廣義洛特卡分布。

但是,對于表3的1994-2003年的數(shù)據(jù)A和2004-2013年數(shù)據(jù)B的解區(qū)間的交集IA∩IB=(2.4351,2.4671)也非空,而最優(yōu)值nA=2.6950?IA∩IB,A、B弱相容,混并后得到的1994-2013年的數(shù)據(jù)A+B的最優(yōu)值nA+B=2.4222卻不落在IA∩IB之內(nèi),即混并后得到的數(shù)據(jù)A+B不服從混并前的廣義洛特卡分布規(guī)律。

3結(jié)論

本文利用廣義洛特卡分布特征參數(shù)的解區(qū)間,研究了兩組科學(xué)生產(chǎn)數(shù)據(jù)在有交叉的情況下的混并。從表3的結(jié)果來看,兩組服從同一廣義洛特卡分布的科學(xué)生產(chǎn)數(shù)據(jù),在有交叉的情況下,混并后得到的數(shù)據(jù)有可能服從同一廣義洛特卡分布,也有可能不服從同一廣義洛特卡分布。研究表明,無交叉條件不是數(shù)據(jù)混并前后滿足同一廣義洛特卡分布的必要條件。

參考文獻(xiàn):

[1] [2][8][13][14][15][17][18][20][21] 張賢澳.廣義洛特卡定理——估計、推論及其在管理中的應(yīng)用[M].廈門:廈門大學(xué)出版社,2002.14-24.

[3] 張賢澳.最小二乘法確定洛特卡定律參數(shù)的方法應(yīng)當(dāng)終結(jié)[J].情報學(xué)刊,1992,(6):415-419.

[4] 鐘云志,王春香,杜香莉.洛特卡定律研究中一個問題的探討[J].圖書情報工作,2005,(1):45-46.

[5][16] 尹方屏,張大為,劉靜偉.中國服裝學(xué)科論文著者的洛特卡分布研究[J].農(nóng)業(yè)圖書情報學(xué)刊,2007,(2):141-144.

[6] 孫振嘉,張向先.基于洛特卡定律的“科技信息資源”研究成熟度分析[J].情報理論與實(shí)踐,2012,(9):82-85.

[7] 周愛民.含零等級數(shù)據(jù)的洛特卡拓展模型[J].圖書情報工作,2013,(1):78-82.

[9] 張賢澳,林玲.關(guān)于我國林業(yè)科技論文作者洛特卡分布的研究[J].情報探索,1991,(2):10-16.

[10] 張賢澳.洛特卡_CA_著者科學(xué)生產(chǎn)率數(shù)據(jù)及分布[J].情報理論與實(shí)踐,1992,(2):10-13.

[11]張賢澳,李美文.廣義洛特卡定律參數(shù)特征的研究[J].情報探索,1996,(2):10-15.

[12]劉婧.文獻(xiàn)作者分布規(guī)律研究——對近十五年來國內(nèi)洛特卡定律、普賴斯定律研究成果綜述[J].情報科學(xué),2004,(1):123-128.

[19]陳道蘭,毛一波.文獻(xiàn)廣義洛特卡分布特征參數(shù)解區(qū)間的確定[J].情報雜志,2013,(10):161-163.

(責(zé)任編輯:傅正)

Merging of Generalized Lotka Data

CHEN Dao-lan, MAO Yi-bo

(Chongqing University of Arts and Sciences, Chongqing402160, China)

Abstract:This paper is based on the solution interval of the generalized Lotka data distribution characteristic parameter. In accordance with two compatible groups of scientific production data,it is verified that the merged data may still meet the same generalized Lotka distribution under intersection conditions, and shown that without intersection is not the necessary conditions to meet the same generalized Lotka distribution before or after data merging.

Key words:Lotka’s distribution; characteristic parameters; solution interval; data intersection; data merging

基金項目:重慶市教委科研項目(重教[KJ111213]);重慶文理學(xué)院校級科研項目(NO.Z2012TS02)

中圖分類號:G350

文獻(xiàn)標(biāo)識碼:A

文章編號:1006-1525(2016)02-0113-04

作者簡介:陳道蘭,女,館員。

收稿日期:2015-09-15

猜你喜歡
特征參數(shù)交叉
菌類蔬菜交叉種植一地雙收
故障診斷中信號特征參數(shù)擇取方法
基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
“六法”巧解分式方程
基于PSO-VMD的齒輪特征參數(shù)提取方法研究
基于視頻的車輛特征參數(shù)算法研究
基于數(shù)字圖像處理的粗集料二維形態(tài)特征參數(shù)分析
上海公路(2017年4期)2017-03-01 07:04:27
連數(shù)
連一連
基于Fast-ICA的Wigner-Ville分布交叉項消除方法
潞城市| 清丰县| 屯留县| 万安县| 方城县| 义乌市| 吉木萨尔县| 大石桥市| 宁海县| 黄大仙区| 新邵县| 东光县| 鄂州市| 武川县| 邵武市| 张家川| 南康市| 宜阳县| 资阳市| 昌宁县| 沙田区| 游戏| 新巴尔虎右旗| 安义县| 昌图县| 岳普湖县| 微山县| 金门县| 吉林省| 阿图什市| 墨脱县| 永福县| 蒙阴县| 杂多县| 随州市| 葫芦岛市| 临夏县| 宁安市| 信阳市| 巩义市| 隆安县|