胡學(xué)飛,李 兵,2,李增揚(yáng)
1(武漢大學(xué) 計(jì)算機(jī)學(xué)院,武漢 430072)2(武漢大學(xué) 復(fù)雜網(wǎng)絡(luò)研究中心,武漢 430072)3(華中師范大學(xué) 計(jì)算機(jī)學(xué)院,武漢 430079) E-mail:huxuefei@whu.edu.cn
計(jì)算機(jī)行業(yè)的快速發(fā)展使得軟件工程受到越來(lái)越多的關(guān)注,軟件系統(tǒng)也變得更加復(fù)雜.在如今信息化的時(shí)代,隨著人們對(duì)軟件的依賴程度不斷增加,提出的功能點(diǎn)也變得多樣,相應(yīng)的軟件系統(tǒng)必須不斷的升級(jí)或者打補(bǔ)丁來(lái)滿足需求,相應(yīng)的對(duì)代碼的質(zhì)量、整個(gè)軟件的架構(gòu)和安全性都有更高的標(biāo)準(zhǔn),這都大大的增加了軟件系統(tǒng)的復(fù)雜性[1].如何對(duì)這些復(fù)雜系統(tǒng)進(jìn)行研究,幫助其更好的發(fā)展顯得愈發(fā)重要.
20世紀(jì)90年代,復(fù)雜系統(tǒng)成為了一門獨(dú)立學(xué)科,90年代末,為了研究復(fù)雜系統(tǒng),產(chǎn)生了復(fù)雜網(wǎng)絡(luò)[2].復(fù)雜系統(tǒng)可以看作是由大量的有關(guān)聯(lián)的子系統(tǒng)構(gòu)成,我們?nèi)绻炎酉到y(tǒng)視為結(jié)點(diǎn),把它們之間的作用視為邊,那么復(fù)雜系統(tǒng)就可以看成是一個(gè)復(fù)雜網(wǎng)絡(luò).1998年,在復(fù)雜網(wǎng)絡(luò)的領(lǐng)域中,Watts和Strogatz提出了小世界網(wǎng)絡(luò)(Small World Network,簡(jiǎn)稱SWN)模型[3].1999年,Barabási和Albert又提出了無(wú)標(biāo)度特征[4,5].無(wú)數(shù)學(xué)者投入到復(fù)雜網(wǎng)絡(luò)理論的研究之中,大大促進(jìn)了其發(fā)展.
復(fù)雜網(wǎng)絡(luò)研究具有很強(qiáng)的跨學(xué)科特色,它可以與數(shù)理學(xué)科、生命學(xué)科和工程學(xué)科等其他學(xué)科聯(lián)系起來(lái),成為其他領(lǐng)域的研究方法[6].因此,復(fù)雜網(wǎng)絡(luò)研究作為一個(gè)新興的研究領(lǐng)域,受到格外的關(guān)注.同樣,復(fù)雜網(wǎng)絡(luò)理論研究給軟件工程研究也打開了新思路.以復(fù)雜網(wǎng)絡(luò)理論作為基礎(chǔ),將軟件中的源文件看作節(jié)點(diǎn),文件之間的關(guān)系看作邊,軟件系統(tǒng)則視為節(jié)點(diǎn)和邊的集合,對(duì)軟件系統(tǒng)結(jié)構(gòu)的研究就轉(zhuǎn)化為對(duì)其網(wǎng)絡(luò)圖的研究[7-9].
軟件項(xiàng)目開發(fā)的過(guò)程中,由于軟件故障或新功能需求,開發(fā)人員會(huì)對(duì)源文件不斷地修改,并將這些修改提交到版本控制系統(tǒng).通常,一次提交(commit)包括源文件的增加、刪除和修改,這些信息被保存在版本控制系統(tǒng)中.軟件項(xiàng)目源文件之間的引用調(diào)用數(shù)量可視為源文件間依賴(dependency)的強(qiáng)度,軟件開發(fā)的提交信息中源文件被同時(shí)修改(co-change)的次數(shù)視為其被同時(shí)修改的頻度.已有研究發(fā)現(xiàn)在Windows 7中,具有依賴關(guān)系的源文件更容易被同時(shí)修改[10,11],我們希望通過(guò)實(shí)驗(yàn)證實(shí)在開源軟件中也存在這個(gè)規(guī)律,即依賴關(guān)系的強(qiáng)度和它們的同時(shí)修改的頻度具有一致性.如果存在同時(shí)大量被修改的源文件不存在依賴關(guān)系,我們發(fā)現(xiàn)其中往往有問(wèn)題,這些問(wèn)題會(huì)導(dǎo)致整個(gè)項(xiàng)目質(zhì)量的降低.所以,我們通過(guò)不符合一致性的源文件進(jìn)一步探索其中存在的問(wèn)題.
復(fù)雜網(wǎng)絡(luò)理論研究給我們提供了很好的方法.對(duì)于一個(gè)軟件系統(tǒng),將文件視為點(diǎn),文件之間的關(guān)系視為邊,關(guān)系的強(qiáng)弱視為邊權(quán),復(fù)雜的軟件系統(tǒng)就可以用加權(quán)網(wǎng)絡(luò)來(lái)表示.我們分別根據(jù)兩源文件的依賴和同時(shí)修改關(guān)系,構(gòu)建依賴關(guān)系網(wǎng)絡(luò)(dependency network)和同時(shí)修改關(guān)系網(wǎng)絡(luò)(co-change network).使用了Girvan-Newman算法[12](GN算法)對(duì)軟件的依賴關(guān)系網(wǎng)絡(luò)和同時(shí)修改關(guān)系網(wǎng)絡(luò)進(jìn)行了社區(qū)劃分.我們猜想根據(jù)兩種關(guān)系劃分出來(lái)的結(jié)果會(huì)表現(xiàn)出一致性,對(duì)于成功優(yōu)秀的項(xiàng)目,實(shí)驗(yàn)結(jié)果證實(shí)了我們的猜想,而對(duì)于質(zhì)量較低的項(xiàng)目則結(jié)果不理想,我們對(duì)有出入的地方進(jìn)行分析,找出不一致源文件出現(xiàn)的原因,如代碼的復(fù)制粘貼、混亂的引用等,給軟件中問(wèn)題的發(fā)現(xiàn)方法提供新思路.
本文的組織結(jié)構(gòu)如下:第2節(jié)我們將具體的介紹實(shí)驗(yàn)的方法,對(duì)實(shí)驗(yàn)中的項(xiàng)目選擇、數(shù)據(jù)收集和處理、實(shí)驗(yàn)過(guò)程等做詳細(xì)的說(shuō)明;第3節(jié),給出實(shí)驗(yàn)結(jié)果,驗(yàn)證猜想并分析出現(xiàn)不一致的原因;第4節(jié),對(duì)實(shí)驗(yàn)和未來(lái)的工作進(jìn)行討論;第5節(jié),得出結(jié)論.
本節(jié)闡述了本文的研究目的,并根據(jù)研究目的提出研究問(wèn)題,設(shè)計(jì)分析項(xiàng)目中源文件的依賴關(guān)系和其同時(shí)修改關(guān)系一致性的研究過(guò)程.
本文的研究目的是用復(fù)雜網(wǎng)絡(luò)理論的方法,證明項(xiàng)目中源文件依賴關(guān)系和其同時(shí)修改關(guān)系具有一致性,并通過(guò)不符合一致性的源文件發(fā)現(xiàn)其中存在的問(wèn)題.基于該研究目標(biāo),我們定義以下研究問(wèn)題(Research Question,簡(jiǎn)稱RQ):
RQ1:項(xiàng)目中源文件之間的依賴關(guān)系和同時(shí)修改關(guān)系是否存在一致性?
通過(guò)此研究問(wèn)題,我們希望驗(yàn)證我們提出的兩種關(guān)系存在一致性的猜想.為進(jìn)一步研究奠定基礎(chǔ).
RQ2:出現(xiàn)源文件依賴關(guān)系和同時(shí)修改關(guān)系不一致現(xiàn)象的項(xiàng)目可能存在哪些問(wèn)題?
通過(guò)此研究問(wèn)題,我們希望從兩種關(guān)系不一致的項(xiàng)目中發(fā)現(xiàn)可能存在的問(wèn)題.發(fā)現(xiàn)一種新的項(xiàng)目問(wèn)題的識(shí)別方法.
為了得到研究問(wèn)題的答案,我們?cè)O(shè)計(jì)本次實(shí)驗(yàn)分為四個(gè)階段,分別是數(shù)據(jù)收集、數(shù)據(jù)處理、源文件劃分、實(shí)驗(yàn)結(jié)果分析.具體流程見圖1.
圖1 實(shí)驗(yàn)流程圖Fig.1 Experiment procedure
A:數(shù)據(jù)收集
此次實(shí)驗(yàn)研究對(duì)象是Java項(xiàng)目,僅僅分析Java源文件,忽略其他類型的源文件.近些年來(lái)網(wǎng)站和各種企業(yè)管理系統(tǒng)快速發(fā)展,Java作為開發(fā)此類項(xiàng)目的流行語(yǔ)言受到越來(lái)越多的關(guān)注,并且應(yīng)用范圍越來(lái)越廣,再者,關(guān)于Java的分析工具比較成熟,所以我們選擇了Java項(xiàng)目.
軟件項(xiàng)目源文件之間的引用調(diào)用數(shù)量可視為源文件間依賴的強(qiáng)度,如文件A中有2處引用了文件B中的類,我們就認(rèn)為文件A與文件B之間存在依賴關(guān)系,并且依賴強(qiáng)度為2.為了研究項(xiàng)目源文件的依賴關(guān)系,我們使用靜態(tài)項(xiàng)目分析軟件Understand(http://understand-china.com),它集成了代碼編輯器,能將分析結(jié)果以各種形式呈現(xiàn)給用戶.借助Understand,將項(xiàng)目代碼導(dǎo)入后可以方便地獲取到源文件之間依賴關(guān)系的相關(guān)數(shù)據(jù).
為了研究項(xiàng)目中源文件的同時(shí)修改關(guān)系,我們?cè)贕itHub上獲得項(xiàng)目的代碼及其提交日志.通過(guò)Git版本控制系統(tǒng)的源客戶端TortoiseGit我們可以下載項(xiàng)目的全部代碼,并得到開發(fā)過(guò)程的提交日志.
B:數(shù)據(jù)處理
借助Understand工具,很方便能導(dǎo)出源文件的依賴關(guān)系.我們開發(fā)了一個(gè)工具從Understand導(dǎo)出的Excel文件中提取出兩文件名和總依賴數(shù).最后得到的是項(xiàng)目中每?jī)蓚€(gè)有依賴關(guān)系的源文件名稱及其調(diào)用引用的數(shù)目,即源文件名A,源文件名B,調(diào)用引用數(shù)目x.
軟件項(xiàng)目源文件之間的同時(shí)修改關(guān)系要對(duì)項(xiàng)目開發(fā)過(guò)程中的提交日志進(jìn)行數(shù)據(jù)處理.在項(xiàng)目的提交日志中,每?jī)蓚€(gè)在同一個(gè)提交記錄中增加或者修改的源文件都被認(rèn)為是同時(shí)修改,其他情況,如刪除或者修改版本號(hào)則不視為修改.我們計(jì)算每?jī)蓚€(gè)源文件在所有提交記錄中同時(shí)修改的次數(shù).得到的是每?jī)蓚€(gè)有同時(shí)修改關(guān)系的源文件名稱及其同時(shí)修改的次數(shù),即源文件名A,源文件名B,同時(shí)修改次數(shù)x.圖2中,我們會(huì)得到如下三條記錄:A.java,B.java,1;A.java,C.java,1;B.java,C.java,2.
需要指出的是,在數(shù)據(jù)中存在大量同時(shí)修改次數(shù)很少的記錄,它們產(chǎn)生的原因主要是項(xiàng)目一次提交中提交了大量源文件的修改信息,其中存在沒(méi)有任何關(guān)系的源文件也被同時(shí)提交.在后續(xù)的實(shí)驗(yàn)中進(jìn)行了社區(qū)劃分,經(jīng)過(guò)對(duì)衡量網(wǎng)絡(luò)中社區(qū)穩(wěn)定度的模塊化度量值Q[12,13]的計(jì)算,我們發(fā)現(xiàn)這種數(shù)據(jù)對(duì)源文件的劃分的準(zhǔn)確性產(chǎn)生了很大的影響,即Q值很低,這些數(shù)據(jù)也極大的影響了數(shù)據(jù)處理的速度,所以我們嘗試著去除掉次數(shù)較少的數(shù)據(jù)使社區(qū)比較穩(wěn)定,即Q值大于0.5.經(jīng)過(guò)不斷試驗(yàn),對(duì)于我們研究的幾個(gè)項(xiàng)目中,去掉次數(shù)小于3的數(shù)據(jù)能使Q值大于0.5,數(shù)據(jù)的處理速度也在可以接受的范圍.我們刪除了次數(shù)小于3的數(shù)據(jù),但是這種處理也對(duì)實(shí)驗(yàn)結(jié)果造成一定的影響.
圖2 同時(shí)修改數(shù)據(jù)處理說(shuō)明附圖Fig.2 co-change data processing
在源文件劃分階段,我們開發(fā)了一個(gè)程序進(jìn)行數(shù)據(jù)處理,程序輸入為數(shù)字格式而不是文本格式.為了讓數(shù)據(jù)符合下一步劃分所使用程序的輸入格式,我們需要將項(xiàng)目中的文件進(jìn)行編號(hào),并記錄下源文件名和數(shù)字編號(hào)的對(duì)應(yīng)關(guān)系,然后將依賴關(guān)系數(shù)據(jù)和同時(shí)修改數(shù)據(jù)中的源文件名稱都改為相應(yīng)的編號(hào).此步驟結(jié)束后,我們會(huì)得到均為數(shù)字的依賴關(guān)系數(shù)據(jù)和同時(shí)修改數(shù)據(jù),還有兩數(shù)據(jù)共用的一份源文件名與編號(hào)對(duì)應(yīng)表.
C:源文件劃分
社區(qū)結(jié)構(gòu)是復(fù)雜網(wǎng)絡(luò)的一個(gè)特性,整個(gè)網(wǎng)絡(luò)是由很多社區(qū)組成的,社區(qū)中的結(jié)點(diǎn)聯(lián)系很緊密,社區(qū)之間的聯(lián)系比較少.為了比較兩個(gè)網(wǎng)絡(luò),我們將問(wèn)題轉(zhuǎn)化為社區(qū)的比較,因?yàn)槿绻麅煞N關(guān)系具有一致性,社區(qū)劃分也會(huì)具有一致性,通過(guò)社區(qū)比較,可以發(fā)現(xiàn)關(guān)系不一致的地方.我們使用了GN算法對(duì)軟件的依賴關(guān)系網(wǎng)絡(luò)和同時(shí)修改關(guān)系網(wǎng)絡(luò)進(jìn)行了社區(qū)劃分.
GN算法最初由Michelle Girvan和Mark Newman提出[12],是經(jīng)典的社團(tuán)發(fā)現(xiàn)算法,屬于分裂的層次聚類算法,常用于研究復(fù)雜網(wǎng)絡(luò)中的聚類特性.該算法根據(jù)網(wǎng)絡(luò)中社團(tuán)內(nèi)部高內(nèi)聚、社團(tuán)之間低內(nèi)聚的特點(diǎn),逐步去除社團(tuán)之間的邊,取得相對(duì)內(nèi)聚的社團(tuán)結(jié)構(gòu).算法用邊介數(shù)的概念來(lái)探測(cè)邊的位置[13],某邊的邊介數(shù)定義為網(wǎng)絡(luò)上所有頂點(diǎn)之間的最短路徑通過(guò)該邊的次數(shù).由定義可知,如果一條邊連接兩個(gè)社團(tuán),那么這兩個(gè)社團(tuán)節(jié)點(diǎn)之間的最短路徑通過(guò)該邊的次數(shù)就會(huì)最多,相應(yīng)的邊介數(shù)最大.如果刪除該邊,那么兩個(gè)社團(tuán)就會(huì)分割開.GN算法就是基于此思想反復(fù)計(jì)算當(dāng)前網(wǎng)絡(luò)的最短路徑,計(jì)算每條邊的邊介數(shù),刪除邊介數(shù)最大的邊.最后在一定條件下,算法停止,即可得到網(wǎng)絡(luò)的社團(tuán)結(jié)構(gòu),網(wǎng)絡(luò)中社區(qū)穩(wěn)定度用模塊化度量值Q衡量[13].
我們將源文件視為節(jié)點(diǎn),它們之間的依賴關(guān)系,同時(shí)修改關(guān)系作為兩源文件的邊,軟件系統(tǒng)可以視為復(fù)雜網(wǎng)絡(luò),這里用依賴網(wǎng)絡(luò)和同時(shí)修改網(wǎng)絡(luò)來(lái)命名根據(jù)兩種關(guān)系形成的復(fù)雜網(wǎng)絡(luò).將依賴關(guān)系數(shù)據(jù)和同時(shí)修改數(shù)據(jù)作為GN算法的輸入,對(duì)兩種網(wǎng)絡(luò)進(jìn)行劃分.得到的是根據(jù)兩種關(guān)系得到的兩種網(wǎng)絡(luò)社區(qū)劃分結(jié)果.
D:實(shí)驗(yàn)結(jié)果分析
為了幫助分析依賴關(guān)系網(wǎng)絡(luò)和同時(shí)修改關(guān)系網(wǎng)絡(luò),我們定義了兩個(gè)概念:關(guān)系簇和奇異點(diǎn).
1.關(guān)系簇(relation cluster)定義為:
在同一個(gè)軟件系統(tǒng)中,一部分源文件無(wú)論在依賴關(guān)系網(wǎng)絡(luò)中還是同時(shí)修改關(guān)系網(wǎng)絡(luò)中都被分進(jìn)同一個(gè)社區(qū),這部分源文件被稱為一個(gè)關(guān)系簇.
2.奇異點(diǎn)(strange node)定義為:
在依賴關(guān)系網(wǎng)絡(luò)中或者是同時(shí)修改關(guān)系網(wǎng)絡(luò)中,如果存在某個(gè)文件不屬于當(dāng)前社區(qū)中任何一個(gè)關(guān)系簇,則稱這個(gè)文件為奇異點(diǎn).
圖3 關(guān)系簇和奇異點(diǎn)概念圖Fig.3 Concept graphs of relation clusters and strange points
圖3中,A、B、C三個(gè)點(diǎn)在兩個(gè)網(wǎng)絡(luò)中都被分在一個(gè)社區(qū)中,因此,它們組成一個(gè)關(guān)系簇,而F不屬于依賴關(guān)系網(wǎng)絡(luò)社區(qū)1中任何一個(gè)關(guān)系簇,所以F為奇異點(diǎn).我們對(duì)每個(gè)社區(qū)計(jì)算它的總節(jié)點(diǎn)數(shù),關(guān)系簇?cái)?shù)和奇異點(diǎn)數(shù).如果存在奇異點(diǎn),它對(duì)應(yīng)的源文件可能指示質(zhì)量問(wèn)題,我們將對(duì)奇異點(diǎn)出現(xiàn)的原因做仔細(xì)的探究.
軟件項(xiàng)目數(shù)目龐大,質(zhì)量參差不齊.為了更好的研究源文件依賴關(guān)系及其同時(shí)修改關(guān)系的一致性,我們選取了評(píng)價(jià)較好,關(guān)注度高的項(xiàng)目Tomcat_9_0_0_M21(https://codeload.github.com/apache/tomcat/zip/TOMCAT_9_0_0_M21),截取2006年3月27日至2017年5月5日的提交信息進(jìn)行研究.為了尋找項(xiàng)目的源文件中兩種關(guān)系不一致情況下可能存在的問(wèn)題,我們選取了Tomcat(https://github.com/apache/tomcat)早期版本,即2013年7月2日之前的版本,和評(píng)價(jià)次數(shù)較少,關(guān)注度較低的Restunit(https://github.com/davetron5000/restunit)項(xiàng)目,更新截止時(shí)間為2008年12月21日.
每一個(gè)項(xiàng)目供實(shí)驗(yàn)使用的數(shù)據(jù)首先包括項(xiàng)目文件名稱與編號(hào)對(duì)應(yīng)表,其次,根據(jù)兩文件之間的依賴關(guān)系和實(shí)際關(guān)聯(lián),分別得到的依賴關(guān)系表和實(shí)際關(guān)聯(lián)表,格式均為“文件編號(hào)1,文件編號(hào)2,強(qiáng)度”,最后是根據(jù)兩種關(guān)系的劃分結(jié)果數(shù)據(jù),每一行為一個(gè)社區(qū),社區(qū)以文件編號(hào)組成.具體數(shù)據(jù)我們提交至github(https://github.com/huxuefei/hu.git)上.
表1是tomcat根據(jù)同時(shí)修改劃分的實(shí)驗(yàn)結(jié)果.其中,有一部分社區(qū)有相同的總節(jié)點(diǎn)數(shù),關(guān)系簇?cái)?shù),奇異點(diǎn)數(shù),因此我們把這些社區(qū)表示在同一行.例如,表1第一列的17-21表示社區(qū)編號(hào)在17至21之間的所有社區(qū).對(duì)于項(xiàng)目Tomcat的實(shí)驗(yàn)結(jié)果,我們從表1可以看出,根據(jù)同時(shí)修改劃分的每一社區(qū)中的源文件之間大部分是有依賴的,這在一方面證明了我們的猜想,大量同時(shí)修改的源文件往往是有依賴關(guān)系的.
比如劃分塊4,其中源文件在根據(jù)同時(shí)修改關(guān)系的劃分和根據(jù)依賴關(guān)系的劃分上都被劃分在一個(gè)社區(qū),這是由于有依賴的源文件一旦其中一個(gè)做出修改,調(diào)用此源文件和被此源文件調(diào)用的源文件就有很大可能需要做出修改.
我們發(fā)現(xiàn)實(shí)驗(yàn)結(jié)果中存在奇異點(diǎn),它們表示源文件被大量提交而它們之間不存在依賴關(guān)系,這似乎與我們的假設(shè)有出入,仔細(xì)探究其出現(xiàn)原因,我們發(fā)現(xiàn)奇異點(diǎn)跟關(guān)系簇中的某些結(jié)點(diǎn)有很少的引用數(shù)目,但是在根據(jù)依賴關(guān)系的劃分中并沒(méi)有歸為一個(gè)社區(qū),從而成了奇異點(diǎn).所以,單純以引用和調(diào)用的數(shù)量來(lái)判定兩源文件的依賴關(guān)系大小并不全面,但是只是在少量的源文件點(diǎn)中出現(xiàn)差錯(cuò),經(jīng)過(guò)排查,我們的猜想是成立的.
表1 Tomcat根據(jù)同時(shí)修改劃分Table 1 Tomcat partition according to co-change
表2描述了tomcat根據(jù)依賴關(guān)系劃分的情況,我們可以看出根據(jù)依賴關(guān)系被劃分到一個(gè)社區(qū)中的源文件在同時(shí)修改關(guān)系劃分中也很可能被分到同一個(gè)社區(qū),說(shuō)明具有較強(qiáng)依賴性的源文件在實(shí)際開發(fā)中更容易被同時(shí)修改.這在另一方面證明了我們的猜想,具有依賴關(guān)系的源文件往往會(huì)被同時(shí)修改.
表2 Tomcat根據(jù)依賴關(guān)系劃分Table 2 Tomcat partition according to dependencies
同樣,根據(jù)依賴關(guān)系劃分的社區(qū)中也存在奇異點(diǎn),它們表示源文件有較強(qiáng)的依賴關(guān)系而它們沒(méi)有被大量提交.我們分析發(fā)現(xiàn)其存在也是合理的.有些源文件與其他源文件有很強(qiáng)的依賴關(guān)系,但其本身修改的次數(shù)就非常少,在刪除同時(shí)修改次數(shù)小于3的數(shù)據(jù)的處理中,這些數(shù)據(jù)被刪除,從而產(chǎn)生了奇異點(diǎn).但這與我們的猜想并不違背.
綜上,雖然兩種劃分中都存在奇異點(diǎn),但數(shù)量很小,并且其存在有合理的解釋,所以說(shuō)Tomcat項(xiàng)目的源文件依賴和其同時(shí)修改關(guān)系有較好的一致性,在評(píng)價(jià)高,優(yōu)秀的Tomcat項(xiàng)目中,我們的猜想得到了證實(shí).
表3 Tomcat根據(jù)同時(shí)修改關(guān)系劃分Table 3 Earlier versions of Tomcat partition according to co-change
對(duì)于評(píng)價(jià)高,星數(shù)多的優(yōu)秀項(xiàng)目Tomcat的研究中,我們的猜想得到了證實(shí).而對(duì)于與我們猜想不相符的項(xiàng)目,它們中是否存在一定的問(wèn)題.為了探究出現(xiàn)依賴關(guān)系和同時(shí)修改關(guān)系不一致現(xiàn)象的項(xiàng)目可能存在哪些問(wèn)題,我們選取了Tomcat和評(píng)價(jià)較低,關(guān)注度較低的項(xiàng)目Restunit(2008年12月21號(hào)之前)進(jìn)行分析.
我們選擇Tomcat(2013年7月2號(hào)之前)的數(shù)據(jù)是因?yàn)樵诖酥蟮囊淮翁峤恢?,?xiàng)目進(jìn)行了大量文件的增加與刪除,開發(fā)者可能對(duì)項(xiàng)目的結(jié)構(gòu)做出了調(diào)整,修復(fù)了很多問(wèn)題,這將不利于我們發(fā)現(xiàn)問(wèn)題,所以將此時(shí)間節(jié)點(diǎn)之前的數(shù)據(jù)進(jìn)行分析更可能找出潛在質(zhì)量問(wèn)題.Tomcat根據(jù)同時(shí)修改關(guān)系劃分的結(jié)果見表3.
我們發(fā)現(xiàn),社區(qū)17中的奇異點(diǎn)源文件el/ImplicitObjectELResolver.java和同一社區(qū)中的所有源文件沒(méi)有任何依賴,但是卻大量與它們一起提交.經(jīng)過(guò)分析,此源文件與同一社區(qū)中的el/BeanELResolver.java代碼十分相似,大部分是重復(fù)的.這種情況不止一處,社區(qū)43中,文件authenticator/TesterDigestAuthenticatorPerformance.java和同一社區(qū)中另一文件authenticator/TestDigestAuthenticator.java之間沒(méi)有依賴卻同時(shí)提交,經(jīng)過(guò)兩文件對(duì)比分析,發(fā)現(xiàn)存在部分代碼重復(fù)的現(xiàn)象.而在社區(qū)26中,我們發(fā)現(xiàn)三個(gè)文件valves/RemoteIpValve,filters/RemoteIpFilter 和 filters/ExpiresFilter的部分代碼均是按照同一模板而寫,社區(qū)22中的四個(gè)文件startup/WebRuleSet,startup/NamingRuleSet,starup/SetNextNamingRule,startup/ConnectorCreateRule也是同一個(gè)模板.可見,通過(guò)此方法分析奇異點(diǎn)可以發(fā)現(xiàn)軟件中可能存在問(wèn)題的地方.
對(duì)于Restunit,我們也計(jì)算了每個(gè)社區(qū)的總節(jié)點(diǎn)數(shù),關(guān)系簇和奇異點(diǎn),實(shí)驗(yàn)結(jié)果見表4.
表4 Restunit根據(jù)同時(shí)修改關(guān)系劃分Table 4 Restunit partition according to co-change
對(duì)奇異點(diǎn)進(jìn)行分析我們發(fā)現(xiàn)影響項(xiàng)目質(zhì)量的問(wèn)題,我們將現(xiàn)象以圖的形式展示,并做分析.圖4展現(xiàn)了文件之間的依賴關(guān)系和它們?cè)谏鐓^(qū)劃分中的情況.記奇異點(diǎn)源文件restunit/SSLRequirement.java為S,記同一社區(qū)中的其他兩個(gè)源文件restunit/RestTest.java為A,restunit/RestTestResult.java為B.我們發(fā)現(xiàn)S與A和B沒(méi)有任何的依賴關(guān)系,但是存在源文件P,即restunit/RestCall.java,引用了S,而A和B都直接或者是間接的引用了P,B引用了源文件Q,即restunit/RestCallResult.java,而Q源文件引用了源文件P.有趣的是P源文件沒(méi)有和任何的源文件一起提交過(guò),反而是S頻繁與A和B源文件一起提交.
圖4 質(zhì)量問(wèn)題1說(shuō)明圖Fig.4 Description of quality issue 1
如果兩個(gè)文件之間有很強(qiáng)的關(guān)系,即在提交中大量被同時(shí)修改,但它們之間不是直接引用或者調(diào)用的話,在出現(xiàn)bug或者維護(hù)時(shí)需要修改文件時(shí)會(huì)十分不方便.例如程序員在做出修改時(shí)很可能不會(huì)發(fā)現(xiàn)另一個(gè)文件也要做出修改,因?yàn)樗鼈冎g沒(méi)有直接調(diào)用.所以出現(xiàn)這種現(xiàn)象會(huì)降低軟件的可維護(hù)性,也反映出設(shè)計(jì)上的失誤.
類似的,我們還發(fā)現(xiàn)另一種情況,并將文件之間的依賴關(guān)系和它們?cè)谏鐓^(qū)劃分中的情況展示見圖5.記奇異點(diǎn)源文件restunit/TestRestUnit.java為S,記同一社區(qū)中的其他兩個(gè)源文件restunit/TestAssertions.java為A,http/RESTTreeHttp.java為B.我們發(fā)現(xiàn)S與A和B沒(méi)有任何依賴關(guān)系,但是存在源文件P,即restunit/RestCallResponse.java,S、A、B源文件都引用了P源文件.P源文件幾乎沒(méi)有被修改過(guò),而S、A、B卻大量同時(shí)被修改.這種情況下,P被視為不活躍的點(diǎn)而在兩種劃分中都被去掉,一定意義上影響了根據(jù)依賴關(guān)系的劃分中,S與A和B劃分到同一社區(qū).這種現(xiàn)象的產(chǎn)生可能是因?yàn)槭褂谜邔?duì)P中類錯(cuò)誤的引用,這也加大了項(xiàng)目風(fēng)險(xiǎn).
圖5 質(zhì)量問(wèn)題2說(shuō)明圖Fig.5 Description of quality issue 2
綜上,我們可以說(shuō)出現(xiàn)依賴關(guān)系和同時(shí)修改關(guān)系不一致現(xiàn)象的項(xiàng)目可能存在問(wèn)題.最典型的問(wèn)題是代碼的復(fù)制粘貼現(xiàn)象,這種單純的復(fù)制粘貼降低了代碼的重用性,進(jìn)而降低了軟件的可維護(hù)性,是影響軟件項(xiàng)目質(zhì)量的重要原因.而實(shí)驗(yàn)結(jié)果中提到的另外兩種引用造成的不一致,從項(xiàng)目本身出發(fā),其中也存在一些設(shè)計(jì)上的不合理.所以我們可以從項(xiàng)目中源文件的依賴關(guān)系和其同時(shí)修改關(guān)系是否具有一致性來(lái)發(fā)現(xiàn)軟件項(xiàng)目中存在的問(wèn)題.
實(shí)驗(yàn)運(yùn)用復(fù)雜網(wǎng)絡(luò)研究中的社團(tuán)檢測(cè)方法對(duì)軟件工程中項(xiàng)目源文件依賴關(guān)系與同時(shí)修改關(guān)系的一致性進(jìn)行了探究.實(shí)驗(yàn)結(jié)果符合已知的規(guī)律,從中我們發(fā)現(xiàn)兩種關(guān)系不一致的軟件項(xiàng)目中可能存在問(wèn)題,經(jīng)過(guò)仔細(xì)對(duì)代碼分析,找出了其中的原因,最典型的有代碼的復(fù)制粘貼和混亂的引用關(guān)系.
實(shí)驗(yàn)方法上具有一定的局限性.對(duì)于依賴關(guān)系大小的衡量上,我們單純的用源文件之間引用調(diào)用的數(shù)量來(lái)判斷,從實(shí)驗(yàn)結(jié)果來(lái)看,這是不全面的,有些源文件引用調(diào)用數(shù)量很少,但是這少量的依賴卻是非常的重要,以至于它們大量同時(shí)被修改,即同時(shí)修改關(guān)系十分的緊密.對(duì)于根據(jù)同時(shí)修改關(guān)系對(duì)源文件進(jìn)行劃分中,為了排除干擾,縮小數(shù)據(jù)規(guī)模,對(duì)數(shù)據(jù)做出一定的刪減,這種刪減是合理而有效的,但是這種處理也不可避免的在實(shí)驗(yàn)結(jié)果上造成了小部分的錯(cuò)誤,比如有些源文件與其他源文件有很強(qiáng)的依賴關(guān)系,但其本身修改的次數(shù)就非常少,在數(shù)據(jù)縮減中我們忽略了它與其他源文件的聯(lián)系,從結(jié)果上看就無(wú)法證明具有依賴關(guān)系的源文件更容易被同時(shí)修改的觀點(diǎn).但在我們實(shí)驗(yàn)中由于這種原因造成的奇異點(diǎn)數(shù)量占總結(jié)點(diǎn)數(shù)量不足3%,所以不影響整體的判斷.
實(shí)驗(yàn)項(xiàng)目的選擇上,我們傾向于選擇中小型規(guī)模的項(xiàng)目,對(duì)于較大規(guī)模的項(xiàng)目因?yàn)闂l件所限沒(méi)有進(jìn)行嘗試,有一定的局限性.
我們對(duì)項(xiàng)目中源文件的依賴關(guān)系與其在提交信息中同時(shí)修改關(guān)系的一致性進(jìn)行了分析,得出以下結(jié)論:
在質(zhì)量較高的軟件項(xiàng)目中,源文件的依賴關(guān)系與同時(shí)修改關(guān)系有非常強(qiáng)的一致性.有依賴的源文件更容易被同時(shí)修改,同時(shí)大量修改的源文件之間往往存在依賴.
如果存在沒(méi)有依賴關(guān)系而被同時(shí)大量提交的源文件,軟件項(xiàng)目中很可能存在一定的問(wèn)題,比如代碼的復(fù)制粘貼現(xiàn)象,或者混亂的引用情況.
未來(lái)的研究中,我們可以嘗試更多不同規(guī)模的項(xiàng)目,看是否與我們的猜想相符.在項(xiàng)目中源文件的依賴關(guān)系和其同時(shí)修改關(guān)系具有一致性的前提下,我們可以探究更多造成不一致的原因,分析它們是否降低了軟件項(xiàng)目的質(zhì)量.進(jìn)而,我們可以用這種方法偵測(cè)軟件項(xiàng)目架構(gòu)上的問(wèn)題.為了分析實(shí)驗(yàn)結(jié)果,我們提出了關(guān)系簇的概念,顯然關(guān)系簇?cái)?shù)目越小,兩種關(guān)系更具有一致性,這種簡(jiǎn)單指標(biāo)一定程度上可以用作軟件項(xiàng)目質(zhì)量的評(píng)定,但還需要更多的實(shí)驗(yàn)來(lái)證明.