張宇塵
隨著互聯(lián)網(wǎng)技術(shù)的普及,電子技術(shù)發(fā)展速度不斷加快,軟件技術(shù)的也得到前所未有的發(fā)展,但傳統(tǒng)的計(jì)算機(jī)軟件維修維護(hù)變得更加困難。通過(guò)數(shù)據(jù)挖掘技術(shù)將軟件中的數(shù)據(jù)提取出來(lái),將有助后續(xù)軟件技術(shù)的發(fā)展。所以軟件數(shù)據(jù)挖掘技術(shù)的發(fā)展與探究有十分重大的現(xiàn)實(shí)意義。本文通過(guò)介紹軟件數(shù)據(jù)挖掘技術(shù),分析未來(lái)軟件工程數(shù)據(jù)挖掘的發(fā)展方向,為后續(xù)的研究人員提供參考和借鑒。
【關(guān)鍵詞】工程數(shù)據(jù) 挖掘 發(fā)展方向
1 引言
軟件數(shù)據(jù)挖掘技術(shù)是在軟件儲(chǔ)存的大量數(shù)據(jù)中尋找所需信息的技術(shù)。軟件數(shù)據(jù)挖掘技術(shù)是軟件工程研發(fā)中數(shù)據(jù)搜索領(lǐng)域中一項(xiàng)重要研究方向。數(shù)據(jù)挖掘技術(shù)不僅可以有效縮短開(kāi)發(fā)的周期,同時(shí)也能夠增加軟件的延伸性和穩(wěn)定性。隨著電子行業(yè)的快速發(fā)展,軟件開(kāi)發(fā)領(lǐng)域不斷受到重視,其數(shù)據(jù)搜索技術(shù)將得到更加廣闊的發(fā)展和重要應(yīng)用。因此軟件數(shù)據(jù)挖掘技術(shù)的發(fā)展不僅具有重要的學(xué)術(shù)研究?jī)r(jià)值,同時(shí)也具有十分重要的應(yīng)用價(jià)值。本文主要介紹軟件數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀、所遇到的發(fā)展問(wèn)題及未來(lái)的發(fā)展方向。
2 軟件數(shù)據(jù)挖掘技術(shù)
2.1 軟件數(shù)據(jù)挖掘技術(shù)的發(fā)展背景
軟件數(shù)據(jù)主要是在軟件研發(fā)過(guò)程中,研究人員對(duì)軟件的開(kāi)發(fā)進(jìn)行模擬,分析,對(duì)軟件開(kāi)發(fā),升級(jí)進(jìn)行操作性分析,其重要編碼、代碼等相關(guān)數(shù)據(jù)。這些重要的信息數(shù)據(jù)是研究人員獲取軟件開(kāi)發(fā)信息的唯一來(lái)源。隨著軟件技術(shù)的發(fā)展和軟件的升級(jí)更新,軟件中其重要的研發(fā)編碼和工程信息將出現(xiàn)指數(shù)性增長(zhǎng)。例如:Kumia軟件研發(fā)數(shù)據(jù)中,其編碼超過(guò)600萬(wàn)行。隨著軟件的升級(jí)更新,這對(duì)研究者對(duì)軟件價(jià)值數(shù)據(jù)開(kāi)發(fā)的有很高要求。因此利用軟件數(shù)據(jù)挖掘技術(shù)獲取軟件工程數(shù)據(jù)對(duì)研發(fā)人員開(kāi)發(fā)和軟件升級(jí)是十分重要的。
2.2 軟件數(shù)據(jù)挖掘技術(shù)的過(guò)程
通常情況下,軟件研發(fā)中工程數(shù)據(jù)的獲取主要尋找未升級(jí)更新的原始數(shù)據(jù),這些工程數(shù)據(jù)便于研究人員發(fā)現(xiàn)。這些數(shù)據(jù)信息來(lái)自不同形式的云數(shù)據(jù)中,來(lái)源途徑不同,數(shù)據(jù)格式有差異,但較為容易轉(zhuǎn)為同一格式。通過(guò)對(duì)軟件挖掘數(shù)據(jù)過(guò)程中數(shù)據(jù)噪音、無(wú)序數(shù)據(jù)的篩選,可以對(duì)工程數(shù)據(jù)進(jìn)行挖掘。近些年,主要的數(shù)據(jù)搜索處理技術(shù)包括LDA、LSA。
工程數(shù)據(jù)挖掘這一技術(shù)是從軟件數(shù)據(jù)信息中的海量數(shù)據(jù)中尋找出能夠代表軟件重要信息和基本規(guī)律的原始數(shù)據(jù)。導(dǎo)入的數(shù)據(jù)是規(guī)律有序的代碼或文本,將相關(guān)、分支信息的形式表現(xiàn)出來(lái),這些信息的表現(xiàn)形式與挖掘技術(shù)有重要聯(lián)系。
評(píng)估論證信息。通過(guò)對(duì)搜索結(jié)果的評(píng)估確認(rèn)出對(duì)開(kāi)發(fā)者和使用者有價(jià)值的數(shù)據(jù)。其中包括將軟件和工程信息等轉(zhuǎn)化為使用者能夠理解和方便使用的形式,并將評(píng)估結(jié)果提供給研發(fā)人員。
3 軟件數(shù)據(jù)挖掘技術(shù)面臨的問(wèn)題
3.1 軟件數(shù)據(jù)復(fù)雜化
目前軟件工程所涉及的數(shù)據(jù)主要包括兩類(lèi):結(jié)構(gòu)化和非結(jié)構(gòu)化。結(jié)構(gòu)化數(shù)據(jù)中包含很多信息涉及軟件類(lèi)型和錯(cuò)誤報(bào)告。而非結(jié)構(gòu)化數(shù)據(jù)主要包含軟件工程的編碼、代碼等。兩類(lèi)工程數(shù)據(jù)采用不同的算法和編撰程序,但是兩者之間還有很多密切的聯(lián)系。因此在軟件工程數(shù)據(jù)挖掘過(guò)程中要深入了解兩個(gè)工程數(shù)據(jù)的聯(lián)系和結(jié)構(gòu)不同,這對(duì)數(shù)據(jù)提取造成很多困難。
3.2 分析方法難道高
軟件工程數(shù)據(jù)挖掘后期的主要工作是將獲取的數(shù)據(jù)轉(zhuǎn)換成用戶能夠接受的形式。在傳統(tǒng)的數(shù)據(jù)提取技術(shù)過(guò)程中,如電子商務(wù)等需要將其轉(zhuǎn)換成數(shù)字或圖表等,但是這對(duì)軟件開(kāi)發(fā)者并不是件輕松的工作,其包含很多分析編程方法、錯(cuò)誤報(bào)告的選取。這對(duì)軟件數(shù)據(jù)挖掘技術(shù)發(fā)展存在一定挑戰(zhàn)。
3.3 軟件數(shù)據(jù)挖掘結(jié)果標(biāo)準(zhǔn)多樣化
很多行業(yè)對(duì)軟件工程數(shù)據(jù)挖掘都有一定應(yīng)用。但是在表達(dá)和評(píng)估結(jié)構(gòu)上,軟件工程數(shù)據(jù)存在較多標(biāo)準(zhǔn),且標(biāo)準(zhǔn)不唯一。這對(duì)軟件開(kāi)發(fā)者獲取數(shù)據(jù)后處理將是極為復(fù)雜,同時(shí)不同標(biāo)準(zhǔn)需要數(shù)據(jù)表達(dá)的方式也不盡相同,若想獲取準(zhǔn)確的數(shù)據(jù)信息結(jié)果存在一定困難。
4 軟件數(shù)據(jù)挖掘技術(shù)的解決方法
4.1 軟件信息復(fù)雜化解決辦法
數(shù)據(jù)復(fù)雜化解決辦法主要有三種:
4.1.1 數(shù)據(jù)結(jié)構(gòu)類(lèi)型復(fù)雜化
目前研究人員通過(guò)對(duì)軟件信息的結(jié)構(gòu)圖和結(jié)構(gòu)網(wǎng)中獲取信息。
4.1.2 數(shù)據(jù)間聯(lián)系復(fù)雜化
這種類(lèi)型數(shù)據(jù)可以通過(guò)軟件數(shù)據(jù)升級(jí),強(qiáng)化數(shù)據(jù)間的聯(lián)系程度,進(jìn)一步提高獲取有用信息數(shù)據(jù)的準(zhǔn)確性。
4.1.3 數(shù)據(jù)中存在大量錯(cuò)誤報(bào)告和缺失數(shù)據(jù)
對(duì)于這種類(lèi)型的報(bào)告可以采用半管理式分析方法降低錯(cuò)誤或缺失數(shù)據(jù)帶來(lái)的影響。
4.2 非傳統(tǒng)數(shù)據(jù)的分析方法
對(duì)于文本或數(shù)據(jù)等軟件數(shù)據(jù),軟件研發(fā)人員采用使用范例的形式進(jìn)行分析,很多研究結(jié)果涉及軟件使用案例和編程規(guī)則。同時(shí)將程序可視化,極大的滿足了研究人員對(duì)非傳統(tǒng)數(shù)據(jù)挖掘的要求。
4.3 挖掘數(shù)據(jù)評(píng)估結(jié)果解放辦法
傳統(tǒng)的數(shù)據(jù)評(píng)估方法很難使用不斷變化的軟件工程挖掘技術(shù),研究人員通過(guò)利用缺陷檢測(cè)的評(píng)估方法對(duì)提取數(shù)據(jù)進(jìn)行評(píng)估,但是這種方便也存在一定問(wèn)題,還不成熟,評(píng)估結(jié)果的客觀性不充分,由于服務(wù)對(duì)象用戶的需求不同,因此需要軟件工程數(shù)據(jù)挖掘技術(shù)采用更多管理學(xué)上的方法。
5 軟件工程數(shù)據(jù)挖掘的發(fā)展趨勢(shì)
對(duì)于軟件工程數(shù)據(jù)的需求,開(kāi)發(fā)出更高效的挖掘分析方法。從精準(zhǔn)的關(guān)鍵數(shù)據(jù)向模糊數(shù)據(jù)發(fā)展;分析檢測(cè)錯(cuò)誤或缺陷更加適應(yīng)其復(fù)雜化;探索更為高效預(yù)處理數(shù)據(jù)方法;引入新的軟件工程技術(shù),利用互聯(lián)網(wǎng)技術(shù)智能化的特征開(kāi)發(fā)數(shù)據(jù)挖掘工作;這些利用數(shù)據(jù)挖掘技術(shù)整合技術(shù)信息、工程數(shù)據(jù)或利用數(shù)據(jù)挖掘工具設(shè)計(jì)軟件,輔助軟件模塊的開(kāi)發(fā)等。
6 結(jié)論
隨著互聯(lián)網(wǎng)時(shí)代的不斷發(fā)展,電子技術(shù)日新月異,同時(shí)軟件開(kāi)發(fā)技術(shù)也得到前所未有的發(fā)展,人們利用軟件技術(shù)開(kāi)發(fā)解決生活、工作中的問(wèn)題更加普遍,這對(duì)軟件工程數(shù)據(jù)挖掘技術(shù)提出了更多要求,難道也越來(lái)越大。本文通過(guò)對(duì)軟件工程數(shù)據(jù)挖掘技術(shù)的介紹和相關(guān)概念的分析,對(duì)目前所面臨的一些技術(shù)問(wèn)題進(jìn)行概述,同時(shí)對(duì)未來(lái)遇到的挑戰(zhàn)和應(yīng)對(duì)措施進(jìn)行探究,最后提出一些解決辦法。希望能夠?yàn)檐浖こ虜?shù)據(jù)挖掘技術(shù)的研究人員提供一些有意義的建議和參考。
參考文獻(xiàn)
[1]毛澄映,盧炎生,胡小華.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用綜述[J].計(jì)算機(jī)科學(xué),2009(05):1-6.
[2]李新,張曉靜,米燕濤.軟件開(kāi)發(fā)過(guò)程中的數(shù)據(jù)挖掘[J].石家莊職業(yè)技術(shù)學(xué)院學(xué)報(bào),2007(02):31-33.
[3]趙志升,羅德林,李海英.數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].河北北方學(xué)院學(xué)報(bào)(自然科學(xué)版),2006(06):63-66.
作者單位
大連市第十二中學(xué) 遼寧省大連市 116023