孫云鵬
【摘要】 筆者在對(duì)前人研究成果進(jìn)行匯總研究分析后,采用分層分析法對(duì)數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用進(jìn)行層層剖析,首先論述了在軟件工程中的數(shù)據(jù)挖掘技術(shù)應(yīng)用發(fā)展歷史,然后對(duì)該技術(shù)在軟件工程中的應(yīng)用進(jìn)行了深入剖析,以其為數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用打下良好的理論基礎(chǔ),起到一定的促進(jìn)幫助作用。
【關(guān)鍵詞】 數(shù)據(jù)挖掘 軟件工程 應(yīng)用
前言:隨著現(xiàn)代化進(jìn)程的不斷發(fā)展。我國針對(duì)于數(shù)據(jù)挖掘技術(shù)的研究深度已經(jīng)逐漸的加大,越來越多的學(xué)者參加到數(shù)據(jù)挖掘技術(shù)的研究過程當(dāng)中,并且獲得了相當(dāng)多的研究理論與研究結(jié)果,盡管如此,但是由于我國在數(shù)據(jù)挖掘技術(shù)研究時(shí)間還比較短,因此與其它國家先進(jìn)的數(shù)據(jù)挖掘技術(shù)研究還存在著一定的差距,目前我國已經(jīng)將說句挖掘技術(shù)列入了重點(diǎn)的研究項(xiàng)目當(dāng)中,隨著研究的不斷深入,相信我國的數(shù)字挖掘技術(shù),也將越來越成熟,越來越趨完善。
一、在軟件工程中的數(shù)據(jù)挖掘技術(shù)應(yīng)用發(fā)展歷史
所謂的數(shù)據(jù)挖掘技術(shù)還有一個(gè)比較常用的稱呼,就是數(shù)據(jù)庫中的信息資源提取,該技術(shù)與數(shù)據(jù)庫相互依存,不可割舍。從剛開始的提出,到最后的實(shí)踐應(yīng)用,該技術(shù)漸漸地走向更為多向化和多功能化,并且在該項(xiàng)技術(shù)中融入了相當(dāng)多的重要領(lǐng)域技術(shù)。而對(duì)于軟件工程來說,其最原始的意義起源于一九六七年,該項(xiàng)工程自提出以后就一直受到重點(diǎn)研究和關(guān)注,就其功能將其進(jìn)行定義為采用工程化的途徑或者是方法對(duì)具有實(shí)用意義的并且高質(zhì)量的和存在一定功能效用的軟件內(nèi)容進(jìn)行構(gòu)造和創(chuàng)建,這樣的軟件構(gòu)建預(yù)期的目標(biāo)是在一定的背景條件下以及成本基礎(chǔ)上,所研究開發(fā)出的軟件產(chǎn)品能夠滿足使用者的大部分需求[1]。在20世紀(jì)末期,研究者們逐漸的將數(shù)據(jù)挖掘技術(shù)與工程軟件相互結(jié)合,令數(shù)據(jù)挖掘技術(shù)應(yīng)用在工程軟件當(dāng)中,這樣的理論受到了著名學(xué)者Allen 以及其他學(xué)者的一致認(rèn)可,主要是通過數(shù)據(jù)挖掘技術(shù)對(duì)軟件工程中的代碼之間存在的關(guān)系進(jìn)行查找,從起源到今天,這樣的二者結(jié)合應(yīng)用形式,已經(jīng)逐漸變得更為完善[2]。
二、數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用剖析
2.1對(duì)克隆代碼的數(shù)據(jù)挖掘
在軟件工程領(lǐng)域中,對(duì)克隆代碼的檢查與測(cè)試是最為原始的數(shù)據(jù)挖掘需求之一,直到目前已經(jīng)逐漸演變出了很多的方式,其主要可以分為以下幾種:
2.1.1將文本對(duì)比作為基礎(chǔ)的方式
采用計(jì)算機(jī)軟件系統(tǒng)中的對(duì)比程序代碼中所包含的語句行展開進(jìn)一步的判斷過程,這種方法在進(jìn)行后期的改進(jìn)過程中針對(duì)的是對(duì)字符串的匹配效率進(jìn)行提升,提升的辦法有很多,最為主要的就是通過Hash函數(shù)技術(shù)進(jìn)行匹配效率優(yōu)化,在這個(gè)過程中最為常用的工具為Duploc。
2.1.2將標(biāo)識(shí)符對(duì)比作為基礎(chǔ)的方式
將標(biāo)識(shí)符對(duì)比作為基礎(chǔ)的方式,最具代表性的方式是對(duì)由分詞所組成的標(biāo)識(shí)符序列構(gòu)造前綴樹,并將其作為依據(jù)然后進(jìn)行對(duì)比,將標(biāo)識(shí)符對(duì)比作為基礎(chǔ)的方式的工具主要有CCFinder、Dup等[3]。
2.2計(jì)算機(jī)軟件數(shù)據(jù)檢索挖掘
數(shù)據(jù)檢索挖掘與克隆代碼一樣,同樣是計(jì)算機(jī)軟件工程中最為原始的數(shù)據(jù)挖掘需求之一,對(duì)于計(jì)算機(jī)軟件數(shù)據(jù)檢索挖掘來說其主要分為以下三步:
第一步,為數(shù)據(jù)信息的錄入。所謂的數(shù)據(jù)信息錄入實(shí)際上指的是對(duì)于要檢索的信息進(jìn)行錄入的過程,針對(duì)使用者的需求將使用者所需要的數(shù)據(jù)信息輸入到檢索信息錄入框中進(jìn)行數(shù)據(jù)的查找。
第二步,為數(shù)據(jù)信息的查找過程。當(dāng)客戶所需要的信息進(jìn)入到數(shù)據(jù)檢索錄入框中時(shí),進(jìn)行確認(rèn)后數(shù)據(jù)挖掘系統(tǒng)將會(huì)根據(jù)數(shù)據(jù)信息中所涵蓋的數(shù)據(jù)信息內(nèi)容進(jìn)行數(shù)據(jù)庫中的查找,并且根據(jù)不同的分類,對(duì)查找信息的數(shù)據(jù)信息資料進(jìn)行羅列[4]。
第三步,為數(shù)據(jù)信息資料內(nèi)容的導(dǎo)出和查看,在查找到相關(guān)的客戶需要數(shù)據(jù)內(nèi)容時(shí),客戶可以根據(jù)自己本身的實(shí)際需要,進(jìn)行數(shù)據(jù)信息的導(dǎo)出或者是在線查看,在數(shù)據(jù)信息資料導(dǎo)出后,需要應(yīng)用相關(guān)的數(shù)據(jù)信息查看軟件進(jìn)行查看。并且客戶在導(dǎo)出數(shù)據(jù)信息時(shí),會(huì)在中形成一定的歷史記錄,對(duì)客戶及時(shí)查找的數(shù)據(jù)信息進(jìn)行記錄與保存,當(dāng)客戶想要再次進(jìn)行查找時(shí)能夠更為方便與快捷的找到其所需要的數(shù)據(jù)信息內(nèi)容。
三、結(jié)語
綜上所述,面對(duì)現(xiàn)今的發(fā)展形勢(shì)來說,軟件工程技術(shù)已經(jīng)逐漸滲入到各領(lǐng)域當(dāng)中,并且得到了相當(dāng)廣泛的應(yīng)用,作為該工程當(dāng)中的一項(xiàng)重要技術(shù),數(shù)據(jù)挖掘技術(shù)也將發(fā)揮其最大的功用,充分體現(xiàn)其巨大的應(yīng)用價(jià)值,并且隨著更多的軟件工程技術(shù)的發(fā)掘,數(shù)據(jù)發(fā)掘技術(shù)已經(jīng)不再是“獨(dú)立作戰(zhàn)”,綦江與其它的軟件工程技術(shù)共同融合滲透,進(jìn)而保證軟件工程技術(shù)的完善性,相信在未來的發(fā)展過程當(dāng)中,更加具有優(yōu)勢(shì)的數(shù)據(jù)發(fā)掘技術(shù)能夠?yàn)槲覈w的技術(shù)人員發(fā)展打下良好的基礎(chǔ)進(jìn)而促進(jìn)我國整體的國民性進(jìn)步。
參 考 文 獻(xiàn)
[1]毛澄映,盧炎生,胡小華.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用綜述[J].計(jì)算機(jī)科學(xué),2012,05:1-6+26.
[2]徐建敏,區(qū)木華,熊金志.數(shù)據(jù)挖掘技術(shù)在體育訓(xùn)練中的應(yīng)用綜述與分析[J].電腦知識(shí)與技術(shù),2012,22:5492-5495.
[3]張志榮,黃杰,孫偉宏,韓曉東,蘇先名.數(shù)據(jù)挖掘在軟件工程領(lǐng)域中的應(yīng)用淺析[J].電子測(cè)試,2013,09:246-247+271.