鄭 明
摘要:電子商務(wù)是一種計(jì)算機(jī)網(wǎng)絡(luò)信息技術(shù),通過電子交易手段來完成金融、物資、服務(wù)和信息等價(jià)值交換,快速而有效地從事各種商務(wù)活動(dòng)的新方法。
關(guān)鍵詞:網(wǎng)絡(luò)數(shù)據(jù)挖掘 電子商務(wù) 應(yīng)用
0 引言
在電子商務(wù)模式下,商品的采購者都需要通過Web方式與商品的供應(yīng)商及其合作者之間建立信息流的交互,但最先進(jìn)的搜索引擎也只能找到Web網(wǎng)址的1/3網(wǎng)頁,并且Web是無結(jié)構(gòu)的、動(dòng)態(tài)的,頁面相當(dāng)復(fù)雜。人們從成千上萬的Web站點(diǎn)中找到有用的數(shù)據(jù)就變得比較困難。網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)是克服這些缺點(diǎn)的最理想的工具,是一個(gè)有效的途徑,利用數(shù)據(jù)挖掘技術(shù)可從Web中獲取人們感興趣的,潛在的有用模式和隱藏的信息,并可對(duì)數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)未來。如何把Web上的數(shù)據(jù)轉(zhuǎn)換生成為有趣的知識(shí)模式的需求,激發(fā)了數(shù)據(jù)挖掘技術(shù)在Web上的應(yīng)用,同時(shí)這種挑戰(zhàn)性的工作也吸引了眾多人的關(guān)注,成為數(shù)據(jù)挖掘領(lǐng)域的活躍主題。
1 網(wǎng)絡(luò)數(shù)據(jù)挖掘的概念和分類
數(shù)據(jù)挖掘是一門受到來自各種不同領(lǐng)域的研究者關(guān)注的交叉性學(xué)科。網(wǎng)絡(luò)數(shù)據(jù)挖掘就是從大量的Web文檔和Web活動(dòng)頁中發(fā)現(xiàn)、抽取感興趣的、潛在的有用模式和隱含的、事先未知的、潛在的信息。網(wǎng)絡(luò)數(shù)據(jù)挖掘是對(duì)數(shù)據(jù)挖掘的一種新的應(yīng)用。但不同于傳統(tǒng)的數(shù)據(jù)挖掘。其主要區(qū)別在于:傳統(tǒng)的數(shù)據(jù)挖掘的對(duì)象局限于數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)。并利用關(guān)系表等存儲(chǔ)結(jié)構(gòu)來挖掘知識(shí)。而網(wǎng)絡(luò)數(shù)據(jù)挖掘的對(duì)象則是半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)的分類:一般而言,網(wǎng)絡(luò)數(shù)據(jù)挖掘可分為3類:Web內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘和Web使用記錄挖掘。
1.1 Web內(nèi)容挖掘:Web內(nèi)容挖掘可以看作對(duì)基本搜索引擎所完成工作的擴(kuò)展。多數(shù)搜索引擎是基于關(guān)鍵字的,Web內(nèi)容挖掘超出了基本信息檢索的范圍。使用象概念層次、同義詞、用戶信息以及分析網(wǎng)頁之間的鏈接等技術(shù)可以合引擎的效果得以改進(jìn)。傳統(tǒng)的搜索引擎使用看爬蟲搜索和搜集信息,用索引動(dòng)手術(shù)存儲(chǔ)網(wǎng)頁信息,使用查詢處理為用戶提供快速、準(zhǔn)確的信息。
1.2 Web結(jié)構(gòu)挖掘:Web結(jié)構(gòu)挖掘可以看作是為萬維網(wǎng)(或者其中的一部分)的組織建立一個(gè)模型。模型可以用來對(duì)網(wǎng)頁分類或者為網(wǎng)頁建立相似性度量。
1.3 Web使用挖掘:Web使用挖掘的研究對(duì)象是Web使用數(shù)據(jù)或者Web日志。Web使用挖掘可以應(yīng)用于多種不同目的。通過分析一個(gè)用戶訪問的網(wǎng)頁序列,可以得到用戶的簡檔信息,從而可以幫助實(shí)現(xiàn)個(gè)性化。使用網(wǎng)站挖掘,可以評(píng)估網(wǎng)頁的質(zhì)量和效果。
2 電子商務(wù)中的Web數(shù)據(jù)挖掘
電子商務(wù)中的網(wǎng)絡(luò)數(shù)據(jù)挖掘的過程一般由3個(gè)主要的階段組成:數(shù)據(jù)準(zhǔn)備、挖掘操作、結(jié)果表達(dá)和解釋。電子商務(wù)中的網(wǎng)絡(luò)數(shù)據(jù)挖掘數(shù)據(jù)的方法分為以下5種:
2.1 路徑分析:它可以被用于判定在一個(gè)Web 站點(diǎn)中最頻繁訪問的路徑。還有一些其它的有關(guān)路徑的信息通過路徑分析也可以得出。通過路徑分析,可以改進(jìn)頁面及網(wǎng)站結(jié)構(gòu)的設(shè)計(jì)。
2.2 關(guān)聯(lián)規(guī)則的發(fā)現(xiàn):關(guān)聯(lián)規(guī)則就是為了發(fā)現(xiàn)事物之間的意義的聯(lián)系和規(guī)則。進(jìn)行Web上的數(shù)據(jù)挖掘。構(gòu)建關(guān)聯(lián)模型,可以更好地組織站點(diǎn),減少用戶過濾信息的負(fù)擔(dān)。例如,用關(guān)聯(lián)規(guī)則技術(shù),我們可以發(fā)現(xiàn):如果客戶在一次訪問行為中,訪問了頁面/company/product1時(shí),一般也會(huì)訪問頁面/company/product2。得用這些關(guān)聯(lián)模型,我們可以更好地組織站點(diǎn),減少用戶過濾信息的負(fù)擔(dān)。
2.3 序列模型的發(fā)現(xiàn):序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后或因果關(guān)系,就是在時(shí)間有序的事務(wù)集中,找到那些“一些項(xiàng)跟隨另一些項(xiàng)”的內(nèi)部事務(wù)模式。發(fā)現(xiàn)序列模式能夠便于電子商務(wù)的組織者預(yù)測(cè)客戶的訪問模式,對(duì)客戶提供個(gè)性化的服務(wù)。例如:若AT&T股票連續(xù)上漲兩天且DEC股票不下跌,則第三天IBM股票上漲的可能性為75%;現(xiàn)比如,在/company/product1上進(jìn)行在線定購的顧客,有60%的人在過去15天內(nèi)也在/company/product4處下過定單。
2.4 分類規(guī)則的發(fā)現(xiàn):數(shù)據(jù)分類是基于數(shù)據(jù)的某些屬性的值進(jìn)行的。數(shù)據(jù)分類方法很多,最為典型的是基于決策樹的分類方法。它是從實(shí)際數(shù)據(jù)中構(gòu)造決策樹,是一種有指導(dǎo)的學(xué)習(xí)方法。得到分類后,就可以針對(duì)這一類客戶的特點(diǎn)展開商務(wù)活動(dòng),提供有針對(duì)性的個(gè)性化的信息服務(wù)。比如,在電子商務(wù)中通過數(shù)據(jù)挖掘后,發(fā)現(xiàn)在/compqny/product2進(jìn)行過在線訂購的客戶中有60%是20-30 歲生活在大中城市的年輕人。得到分類數(shù)據(jù)后,就可以針對(duì)某一類客戶展開商務(wù)活動(dòng),提供有針對(duì)性的個(gè)性化的信息服務(wù)。
2.5 聚類分析的發(fā)現(xiàn):聚類分析法輸入集是一級(jí)未標(biāo)定的記錄。其目的是根據(jù)一定的規(guī)則,合理地劃分記錄集合,并用顯式或隱式的方法描述不同的類別。在電子商務(wù)中通過聚類具有相似瀏覽行為的客戶,使管理員更多地了解客戶,提供更適合、使客戶更滿意的服務(wù)。
3 網(wǎng)絡(luò)數(shù)據(jù)挖掘在現(xiàn)代電子商務(wù)中的應(yīng)用
電子商務(wù)的產(chǎn)生,改變了企業(yè)的經(jīng)營理念,給社會(huì)的各個(gè)行業(yè)帶來了巨大的變化,將成為引導(dǎo)經(jīng)濟(jì)發(fā)展的新潮流。數(shù)據(jù)挖掘的應(yīng)用將極大地提高企業(yè)獲取信息的能力,使企業(yè)信息資源的價(jià)值得到充分地體現(xiàn)。它有利于促進(jìn)企業(yè)開拓市場(chǎng),優(yōu)化企業(yè)資源,提高企業(yè)的經(jīng)營效率和管理水平,為企業(yè)資源計(jì)劃(ERP)、客戶關(guān)系管理(CRM)、產(chǎn)品數(shù)據(jù)管理(PDM)和商業(yè)信用評(píng)估等提供有效的技術(shù)途徑。
3.1 我們可以通過數(shù)據(jù)挖掘來理解顧客行為。我們可以利用訪問者的行為將其分為三關(guān),分別為“no custom”、“visitor once”、“visitor regular”,并依據(jù)它們的一些公共屬性,決定分類的關(guān)鍵屬性及相互間關(guān)系。此后就可以對(duì)一個(gè)新的訪問者進(jìn)行正確的分類,然后從它的分類判斷這個(gè)新可后是否有利可圖,是否可作為潛在的客戶來對(duì)待。在電子商務(wù)中,通過數(shù)據(jù)挖掘我們可以了解客戶的瀏覽行為、知道客戶的興趣及需求所在,并根據(jù)需求動(dòng)態(tài)地向客戶做頁面推薦,調(diào)整Web 頁面,提供特有的一些商品信息和廣告,以使客戶滿意,從而延長客戶在自己網(wǎng)站上的駐留時(shí)間。
3.2 Web數(shù)據(jù)挖掘技術(shù)可以提高著眼點(diǎn)的效率。Web設(shè)計(jì)得不再完全依靠專家的定性指導(dǎo)來設(shè)計(jì)網(wǎng)站,而是要根據(jù)訪問者的信息特征來修改和設(shè)計(jì)網(wǎng)站結(jié)構(gòu)和外觀。著眼點(diǎn)上頁面上內(nèi)容的安排和連接就如超級(jí)市場(chǎng)中物品的貨架擺布一樣,把具有一定支持度和信任度的相關(guān)聯(lián)的物品擺放在一起。
3.3 通過網(wǎng)絡(luò)數(shù)據(jù)挖掘,公司可以分析顧客的將來行為,容易評(píng)測(cè)市場(chǎng)的投資回報(bào)率,得到可千的市場(chǎng)反饋?zhàn)√帍亩蟠蠼档凸镜倪\(yùn)營成本,以此評(píng)估電子商務(wù)的成功與否。
4 結(jié)束語
網(wǎng)絡(luò)數(shù)據(jù)挖掘很好地解決了從數(shù)據(jù)到知識(shí)轉(zhuǎn)化的問題,現(xiàn)在世界上的主要數(shù)據(jù)庫廠商紛紛開始把數(shù)據(jù)挖掘功能集成到自己的產(chǎn)品中。作為電子商務(wù)成功的重要因素,它必將成為一種關(guān)鍵技術(shù)。雖然Web數(shù)據(jù)挖掘中的技術(shù)標(biāo)準(zhǔn)和安全性問題還有缺憾,但是隨著現(xiàn)代科學(xué)技術(shù)的高速發(fā)展這些問題會(huì)得到完滿的解決。電子商務(wù)將會(huì)得到飛速的發(fā)展和普及,讓我們拭目以待。
參考文獻(xiàn):
[1]林豪鏘.電子商務(wù)實(shí)務(wù)[M].北京:中國鐵道出版社.2005.
[2]鄒顯春.電子商務(wù)與Web 數(shù)據(jù)挖掘[J].計(jì)算機(jī)應(yīng)用.2001.21(5):21-23.
[3]郭崇慧,田鳳占,靳曉明.等譯.Dunham M H.數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社.2005.