Ｗｅｂ挖掘在電子商務(wù)信息搜索中的應(yīng)用

2009-03-23 02:40熊志文

計算機時代 2009年1期

熊志文

摘要：隨著電子商務(wù)的深入發(fā)展，互聯(lián)網(wǎng)已成為電子商務(wù)的基礎(chǔ)。電子商務(wù)環(huán)境下，如何從互聯(lián)網(wǎng)中挖掘和利用數(shù)據(jù)是企業(yè)非常關(guān)心的問題。文章結(jié)合當前的電子商務(wù)環(huán)境，對重要信息的搜索問題進行了分析，提出了采用Web挖掘在互聯(lián)網(wǎng)中搜索重要信息的方法，給出了該方法的一個實現(xiàn)技術(shù)。實驗結(jié)果表明該方法可以在互聯(lián)網(wǎng)中高效準確地搜索重要信息。

關(guān)鍵詞：Web挖掘；電子商務(wù)；檢索；元搜索引擎

0引言

隨著全球信息化的發(fā)展，電子商務(wù)在企業(yè)經(jīng)營中的應(yīng)用日益廣泛，它將打破時空界限，改變貿(mào)易形態(tài)，改善物流、資金流、信息流的環(huán)境，有效地降低企業(yè)生產(chǎn)成本，加速整個社會的商品流通。電子商務(wù)環(huán)境下的企業(yè)與外界聯(lián)系增多，企業(yè)為了提高自身競爭力，必須擺脫傳統(tǒng)相對狹隘的經(jīng)營模式，不斷提升對潛在競爭對手、產(chǎn)品、客戶、供應(yīng)商以及關(guān)鍵的價值來源等重要信息的獲取能力。但當前在互聯(lián)網(wǎng)中要獲取有用的商務(wù)信息并不容易，因為在擴大搜索范圍時，難以保證所有搜索結(jié)果都是相關(guān)和有效的。

針對上述問題，本文引入了基于Web挖掘的電子商務(wù)信息檢索方法。Web挖掘是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用，它從大量的Web文檔集合和在各站點瀏覽的相關(guān)數(shù)據(jù)中發(fā)現(xiàn)潛在的、有價值的信息，是提高電子商務(wù)企業(yè)運作效率的工具。根據(jù)挖掘?qū)ο蟮牟煌?，Web挖掘一般可以分為三種：Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘。Web內(nèi)容挖掘是從頁面摘要及其文檔內(nèi)容中獲取有用知識的過程，一般包括文本文件和多媒體文檔的挖掘；由于有用知識除了在Web頁面內(nèi)容中，也包含在頁面結(jié)構(gòu)中，所以Web結(jié)構(gòu)挖掘是從萬維網(wǎng)的組織結(jié)構(gòu)和網(wǎng)頁的相互鏈接中進行挖掘，發(fā)現(xiàn)頁面間的關(guān)系，改進搜索引擎的性能；而Web使用挖掘則是通過挖掘相應(yīng)站點的日志文件和相關(guān)數(shù)據(jù)發(fā)現(xiàn)站點瀏覽者的行為模式，識別用戶的喜好、滿意度，發(fā)現(xiàn)潛在用戶，增強站點的服務(wù)競爭力。

本文中的信息檢索方法使用通用的搜索引擎工具在互聯(lián)網(wǎng)上搜索相關(guān)頁面信息，再采用Web挖掘?qū)ο嚓P(guān)頁面信息進行分析篩選，從中提取輔助商業(yè)決策的重要信息，為企業(yè)贏得更多潛在利潤。

1搜索方法的框架

傳統(tǒng)企業(yè)經(jīng)營模式中，信息收集的渠道往往具有壟斷性，企業(yè)的經(jīng)營受到地域的限制，相關(guān)的供應(yīng)商和客戶也比較固定，企業(yè)競爭壓力小。而在電子商務(wù)環(huán)境下，市場和業(yè)務(wù)范圍通過互聯(lián)網(wǎng)大大擴展，供應(yīng)商和企業(yè)終端用戶行為發(fā)生根本性變革，企業(yè)面對相鄰和傳統(tǒng)上不相關(guān)的價值鏈上的競爭者，使得企業(yè)競爭壓力增大。對競爭對手、產(chǎn)品、客戶、供應(yīng)商以及關(guān)鍵的價值來源進行調(diào)查和評價，然后根據(jù)自己的競爭優(yōu)勢設(shè)計各種戰(zhàn)略顯得至關(guān)重要。

為了適應(yīng)電子商務(wù)環(huán)境下大范圍、高強度的競爭，企業(yè)需要充分利用電子商務(wù)的有利條件，挖掘潛在競爭對手、客戶、供應(yīng)商以及關(guān)鍵的價值來源等信息。這些信息在本文中稱為重要信息。重要信息是從相關(guān)頁面信息中篩選分析得到的。

本文的搜索方法(其實現(xiàn)框架如圖1所示)，利用通用搜索引擎和Web挖掘技術(shù)對互聯(lián)網(wǎng)上的信息進行搜索、分析篩選，主要功能包括4個方面：

(1)生成搜索關(guān)鍵字集合。根據(jù)用戶的查詢請求，生成相對應(yīng)的搜索關(guān)鍵字集合。

(2)收集相關(guān)頁面信息。根據(jù)搜索關(guān)鍵字集合在互聯(lián)網(wǎng)上收集相關(guān)的頁面信息。

(3)獲取重要信息。對收集的頁面進行分析篩選獲取重要信息。

(4)用戶交互。將重要信息以用戶需要的方式顯示。

其中功能(2)和(3)的實現(xiàn)質(zhì)量非常重要，將直接影響獲取的重要信息的質(zhì)量。

2搜索方法的實現(xiàn)

搜索方法實現(xiàn)的核心思想是利用通用搜索引擎和Web挖掘技術(shù)對互聯(lián)網(wǎng)上的信息進行搜索、分析篩選得到重要信息。首先由用戶發(fā)出查詢請求，然后根據(jù)用戶的查詢請求生成適當?shù)乃阉麝P(guān)鍵字集合，利用搜索關(guān)鍵字集合進行重要信息的獲取并將結(jié)果返回。

2.1生成搜索關(guān)鍵字集合

在互聯(lián)網(wǎng)中要獲取有價值的商務(wù)信息不容易，因為目前網(wǎng)絡(luò)信息的搜索大多是精確匹配，返回的結(jié)果不但有較大冗余，還包含許多不相關(guān)的信息。根據(jù)用戶查詢請求生成恰當?shù)乃阉麝P(guān)鍵字集合可以提高搜索的準確性。本文中搜索關(guān)鍵字集合生成的方法是基于語義網(wǎng)的，先要進行電子商務(wù)信息領(lǐng)域的領(lǐng)域概念詞分析，建立相關(guān)的領(lǐng)域概念詞詞典。

搜索關(guān)鍵字集合生成過程如圖2所示。首先從用戶輸入的查詢請求中抽取有效檢索詞，然后將檢索詞在概念詞詞典中進行語義分析和匹配，獲取搜索關(guān)鍵字集合。其中抽取有效檢索詞的過程主要由6部分組成，如圖3所示。

2.2收集相關(guān)頁面信息

收集相關(guān)頁面信息，就是利用搜索引擎在互聯(lián)網(wǎng)上收集與搜索關(guān)鍵字集合相關(guān)的頁面信息。搜索引擎(Search Engines)是指對互聯(lián)網(wǎng)上的信息資源進行搜索整理，然后供人們查詢的系統(tǒng)，目前商業(yè)化的通用搜索引擎數(shù)量較多，如Excite、Google、百度、雅虎、搜狐等。雖然通用搜索引擎可以從互聯(lián)網(wǎng)上搜索需要的信息，但是存在著不足：

(1)每個搜索引擎覆蓋互聯(lián)網(wǎng)的范圍是有限的，不同公司開發(fā)的搜索引擎有不同的地域和語言傾向；

(2)搜索結(jié)果中有已經(jīng)失效的頁面信息；

(3)搜索結(jié)果中有不相關(guān)的頁面信息。

因此，為了更高質(zhì)高效地收集相關(guān)頁面信息，本文采用了元搜索引擎技術(shù)。元搜索引擎是指在搜索引擎之后或之上的搜索引擎，是在通用搜索引擎的基礎(chǔ)之上建立起來的可以同時或分時查詢多個通用搜索引擎的網(wǎng)絡(luò)信息查詢系統(tǒng)。元搜索引擎實際上是借助傳統(tǒng)的Internet搜索引擎提供信息查詢服務(wù)的。檢索時，元搜索引擎根據(jù)用戶提交的檢索請求，調(diào)用通用搜索引擎進行搜索，再對搜索結(jié)果進行匯集、整理、排列等優(yōu)化處理后，以統(tǒng)一格式反饋。元搜索引擎主要由用戶接口界面、查詢調(diào)度機制、搜索引擎代理和結(jié)果處理機制四部分組成。文中的元搜索引擎結(jié)構(gòu)如圖4所示，主要分為6個功能模塊：

(1)用戶接口模塊負責和用戶交互，用戶可以通過此模塊下達查詢請求、設(shè)置系統(tǒng)的參數(shù)和獲取搜索得到的相關(guān)頁面信息；

(2)引擎代理模塊根據(jù)用戶的查詢請求生成搜索關(guān)鍵字集合，然后根據(jù)設(shè)置調(diào)用通用搜索引擎在互聯(lián)網(wǎng)上搜索相關(guān)的頁面信息，通用搜索引擎再將搜索結(jié)果返回給引擎代理模塊；

(3)分析驗證模塊對搜索結(jié)果進行解析并對網(wǎng)絡(luò)鏈接的有效性進行驗證；

(4)信息處理模塊對分析驗證后的結(jié)果進行整理、歸納和分類，得到與查詢請求相關(guān)的頁面信息；

(5)信息存儲模塊負責把整理得到的相關(guān)頁面信息存儲在數(shù)據(jù)庫中；

(6)查詢處理模塊把用戶需要的頁面信息以用戶需要的格式進行反饋。

2.3獲取重要信息

利用搜索關(guān)鍵字集合在互聯(lián)網(wǎng)上可以獲得許多相關(guān)的頁面信息，但其中的一部分與用戶的需求不相關(guān)，因此需要對從

互聯(lián)網(wǎng)上獲得的頁面信息進行分析篩選，從中找出重要信息。分析篩選的功能如下：

(1)從有效頁面的摘要中提取描述詞匯；

(2)分析頁面描述詞匯和特定領(lǐng)域詞的相關(guān)性進而得出頁面信息和用戶需求的關(guān)聯(lián)性；

(3)根據(jù)頁面信息和用戶需求的關(guān)聯(lián)性來分類處理搜索結(jié)果；

(4)根據(jù)事先設(shè)定的閾值，篩除關(guān)聯(lián)性小于閾值的頁面信息；

(5)分析關(guān)聯(lián)}生大于閾值的頁面信息從中獲取重要信息；

(6)將重要信息進行存儲以備用戶使用。

本文判斷搜索結(jié)果與用戶需求的關(guān)聯(lián)性采用了向量模型。假設(shè)有s個頁面信息和N個特定領(lǐng)域詞，搜索頁面j和特定領(lǐng)域詞的相關(guān)性如公式1如示。

其中Pj是N維向量，由第i個特定領(lǐng)域詞相對搜索結(jié)果頁面j的權(quán)重W_ij組成。T也是一個N維向量，由第i個特定領(lǐng)域詞在特定領(lǐng)域的權(quán)重W_ij組成。i＝1,2,3,…,N,j＝1,2,3,…,s。

W_ij和W_ij的計算公式分別如公式2和公式3所示。F_ij是特定領(lǐng)域詞i出現(xiàn)在搜索頁面j中的次數(shù)，n_i是搜索結(jié)果中出現(xiàn)特定領(lǐng)域詞i的頁面的個數(shù)。

利用通用搜索引擎可以在互聯(lián)網(wǎng)上大范圍搜索相關(guān)頁面信息，使重要信息的獲取源頭滲入到網(wǎng)絡(luò)的方方面面，保證了信息獲取源頭的廣覆蓋性，經(jīng)過有效的分析篩選，最終獲取的重要信息在廣覆蓋的前提下被準確的提取出來，這些保證了最終獲取的重要信息兼有準確性和廣覆蓋性。

2.4用戶交互

用戶交互是以用戶為中心的，查詢請求由用戶下達，重要信息也必須以用戶需要的方式顯示。用戶可能會希望在更大的范圍搜索重要信息，而交互時只顯示最關(guān)心的一部分重要信息，這就使得用戶提交的查詢請求和瀏覽請求往往是不同的。

如果把系統(tǒng)從互聯(lián)網(wǎng)上收集重要信息看成是第一次信息過濾，那么用戶提交瀏覽請求就可以看成是對信息的第二次過濾。用戶的瀏覽請求以范式的形式表示。若用戶在瀏覽請求中提交了4個查詢詞q1，q2，q3，q4構(gòu)成表達式ql^(、q2V q3)^q4，那么系統(tǒng)將根據(jù)這個表達式所對應(yīng)的范式從搜集到的重要信息中抽取用戶最關(guān)心的顯示給用戶。

3實驗結(jié)果和分析

實驗的目的是通過實例驗證搜索的效果。本文中以搜索義烏的小商品為例，搜索對象包括戒指、項鏈等，并且把直接用通用搜索引擎搜索得到的有效頁面和全部頁面的數(shù)量比稱為通用搜索查準率，把使用本文搜索方法搜索得到的有效頁面和全部頁面數(shù)量比稱為Web搜索查準率。用不同查詢請求對義烏戒指進行搜索查詢的結(jié)果如表1所示。

表1說明直接用通用搜索引擎搜索查詢重要信息，其查準率比用本文中的方法進行查詢的查準率要低。當查詢請求逐漸復(fù)雜的時候，通用搜索查準率下降的速度明顯快于Web搜索查準率。由此可見，本文中的方法能夠更有效地在互聯(lián)網(wǎng)上搜索重要信息。

4結(jié)束語

本文針對電子商務(wù)環(huán)境下重要信息的搜索問題，引入了Web挖掘技術(shù)，提出了一種在互聯(lián)網(wǎng)搜索重要信息的實現(xiàn)方法。這種方法采用通用搜索引擎收集頁面信息，具有范圍廣的特點，同是對收集到的相關(guān)頁面信息進行分析篩選，保證了提交給用戶的重要信息有更高的準確性。總之，本文中提出的信息搜索方法對電子商務(wù)環(huán)境下進行大范圍信息搜索有很好的應(yīng)用價值。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Ｗｅｂ挖掘在電子商務(wù)信息搜索中的應(yīng)用