熊志文
摘要:隨著電子商務(wù)的深入發(fā)展,互聯(lián)網(wǎng)已成為電子商務(wù)的基礎(chǔ)。電子商務(wù)環(huán)境下,如何從互聯(lián)網(wǎng)中挖掘和利用數(shù)據(jù)是企業(yè)非常關(guān)心的問題。文章結(jié)合當前的電子商務(wù)環(huán)境,對重要信息的搜索問題進行了分析,提出了采用Web挖掘在互聯(lián)網(wǎng)中搜索重要信息的方法,給出了該方法的一個實現(xiàn)技術(shù)。實驗結(jié)果表明該方法可以在互聯(lián)網(wǎng)中高效準確地搜索重要信息。
關(guān)鍵詞:Web挖掘;電子商務(wù);檢索;元搜索引擎
0引言
隨著全球信息化的發(fā)展,電子商務(wù)在企業(yè)經(jīng)營中的應(yīng)用日益廣泛,它將打破時空界限,改變貿(mào)易形態(tài),改善物流、資金流、信息流的環(huán)境,有效地降低企業(yè)生產(chǎn)成本,加速整個社會的商品流通。電子商務(wù)環(huán)境下的企業(yè)與外界聯(lián)系增多,企業(yè)為了提高自身競爭力,必須擺脫傳統(tǒng)相對狹隘的經(jīng)營模式,不斷提升對潛在競爭對手、產(chǎn)品、客戶、供應(yīng)商以及關(guān)鍵的價值來源等重要信息的獲取能力。但當前在互聯(lián)網(wǎng)中要獲取有用的商務(wù)信息并不容易,因為在擴大搜索范圍時,難以保證所有搜索結(jié)果都是相關(guān)和有效的。
針對上述問題,本文引入了基于Web挖掘的電子商務(wù)信息檢索方法。Web挖掘是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用,它從大量的Web文檔集合和在各站點瀏覽的相關(guān)數(shù)據(jù)中發(fā)現(xiàn)潛在的、有價值的信息,是提高電子商務(wù)企業(yè)運作效率的工具。根據(jù)挖掘?qū)ο蟮牟煌?,Web挖掘一般可以分為三種:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘。Web內(nèi)容挖掘是從頁面摘要及其文檔內(nèi)容中獲取有用知識的過程,一般包括文本文件和多媒體文檔的挖掘;由于有用知識除了在Web頁面內(nèi)容中,也包含在頁面結(jié)構(gòu)中,所以Web結(jié)構(gòu)挖掘是從萬維網(wǎng)的組織結(jié)構(gòu)和網(wǎng)頁的相互鏈接中進行挖掘,發(fā)現(xiàn)頁面間的關(guān)系,改進搜索引擎的性能;而Web使用挖掘則是通過挖掘相應(yīng)站點的日志文件和相關(guān)數(shù)據(jù)發(fā)現(xiàn)站點瀏覽者的行為模式,識別用戶的喜好、滿意度,發(fā)現(xiàn)潛在用戶,增強站點的服務(wù)競爭力。
本文中的信息檢索方法使用通用的搜索引擎工具在互聯(lián)網(wǎng)上搜索相關(guān)頁面信息,再采用Web挖掘?qū)ο嚓P(guān)頁面信息進行分析篩選,從中提取輔助商業(yè)決策的重要信息,為企業(yè)贏得更多潛在利潤。
1搜索方法的框架
傳統(tǒng)企業(yè)經(jīng)營模式中,信息收集的渠道往往具有壟斷性,企業(yè)的經(jīng)營受到地域的限制,相關(guān)的供應(yīng)商和客戶也比較固定,企業(yè)競爭壓力小。而在電子商務(wù)環(huán)境下,市場和業(yè)務(wù)范圍通過互聯(lián)網(wǎng)大大擴展,供應(yīng)商和企業(yè)終端用戶行為發(fā)生根本性變革,企業(yè)面對相鄰和傳統(tǒng)上不相關(guān)的價值鏈上的競爭者,使得企業(yè)競爭壓力增大。對競爭對手、產(chǎn)品、客戶、供應(yīng)商以及關(guān)鍵的價值來源進行調(diào)查和評價,然后根據(jù)自己的競爭優(yōu)勢設(shè)計各種戰(zhàn)略顯得至關(guān)重要。
為了適應(yīng)電子商務(wù)環(huán)境下大范圍、高強度的競爭,企業(yè)需要充分利用電子商務(wù)的有利條件,挖掘潛在競爭對手、客戶、供應(yīng)商以及關(guān)鍵的價值來源等信息。這些信息在本文中稱為重要信息。重要信息是從相關(guān)頁面信息中篩選分析得到的。
本文的搜索方法(其實現(xiàn)框架如圖1所示),利用通用搜索引擎和Web挖掘技術(shù)對互聯(lián)網(wǎng)上的信息進行搜索、分析篩選,主要功能包括4個方面:
(1)生成搜索關(guān)鍵字集合。根據(jù)用戶的查詢請求,生成相對應(yīng)的搜索關(guān)鍵字集合。
(2)收集相關(guān)頁面信息。根據(jù)搜索關(guān)鍵字集合在互聯(lián)網(wǎng)上收集相關(guān)的頁面信息。
(3)獲取重要信息。對收集的頁面進行分析篩選獲取重要信息。
(4)用戶交互。將重要信息以用戶需要的方式顯示。
其中功能(2)和(3)的實現(xiàn)質(zhì)量非常重要,將直接影響獲取的重要信息的質(zhì)量。
2搜索方法的實現(xiàn)
搜索方法實現(xiàn)的核心思想是利用通用搜索引擎和Web挖掘技術(shù)對互聯(lián)網(wǎng)上的信息進行搜索、分析篩選得到重要信息。首先由用戶發(fā)出查詢請求,然后根據(jù)用戶的查詢請求生成適當?shù)乃阉麝P(guān)鍵字集合,利用搜索關(guān)鍵字集合進行重要信息的獲取并將結(jié)果返回。
2.1生成搜索關(guān)鍵字集合
在互聯(lián)網(wǎng)中要獲取有價值的商務(wù)信息不容易,因為目前網(wǎng)絡(luò)信息的搜索大多是精確匹配,返回的結(jié)果不但有較大冗余,還包含許多不相關(guān)的信息。根據(jù)用戶查詢請求生成恰當?shù)乃阉麝P(guān)鍵字集合可以提高搜索的準確性。本文中搜索關(guān)鍵字集合生成的方法是基于語義網(wǎng)的,先要進行電子商務(wù)信息領(lǐng)域的領(lǐng)域概念詞分析,建立相關(guān)的領(lǐng)域概念詞詞典。
搜索關(guān)鍵字集合生成過程如圖2所示。首先從用戶輸入的查詢請求中抽取有效檢索詞,然后將檢索詞在概念詞詞典中進行語義分析和匹配,獲取搜索關(guān)鍵字集合。其中抽取有效檢索詞的過程主要由6部分組成,如圖3所示。
2.2收集相關(guān)頁面信息
收集相關(guān)頁面信息,就是利用搜索引擎在互聯(lián)網(wǎng)上收集與搜索關(guān)鍵字集合相關(guān)的頁面信息。搜索引擎(Search Engines)是指對互聯(lián)網(wǎng)上的信息資源進行搜索整理,然后供人們查詢的系統(tǒng),目前商業(yè)化的通用搜索引擎數(shù)量較多,如Excite、Google、百度、雅虎、搜狐等。雖然通用搜索引擎可以從互聯(lián)網(wǎng)上搜索需要的信息,但是存在著不足:
(1)每個搜索引擎覆蓋互聯(lián)網(wǎng)的范圍是有限的,不同公司開發(fā)的搜索引擎有不同的地域和語言傾向;
(2)搜索結(jié)果中有已經(jīng)失效的頁面信息;
(3)搜索結(jié)果中有不相關(guān)的頁面信息。
因此,為了更高質(zhì)高效地收集相關(guān)頁面信息,本文采用了元搜索引擎技術(shù)。元搜索引擎是指在搜索引擎之后或之上的搜索引擎,是在通用搜索引擎的基礎(chǔ)之上建立起來的可以同時或分時查詢多個通用搜索引擎的網(wǎng)絡(luò)信息查詢系統(tǒng)。元搜索引擎實際上是借助傳統(tǒng)的Internet搜索引擎提供信息查詢服務(wù)的。檢索時,元搜索引擎根據(jù)用戶提交的檢索請求,調(diào)用通用搜索引擎進行搜索,再對搜索結(jié)果進行匯集、整理、排列等優(yōu)化處理后,以統(tǒng)一格式反饋。元搜索引擎主要由用戶接口界面、查詢調(diào)度機制、搜索引擎代理和結(jié)果處理機制四部分組成。文中的元搜索引擎結(jié)構(gòu)如圖4所示,主要分為6個功能模塊:
(1)用戶接口模塊負責和用戶交互,用戶可以通過此模塊下達查詢請求、設(shè)置系統(tǒng)的參數(shù)和獲取搜索得到的相關(guān)頁面信息;
(2)引擎代理模塊根據(jù)用戶的查詢請求生成搜索關(guān)鍵字集合,然后根據(jù)設(shè)置調(diào)用通用搜索引擎在互聯(lián)網(wǎng)上搜索相關(guān)的頁面信息,通用搜索引擎再將搜索結(jié)果返回給引擎代理模塊;
(3)分析驗證模塊對搜索結(jié)果進行解析并對網(wǎng)絡(luò)鏈接的有效性進行驗證;
(4)信息處理模塊對分析驗證后的結(jié)果進行整理、歸納和分類,得到與查詢請求相關(guān)的頁面信息;
(5)信息存儲模塊負責把整理得到的相關(guān)頁面信息存儲在數(shù)據(jù)庫中;
(6)查詢處理模塊把用戶需要的頁面信息以用戶需要的格式進行反饋。
2.3獲取重要信息
利用搜索關(guān)鍵字集合在互聯(lián)網(wǎng)上可以獲得許多相關(guān)的頁面信息,但其中的一部分與用戶的需求不相關(guān),因此需要對從
互聯(lián)網(wǎng)上獲得的頁面信息進行分析篩選,從中找出重要信息。分析篩選的功能如下:
(1)從有效頁面的摘要中提取描述詞匯;
(2)分析頁面描述詞匯和特定領(lǐng)域詞的相關(guān)性進而得出頁面信息和用戶需求的關(guān)聯(lián)性;
(3)根據(jù)頁面信息和用戶需求的關(guān)聯(lián)性來分類處理搜索結(jié)果;
(4)根據(jù)事先設(shè)定的閾值,篩除關(guān)聯(lián)性小于閾值的頁面信息;
(5)分析關(guān)聯(lián)}生大于閾值的頁面信息從中獲取重要信息;
(6)將重要信息進行存儲以備用戶使用。
本文判斷搜索結(jié)果與用戶需求的關(guān)聯(lián)性采用了向量模型。假設(shè)有s個頁面信息和N個特定領(lǐng)域詞,搜索頁面j和特定領(lǐng)域詞的相關(guān)性如公式1如示。
其中Pj是N維向量,由第i個特定領(lǐng)域詞相對搜索結(jié)果頁面j的權(quán)重Wij組成。T也是一個N維向量,由第i個特定領(lǐng)域詞在特定領(lǐng)域的權(quán)重Wij組成。i=1,2,3,…,N,j=1,2,3,…,s。
Wij和Wij的計算公式分別如公式2和公式3所示。Fij是特定領(lǐng)域詞i出現(xiàn)在搜索頁面j中的次數(shù),ni是搜索結(jié)果中出現(xiàn)特定領(lǐng)域詞i的頁面的個數(shù)。
利用通用搜索引擎可以在互聯(lián)網(wǎng)上大范圍搜索相關(guān)頁面信息,使重要信息的獲取源頭滲入到網(wǎng)絡(luò)的方方面面,保證了信息獲取源頭的廣覆蓋性,經(jīng)過有效的分析篩選,最終獲取的重要信息在廣覆蓋的前提下被準確的提取出來,這些保證了最終獲取的重要信息兼有準確性和廣覆蓋性。
2.4用戶交互
用戶交互是以用戶為中心的,查詢請求由用戶下達,重要信息也必須以用戶需要的方式顯示。用戶可能會希望在更大的范圍搜索重要信息,而交互時只顯示最關(guān)心的一部分重要信息,這就使得用戶提交的查詢請求和瀏覽請求往往是不同的。
如果把系統(tǒng)從互聯(lián)網(wǎng)上收集重要信息看成是第一次信息過濾,那么用戶提交瀏覽請求就可以看成是對信息的第二次過濾。用戶的瀏覽請求以范式的形式表示。若用戶在瀏覽請求中提交了4個查詢詞q1,q2,q3,q4構(gòu)成表達式ql^(、q2V q3)^q4,那么系統(tǒng)將根據(jù)這個表達式所對應(yīng)的范式從搜集到的重要信息中抽取用戶最關(guān)心的顯示給用戶。
3實驗結(jié)果和分析
實驗的目的是通過實例驗證搜索的效果。本文中以搜索義烏的小商品為例,搜索對象包括戒指、項鏈等,并且把直接用通用搜索引擎搜索得到的有效頁面和全部頁面的數(shù)量比稱為通用搜索查準率,把使用本文搜索方法搜索得到的有效頁面和全部頁面數(shù)量比稱為Web搜索查準率。用不同查詢請求對義烏戒指進行搜索查詢的結(jié)果如表1所示。
表1說明直接用通用搜索引擎搜索查詢重要信息,其查準率比用本文中的方法進行查詢的查準率要低。當查詢請求逐漸復(fù)雜的時候,通用搜索查準率下降的速度明顯快于Web搜索查準率。由此可見,本文中的方法能夠更有效地在互聯(lián)網(wǎng)上搜索重要信息。
4結(jié)束語
本文針對電子商務(wù)環(huán)境下重要信息的搜索問題,引入了Web挖掘技術(shù),提出了一種在互聯(lián)網(wǎng)搜索重要信息的實現(xiàn)方法。這種方法采用通用搜索引擎收集頁面信息,具有范圍廣的特點,同是對收集到的相關(guān)頁面信息進行分析篩選,保證了提交給用戶的重要信息有更高的準確性。總之,本文中提出的信息搜索方法對電子商務(wù)環(huán)境下進行大范圍信息搜索有很好的應(yīng)用價值。