国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Web挖掘在電子商務(wù)信息搜索中的應(yīng)用

2009-03-23 02:40熊志文
計算機時代 2009年1期
關(guān)鍵詞:檢索電子商務(wù)

熊志文

摘要:隨著電子商務(wù)的深入發(fā)展,互聯(lián)網(wǎng)已成為電子商務(wù)的基礎(chǔ)。電子商務(wù)環(huán)境下,如何從互聯(lián)網(wǎng)中挖掘和利用數(shù)據(jù)是企業(yè)非常關(guān)心的問題。文章結(jié)合當前的電子商務(wù)環(huán)境,對重要信息的搜索問題進行了分析,提出了采用Web挖掘在互聯(lián)網(wǎng)中搜索重要信息的方法,給出了該方法的一個實現(xiàn)技術(shù)。實驗結(jié)果表明該方法可以在互聯(lián)網(wǎng)中高效準確地搜索重要信息。

關(guān)鍵詞:Web挖掘;電子商務(wù);檢索;元搜索引擎

0引言

隨著全球信息化的發(fā)展,電子商務(wù)在企業(yè)經(jīng)營中的應(yīng)用日益廣泛,它將打破時空界限,改變貿(mào)易形態(tài),改善物流、資金流、信息流的環(huán)境,有效地降低企業(yè)生產(chǎn)成本,加速整個社會的商品流通。電子商務(wù)環(huán)境下的企業(yè)與外界聯(lián)系增多,企業(yè)為了提高自身競爭力,必須擺脫傳統(tǒng)相對狹隘的經(jīng)營模式,不斷提升對潛在競爭對手、產(chǎn)品、客戶、供應(yīng)商以及關(guān)鍵的價值來源等重要信息的獲取能力。但當前在互聯(lián)網(wǎng)中要獲取有用的商務(wù)信息并不容易,因為在擴大搜索范圍時,難以保證所有搜索結(jié)果都是相關(guān)和有效的。

針對上述問題,本文引入了基于Web挖掘的電子商務(wù)信息檢索方法。Web挖掘是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用,它從大量的Web文檔集合和在各站點瀏覽的相關(guān)數(shù)據(jù)中發(fā)現(xiàn)潛在的、有價值的信息,是提高電子商務(wù)企業(yè)運作效率的工具。根據(jù)挖掘?qū)ο蟮牟煌?,Web挖掘一般可以分為三種:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘。Web內(nèi)容挖掘是從頁面摘要及其文檔內(nèi)容中獲取有用知識的過程,一般包括文本文件和多媒體文檔的挖掘;由于有用知識除了在Web頁面內(nèi)容中,也包含在頁面結(jié)構(gòu)中,所以Web結(jié)構(gòu)挖掘是從萬維網(wǎng)的組織結(jié)構(gòu)和網(wǎng)頁的相互鏈接中進行挖掘,發(fā)現(xiàn)頁面間的關(guān)系,改進搜索引擎的性能;而Web使用挖掘則是通過挖掘相應(yīng)站點的日志文件和相關(guān)數(shù)據(jù)發(fā)現(xiàn)站點瀏覽者的行為模式,識別用戶的喜好、滿意度,發(fā)現(xiàn)潛在用戶,增強站點的服務(wù)競爭力。

本文中的信息檢索方法使用通用的搜索引擎工具在互聯(lián)網(wǎng)上搜索相關(guān)頁面信息,再采用Web挖掘?qū)ο嚓P(guān)頁面信息進行分析篩選,從中提取輔助商業(yè)決策的重要信息,為企業(yè)贏得更多潛在利潤。

1搜索方法的框架

傳統(tǒng)企業(yè)經(jīng)營模式中,信息收集的渠道往往具有壟斷性,企業(yè)的經(jīng)營受到地域的限制,相關(guān)的供應(yīng)商和客戶也比較固定,企業(yè)競爭壓力小。而在電子商務(wù)環(huán)境下,市場和業(yè)務(wù)范圍通過互聯(lián)網(wǎng)大大擴展,供應(yīng)商和企業(yè)終端用戶行為發(fā)生根本性變革,企業(yè)面對相鄰和傳統(tǒng)上不相關(guān)的價值鏈上的競爭者,使得企業(yè)競爭壓力增大。對競爭對手、產(chǎn)品、客戶、供應(yīng)商以及關(guān)鍵的價值來源進行調(diào)查和評價,然后根據(jù)自己的競爭優(yōu)勢設(shè)計各種戰(zhàn)略顯得至關(guān)重要。

為了適應(yīng)電子商務(wù)環(huán)境下大范圍、高強度的競爭,企業(yè)需要充分利用電子商務(wù)的有利條件,挖掘潛在競爭對手、客戶、供應(yīng)商以及關(guān)鍵的價值來源等信息。這些信息在本文中稱為重要信息。重要信息是從相關(guān)頁面信息中篩選分析得到的。

本文的搜索方法(其實現(xiàn)框架如圖1所示),利用通用搜索引擎和Web挖掘技術(shù)對互聯(lián)網(wǎng)上的信息進行搜索、分析篩選,主要功能包括4個方面:

(1)生成搜索關(guān)鍵字集合。根據(jù)用戶的查詢請求,生成相對應(yīng)的搜索關(guān)鍵字集合。

(2)收集相關(guān)頁面信息。根據(jù)搜索關(guān)鍵字集合在互聯(lián)網(wǎng)上收集相關(guān)的頁面信息。

(3)獲取重要信息。對收集的頁面進行分析篩選獲取重要信息。

(4)用戶交互。將重要信息以用戶需要的方式顯示。

其中功能(2)和(3)的實現(xiàn)質(zhì)量非常重要,將直接影響獲取的重要信息的質(zhì)量。

2搜索方法的實現(xiàn)

搜索方法實現(xiàn)的核心思想是利用通用搜索引擎和Web挖掘技術(shù)對互聯(lián)網(wǎng)上的信息進行搜索、分析篩選得到重要信息。首先由用戶發(fā)出查詢請求,然后根據(jù)用戶的查詢請求生成適當?shù)乃阉麝P(guān)鍵字集合,利用搜索關(guān)鍵字集合進行重要信息的獲取并將結(jié)果返回。

2.1生成搜索關(guān)鍵字集合

在互聯(lián)網(wǎng)中要獲取有價值的商務(wù)信息不容易,因為目前網(wǎng)絡(luò)信息的搜索大多是精確匹配,返回的結(jié)果不但有較大冗余,還包含許多不相關(guān)的信息。根據(jù)用戶查詢請求生成恰當?shù)乃阉麝P(guān)鍵字集合可以提高搜索的準確性。本文中搜索關(guān)鍵字集合生成的方法是基于語義網(wǎng)的,先要進行電子商務(wù)信息領(lǐng)域的領(lǐng)域概念詞分析,建立相關(guān)的領(lǐng)域概念詞詞典。

搜索關(guān)鍵字集合生成過程如圖2所示。首先從用戶輸入的查詢請求中抽取有效檢索詞,然后將檢索詞在概念詞詞典中進行語義分析和匹配,獲取搜索關(guān)鍵字集合。其中抽取有效檢索詞的過程主要由6部分組成,如圖3所示。

2.2收集相關(guān)頁面信息

收集相關(guān)頁面信息,就是利用搜索引擎在互聯(lián)網(wǎng)上收集與搜索關(guān)鍵字集合相關(guān)的頁面信息。搜索引擎(Search Engines)是指對互聯(lián)網(wǎng)上的信息資源進行搜索整理,然后供人們查詢的系統(tǒng),目前商業(yè)化的通用搜索引擎數(shù)量較多,如Excite、Google、百度、雅虎、搜狐等。雖然通用搜索引擎可以從互聯(lián)網(wǎng)上搜索需要的信息,但是存在著不足:

(1)每個搜索引擎覆蓋互聯(lián)網(wǎng)的范圍是有限的,不同公司開發(fā)的搜索引擎有不同的地域和語言傾向;

(2)搜索結(jié)果中有已經(jīng)失效的頁面信息;

(3)搜索結(jié)果中有不相關(guān)的頁面信息。

因此,為了更高質(zhì)高效地收集相關(guān)頁面信息,本文采用了元搜索引擎技術(shù)。元搜索引擎是指在搜索引擎之后或之上的搜索引擎,是在通用搜索引擎的基礎(chǔ)之上建立起來的可以同時或分時查詢多個通用搜索引擎的網(wǎng)絡(luò)信息查詢系統(tǒng)。元搜索引擎實際上是借助傳統(tǒng)的Internet搜索引擎提供信息查詢服務(wù)的。檢索時,元搜索引擎根據(jù)用戶提交的檢索請求,調(diào)用通用搜索引擎進行搜索,再對搜索結(jié)果進行匯集、整理、排列等優(yōu)化處理后,以統(tǒng)一格式反饋。元搜索引擎主要由用戶接口界面、查詢調(diào)度機制、搜索引擎代理和結(jié)果處理機制四部分組成。文中的元搜索引擎結(jié)構(gòu)如圖4所示,主要分為6個功能模塊:

(1)用戶接口模塊負責和用戶交互,用戶可以通過此模塊下達查詢請求、設(shè)置系統(tǒng)的參數(shù)和獲取搜索得到的相關(guān)頁面信息;

(2)引擎代理模塊根據(jù)用戶的查詢請求生成搜索關(guān)鍵字集合,然后根據(jù)設(shè)置調(diào)用通用搜索引擎在互聯(lián)網(wǎng)上搜索相關(guān)的頁面信息,通用搜索引擎再將搜索結(jié)果返回給引擎代理模塊;

(3)分析驗證模塊對搜索結(jié)果進行解析并對網(wǎng)絡(luò)鏈接的有效性進行驗證;

(4)信息處理模塊對分析驗證后的結(jié)果進行整理、歸納和分類,得到與查詢請求相關(guān)的頁面信息;

(5)信息存儲模塊負責把整理得到的相關(guān)頁面信息存儲在數(shù)據(jù)庫中;

(6)查詢處理模塊把用戶需要的頁面信息以用戶需要的格式進行反饋。

2.3獲取重要信息

利用搜索關(guān)鍵字集合在互聯(lián)網(wǎng)上可以獲得許多相關(guān)的頁面信息,但其中的一部分與用戶的需求不相關(guān),因此需要對從

互聯(lián)網(wǎng)上獲得的頁面信息進行分析篩選,從中找出重要信息。分析篩選的功能如下:

(1)從有效頁面的摘要中提取描述詞匯;

(2)分析頁面描述詞匯和特定領(lǐng)域詞的相關(guān)性進而得出頁面信息和用戶需求的關(guān)聯(lián)性;

(3)根據(jù)頁面信息和用戶需求的關(guān)聯(lián)性來分類處理搜索結(jié)果;

(4)根據(jù)事先設(shè)定的閾值,篩除關(guān)聯(lián)性小于閾值的頁面信息;

(5)分析關(guān)聯(lián)}生大于閾值的頁面信息從中獲取重要信息;

(6)將重要信息進行存儲以備用戶使用。

本文判斷搜索結(jié)果與用戶需求的關(guān)聯(lián)性采用了向量模型。假設(shè)有s個頁面信息和N個特定領(lǐng)域詞,搜索頁面j和特定領(lǐng)域詞的相關(guān)性如公式1如示。

其中Pj是N維向量,由第i個特定領(lǐng)域詞相對搜索結(jié)果頁面j的權(quán)重Wij組成。T也是一個N維向量,由第i個特定領(lǐng)域詞在特定領(lǐng)域的權(quán)重Wij組成。i=1,2,3,…,N,j=1,2,3,…,s。

Wij和Wij的計算公式分別如公式2和公式3所示。Fij是特定領(lǐng)域詞i出現(xiàn)在搜索頁面j中的次數(shù),ni是搜索結(jié)果中出現(xiàn)特定領(lǐng)域詞i的頁面的個數(shù)。

利用通用搜索引擎可以在互聯(lián)網(wǎng)上大范圍搜索相關(guān)頁面信息,使重要信息的獲取源頭滲入到網(wǎng)絡(luò)的方方面面,保證了信息獲取源頭的廣覆蓋性,經(jīng)過有效的分析篩選,最終獲取的重要信息在廣覆蓋的前提下被準確的提取出來,這些保證了最終獲取的重要信息兼有準確性和廣覆蓋性。

2.4用戶交互

用戶交互是以用戶為中心的,查詢請求由用戶下達,重要信息也必須以用戶需要的方式顯示。用戶可能會希望在更大的范圍搜索重要信息,而交互時只顯示最關(guān)心的一部分重要信息,這就使得用戶提交的查詢請求和瀏覽請求往往是不同的。

如果把系統(tǒng)從互聯(lián)網(wǎng)上收集重要信息看成是第一次信息過濾,那么用戶提交瀏覽請求就可以看成是對信息的第二次過濾。用戶的瀏覽請求以范式的形式表示。若用戶在瀏覽請求中提交了4個查詢詞q1,q2,q3,q4構(gòu)成表達式ql^(、q2V q3)^q4,那么系統(tǒng)將根據(jù)這個表達式所對應(yīng)的范式從搜集到的重要信息中抽取用戶最關(guān)心的顯示給用戶。

3實驗結(jié)果和分析

實驗的目的是通過實例驗證搜索的效果。本文中以搜索義烏的小商品為例,搜索對象包括戒指、項鏈等,并且把直接用通用搜索引擎搜索得到的有效頁面和全部頁面的數(shù)量比稱為通用搜索查準率,把使用本文搜索方法搜索得到的有效頁面和全部頁面數(shù)量比稱為Web搜索查準率。用不同查詢請求對義烏戒指進行搜索查詢的結(jié)果如表1所示。

表1說明直接用通用搜索引擎搜索查詢重要信息,其查準率比用本文中的方法進行查詢的查準率要低。當查詢請求逐漸復(fù)雜的時候,通用搜索查準率下降的速度明顯快于Web搜索查準率。由此可見,本文中的方法能夠更有效地在互聯(lián)網(wǎng)上搜索重要信息。

4結(jié)束語

本文針對電子商務(wù)環(huán)境下重要信息的搜索問題,引入了Web挖掘技術(shù),提出了一種在互聯(lián)網(wǎng)搜索重要信息的實現(xiàn)方法。這種方法采用通用搜索引擎收集頁面信息,具有范圍廣的特點,同是對收集到的相關(guān)頁面信息進行分析篩選,保證了提交給用戶的重要信息有更高的準確性。總之,本文中提出的信息搜索方法對電子商務(wù)環(huán)境下進行大范圍信息搜索有很好的應(yīng)用價值。

猜你喜歡
檢索電子商務(wù)
2025年我國農(nóng)村電子商務(wù)交易額達到2.8萬億元
2019年第4-6期便捷檢索目錄
《電子商務(wù)法》如何助力直銷
電子商務(wù)
《國外醫(yī)藥抗生素分冊》第37卷1~6期(2016年)目次檢索
專利檢索中“語義”的表現(xiàn)
關(guān)于加快制定電子商務(wù)法的議案
電子商務(wù)人的核心能力
期刊訂閱電子商務(wù)平臺
國際|標準|檢索
沁水县| 岑巩县| 民和| 巴楚县| 乌拉特后旗| 民权县| 黄浦区| 成都市| 海淀区| 长丰县| 阿克苏市| 隆安县| 延安市| 英吉沙县| 台南县| 江城| 左贡县| 区。| 新巴尔虎右旗| 阳江市| 铅山县| 南靖县| 宁海县| 柳林县| 邻水| 邓州市| 杭锦旗| 奎屯市| 威远县| 金门县| 深水埗区| 佛山市| 闻喜县| 光泽县| 札达县| 台湾省| 和政县| 徐水县| 克东县| 乐陵市| 松原市|