国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于互聯(lián)網(wǎng)的數(shù)據(jù)挖掘技術(shù)在競爭情報(bào)收集中的應(yīng)用

2011-04-13 12:20車榮海梁志恒
科技傳播 2011年6期
關(guān)鍵詞:門戶網(wǎng)站搜索引擎情報(bào)

車榮海,梁志恒

沈陽師范大學(xué) 科信軟件學(xué)院,遼寧 沈陽 110034

1 Internet情報(bào)收集子系統(tǒng)概述

一個(gè)企業(yè)要進(jìn)行競爭情報(bào)的研究,應(yīng)該建立自己的基于網(wǎng)絡(luò)環(huán)境的競爭情報(bào)系統(tǒng)——競爭情報(bào)網(wǎng)絡(luò)系統(tǒng)是圍繞企業(yè)的經(jīng)營戰(zhàn)略目標(biāo),以現(xiàn)代信息技術(shù)(尤其是網(wǎng)絡(luò)技術(shù))為主要手段,對企業(yè)內(nèi)部和外部的競爭要素,競爭環(huán)境以及競爭對手的信息進(jìn)行收集、存儲(chǔ)、處理與分析研究的新一代綜合性網(wǎng)絡(luò)系統(tǒng)。系統(tǒng)有3部分組成:競爭情報(bào)收集子系統(tǒng)、競爭情報(bào)分析子系統(tǒng)和競爭情報(bào)服務(wù)子系統(tǒng)。競爭情報(bào)收集子系統(tǒng)是根據(jù)事先確立的情報(bào)課題,收集、整理各種信息,初步篩選,同時(shí)作好文件、記錄等資料的保管及定期歸檔工作。競爭情報(bào)分析子系統(tǒng)是應(yīng)用恰當(dāng)?shù)姆治龇椒ㄅc技術(shù),深入分析競爭情報(bào)收集子系統(tǒng)的信息,生產(chǎn)競爭情報(bào)產(chǎn)品。競爭情報(bào)服務(wù)子系統(tǒng)是以各種適當(dāng)?shù)姆绞桨b競爭情報(bào)產(chǎn)品,及時(shí)將產(chǎn)品傳送到情報(bào)用戶手中去,并為企業(yè)決策層提供快捷的瀏覽、查詢服務(wù)和情報(bào)服務(wù)。以企業(yè)現(xiàn)有技術(shù)和信息資源為核心, 以網(wǎng)絡(luò)為基礎(chǔ)的現(xiàn)代競爭情報(bào)系統(tǒng)共分3個(gè)層次:第一個(gè)層次是企業(yè)內(nèi)部網(wǎng)。它利用Internet技術(shù)把企業(yè)內(nèi)部所有的信息資源集成起來,把各子公司、各部門聯(lián)系起來,實(shí)現(xiàn)企業(yè)內(nèi)部的信息共享與協(xié)同作業(yè);第二層次是企業(yè)外聯(lián)網(wǎng),它將Internet技術(shù)應(yīng)用于企業(yè)間的信息系統(tǒng),把與企業(yè)有業(yè)務(wù)合作關(guān)系的交易伙伴、合作對象、相關(guān)公司以及主要客戶連成一體;第三層次是因特網(wǎng),它是覆蓋全世界范圍的網(wǎng)絡(luò),通過它可以使國內(nèi)外企業(yè)、遠(yuǎn)程用戶、異地資源得以聯(lián)合,實(shí)現(xiàn)資源共享,溝通合作。

2 數(shù)據(jù)挖掘技術(shù)在Internet情報(bào)收集子系統(tǒng)的應(yīng)用

2.1 公共信息挖掘系統(tǒng)

隨著Internet的迅速發(fā)展,在Internet上儲(chǔ)備了大量的信息,這些信息是零散的分布在全球的各個(gè)位置上,也就是分布在各個(gè)不同的計(jì)算機(jī)服務(wù)器上,那么我們?nèi)绾蝸砀玫恼业讲⒗眠@些信息,成為了競爭情報(bào)工作中一個(gè)非常重要的課題研究。競爭情報(bào)工作除了要挖掘自身門戶網(wǎng)站的知識(shí),Internet上的各種各樣的公共信息的利用同樣也不容忽視。公共信息挖掘系統(tǒng)就是企業(yè)通過在Internet上免費(fèi)的信息獲得有價(jià)值的信息的系統(tǒng)。通過查閱大量的資料提出一個(gè)公共信息挖掘系統(tǒng)的模型如下:

圖1 公共信息挖掘系統(tǒng)模型圖

Web上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)不同,傳統(tǒng)的數(shù)據(jù)庫都有一定的數(shù)據(jù)模型,可以根據(jù)此模型來具體描述特定的數(shù)據(jù)。而Web上的數(shù)據(jù)非常復(fù)雜,沒有特定的摸模型描述,每一站點(diǎn)的數(shù)據(jù)都各自獨(dú)立設(shè)計(jì),且數(shù)據(jù)本身具有自述性和動(dòng)態(tài)可變性。傳統(tǒng)數(shù)據(jù)挖掘技術(shù)是用來處理保存在數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),但是Internet上的大量數(shù)據(jù)都是半結(jié)構(gòu)化和非結(jié)構(gòu)化。因此,要在競爭情報(bào)工作中充分利用Internet的信息,數(shù)據(jù)由非結(jié)構(gòu)化和半結(jié)構(gòu)化轉(zhuǎn)化為結(jié)構(gòu)化形式是關(guān)鍵,從而就涉及到情報(bào)檢索和WEB挖掘兩個(gè)領(lǐng)域的研究。

2.1.1 元搜索引擎

搜索引擎按其工作方式主要可分為3種,分別是全文搜索引擎目錄索引類搜索引擎和元搜索引擎。元搜索引擎,被稱為搜索引擎之上的搜索引擎。用戶只需遞交一次檢索請求,由于元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將所有查詢結(jié)果經(jīng)過處理后集中起來以整體統(tǒng)一的格式呈現(xiàn)到用戶面前。由于采用了一系列的優(yōu)化運(yùn)行機(jī)制,能夠在盡可能短的時(shí)間內(nèi)提供給搜索者相對全面、準(zhǔn)確的信息,能夠更好的滿足搜索者的需要,但顯示給搜索者的信息也是不能達(dá)到100%,可以通過擴(kuò)展調(diào)用多個(gè)搜索引擎來提高搜索的全面性。值得推薦的元搜索引擎有Dogpile、InfoSpace、Vivisimo等。為了在大范圍的檢索中取得較好的效果,本模型采用元搜索引擎。

2.1.2 WEB結(jié)構(gòu)挖掘(鏈接分析)

目前的大多數(shù)搜索引擎在進(jìn)行分類的時(shí)候都是利用內(nèi)容的相關(guān)性進(jìn)行排序的,所謂的內(nèi)容相關(guān)性排序就是根據(jù)網(wǎng)頁的內(nèi)容進(jìn)行分類,處理的辦法一般是進(jìn)行分詞、詞頻統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)的結(jié)果進(jìn)行分類和進(jìn)行相關(guān)性排序。這樣的分類不能反映人們對該網(wǎng)頁內(nèi)容的分析與看法,缺乏一定的主觀性。在使用元搜索引擎技術(shù)后,調(diào)用己有的搜索引擎,因此返回的搜索結(jié)果是進(jìn)行了基于內(nèi)容相關(guān)性的相關(guān)性排序。這些結(jié)果中包含指向的結(jié)果頁面的超級連接(URL網(wǎng)址),不同的搜索引擎的結(jié)果不同,那么它們的超級連接也是不同的,其中有部分內(nèi)容是重復(fù)的。我們知道通過超級連接能夠反映某個(gè)頁面是不是權(quán)威頁面,也就可以根據(jù)某個(gè)頁面被引用的次數(shù)可以知道這個(gè)頁面是不是權(quán)威頁面,也就是基于超級鏈接的相關(guān)性排序。因此我們可以對處理結(jié)果中的各個(gè)超級鏈接的URL地址進(jìn)行排序,在原有的基于內(nèi)容排序的基礎(chǔ)上加入了基于超級鏈接的相關(guān)性排序,通過鏈接分析,提高搜索結(jié)果的精度。Brin和Page提出了的Page-rank算法,并將它應(yīng)用于搜索引擎谷歌。

2.2 門戶網(wǎng)站挖掘系統(tǒng)

隨著互聯(lián)網(wǎng)的飛速發(fā)展,現(xiàn)在很多的企業(yè)擁有自己的門戶網(wǎng)站。如果企業(yè)納入電子商務(wù)的運(yùn)營模式,門戶網(wǎng)站更加是必不可少。基于Internet的競爭情報(bào)工作的研究應(yīng)該首先把瀏覽本企業(yè)的網(wǎng)站時(shí)所保存下來的數(shù)據(jù),進(jìn)行挖掘分析。通過對網(wǎng)站本身的Web挖掘,對于競爭情報(bào)工作主要會(huì)產(chǎn)生以下3方面優(yōu)勢:1)理解客戶行為:通過理解訪問者的動(dòng)態(tài)行為來優(yōu)化電子商務(wù)網(wǎng)站的經(jīng)營模式;獲得個(gè)人訪問者的興趣愛好;了解從訪問者到客戶的轉(zhuǎn)化率;發(fā)現(xiàn)客戶和訪問者對于網(wǎng)頁的瀏覽模式;發(fā)現(xiàn)客戶群對于不同業(yè)務(wù)的行為特征;發(fā)現(xiàn)網(wǎng)站上客戶之間的關(guān)系;2)判斷站點(diǎn)的效率:發(fā)現(xiàn)站點(diǎn)上不同業(yè)務(wù)量;設(shè)計(jì)網(wǎng)站不依靠專家定性指導(dǎo),根據(jù)對訪問者路徑分析等手段修改、設(shè)計(jì)網(wǎng)頁結(jié)構(gòu)和布局;對于不同客戶提供個(gè)性化服務(wù);3)評估電子商務(wù)模式的成功:將客戶按照模式分類;測評廣告的投資回報(bào)率;得到可靠的市場反饋。

2.3 行業(yè)監(jiān)視挖掘系統(tǒng)

分析競爭對手的目的是了解每個(gè)競爭對手的戰(zhàn)略和目標(biāo),評估其優(yōu)勢與劣勢以及競爭反應(yīng)模式,從而制定自己的競爭戰(zhàn)略。如今公司擁有自己的門戶網(wǎng)站再平常不過了?,F(xiàn)在的網(wǎng)站不僅僅對企業(yè)做簡單的介紹、發(fā)布新聞,更多的是把網(wǎng)站作為與客戶進(jìn)行交流的前沿陣地。因此,通過對競爭對手門戶網(wǎng)站的分析,可以尋找到許多有價(jià)值的信息。不僅可以關(guān)注競爭對手或潛在對手的信息,通常每個(gè)行業(yè)都有自己的網(wǎng)站,這些網(wǎng)站上的數(shù)據(jù)統(tǒng)計(jì)信息都是很有價(jià)值的。但是有時(shí)更新速度快,因此需要及時(shí)進(jìn)行發(fā)現(xiàn)。對于如何從其他網(wǎng)站進(jìn)行有效的數(shù)據(jù)挖掘,目前還有些困難,隨著技術(shù)的發(fā)展,門戶網(wǎng)站會(huì)成為企業(yè)競爭戰(zhàn)略的重點(diǎn)。

[1]李子方.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則在競爭情報(bào)系統(tǒng)中應(yīng)用[J].微計(jì)算機(jī)信息,2007.

[2]董獻(xiàn)洲,胡曉峰.信息可視化技術(shù)在情報(bào)分析中的應(yīng)用研究[J].計(jì)算機(jī)工程與應(yīng)用,2006(34).

猜你喜歡
門戶網(wǎng)站搜索引擎情報(bào)
情報(bào)
情報(bào)
情報(bào)
YouTube
談?wù)T戶網(wǎng)站的全方位
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
交接情報(bào)
Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析