Web文本挖掘研究

2013-06-08 03:05:44王安

中國信息化·學(xué)術(shù)版 2013年2期

王安

1.引言

如今，隨著Internet的飛速發(fā)展，數(shù)以萬計Web應(yīng)用走進人們的日常生活，網(wǎng)絡(luò)中信息類型日漸龐雜。為了從海量Web信息中獲取知識模式，就亟需將Web技術(shù)與文本挖掘技術(shù)相結(jié)合，對Internet進行Web挖掘。

2.Web挖掘分類

Web信息的多樣性決定了Web 挖掘任務(wù)的多樣性。Web挖掘的信息可分為以下幾類：（1）網(wǎng)頁本身的內(nèi)容；（2）網(wǎng)頁內(nèi)部結(jié)構(gòu)，包括HTML或XML；（3）網(wǎng)頁之間的鏈接結(jié)構(gòu)；（4）描述網(wǎng)頁被如何訪問的使用數(shù)據(jù)；（5）用戶簡檔，包括人數(shù)統(tǒng)計、用戶注冊信息、cookie中的信息。根據(jù)以上信息類別，將Web挖掘任務(wù)分為三類：Web內(nèi)容挖掘（Web content mining），Web結(jié)構(gòu)挖掘（Web structure mining）和Web使用記錄挖掘（Web usage mining）。

3. Web文本挖掘流程

Web中的信息多樣化，其中最主要的信息資源是文本，因此Web文本挖掘成為Web挖掘的一個重要研究領(lǐng)域。由于Web文本挖掘涉及的領(lǐng)域廣泛，挖掘的內(nèi)容豐富、復(fù)雜，目前對Web文本挖掘國內(nèi)外還沒有統(tǒng)一、準(zhǔn)確的定義。

Web文本挖掘的流程一般包括：Web文本收集與預(yù)處理、特征的表示和提取、Web 文本挖掘、挖掘結(jié)果評價、信息表示與信息導(dǎo)航。

4.Web文本挖掘關(guān)鍵技術(shù)

Web文本挖掘過程中，文本特征值的提取是挖掘工作的基礎(chǔ)，而文本分類、聚類是挖掘工作最重要的部分。

4.1 文本信息預(yù)處理

文本預(yù)處理主要包括WEB文本文檔的分詞處理。在中文文檔的詞頻統(tǒng)計前，需先對中文文檔進行分詞處理，即在詞條間加入分隔符，使之轉(zhuǎn)換為分散的詞流形式。分詞的基本算法有：（1）標(biāo)志法。如切分標(biāo)志法、統(tǒng)計標(biāo)引法。（2）基于詞典與規(guī)則匹配法。（3）語義語用法。如后綴分詞法。（4）詞頻統(tǒng)計法。

4.2 文本特征表示

文本特征值的提取是對從WEB 文檔中抽取出來的代表其主題內(nèi)容的元數(shù)據(jù)（特征項）形成特征矢量來表示W(wǎng)EB文本。描述性特征包括文本的名稱、日期、大小、類型等，而語義性特征包括文本的作者、標(biāo)題、內(nèi)容、關(guān)鍵詞等。特征值的提取現(xiàn)在已有多種方法，如：文檔頻次閾值方法、信息增益方法（IG）、x2統(tǒng)計方法（CHI）、互信息熵方法和基于奇異值分解的潛在語義索引方法等。

WEB文檔特征表示的模型有多種，其中矢量空間模型（VSM）是應(yīng)用較多且效果較好的特征表示方法之一，即將WEB文本文檔看成是一組詞條（ t1，t2，…tn）構(gòu)成，對于每一詞條ti，都根據(jù)其在文檔中重要程度賦予一定的權(quán)值Wi，可以將其看成是一個n 維坐標(biāo)系，W1，W2，…，Wn為對應(yīng)的坐標(biāo)值，因此每一篇文檔都可以映射為由一組詞條矢量構(gòu)成的向量空間中的一點，對于所有WEB文檔都用詞條特征矢量：

V（doc）=（t1，w1（doc）；t2，w2（doc）；…tn，wn（doc））

來表示文檔doc?？梢詫⑽臋ndoc中出現(xiàn)的所有單詞作為ti，也可以要求ti是doc中出現(xiàn)的所有短語，從而提高內(nèi)容特征表示的準(zhǔn)確性。wi（doc）是第i詞條在文檔doc中的權(quán)值。wi（doc）的計算方法有很多種，在VSM中的TF-IDF是一種常見的權(quán)值確定方法，即：？？

log/

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Web文本挖掘研究