陶瓷行業(yè)博客文本矩陣的建立方法

2018-12-05 09:08:50胡小麗

電腦與電信 2018年9期

胡小麗

（景德鎮(zhèn)陶瓷大學(xué)信息工程學(xué)院，江西景德鎮(zhèn) 333403）

1 引言

在有著幾千年歷史且名揚(yáng)海外的中國(guó)陶瓷行業(yè)，網(wǎng)絡(luò)中有大量關(guān)于陶瓷藝術(shù)、陶瓷文獻(xiàn)、陶瓷企業(yè)、陶瓷產(chǎn)品、陶瓷技術(shù)、陶瓷原料、燃料以及行業(yè)資訊等陶瓷方面的有價(jià)值的博客信息資源。為了提高陶瓷行業(yè)聚類的精度，陶瓷信息詞典的建立與博客文本矩陣建立方法尤為重要，對(duì)提取陶瓷行業(yè)博客文本特征有著重大意義。

2 陶瓷信息詞典建立

本文從各知名陶瓷網(wǎng)站中收集信息，進(jìn)行預(yù)處理，再進(jìn)行人工分類，創(chuàng)建了以下11個(gè)類別，分別是：陶瓷藝術(shù)、日用陶瓷、建筑陶瓷、衛(wèi)浴陶瓷、功能陶瓷、工業(yè)陶瓷、陶瓷燃料、陶瓷原料、陶瓷商貿(mào)、陶瓷文獻(xiàn)和陶瓷技術(shù)。收集的信息主要來(lái)自全國(guó)陶瓷行業(yè)排名前十位的陶瓷網(wǎng)站服務(wù)商，如中國(guó)陶瓷信息資源網(wǎng)http://www.ccisn.com.cn、中國(guó)陶瓷網(wǎng)http://www.taoci163.com/、中華陶瓷網(wǎng) http://www.chinaceram.cn/、中陶網(wǎng)http://www.ccenn.com/等等。這些網(wǎng)站相對(duì)來(lái)說(shuō)是比較權(quán)威的，其信息內(nèi)容比較全面，信息來(lái)源也都是可靠的，能夠很好地滿足創(chuàng)建陶瓷信息語(yǔ)料庫(kù)的要求。創(chuàng)建的陶瓷信息詞典以文本格式保存到相應(yīng)的文件中。

3 陶瓷信息詞獲取方法

陶瓷行業(yè)的博客文本的特征詞與陶瓷信息密切相關(guān)。提取陶瓷信息的方法有多種，例如，基于陶瓷信息詞典的方法、基于語(yǔ)料庫(kù)的方法等等。本文選用的是基于陶瓷信息詞典的方法。

提取一篇文章中的陶瓷信息詞的方法：先為選用的陶瓷信息詞典建立一個(gè)表，然后通過(guò)查表的方式判斷進(jìn)行過(guò)分詞處理的文章(詞串)中的詞是不是陶瓷信息詞。如果能在表中查找到，則是陶瓷信息詞，將其輸出；否則，不是陶瓷信息詞，判斷下一個(gè)。這樣，最后得到一個(gè)陶瓷信息詞串(該串可以是空串)。考慮到陶瓷信息詞表的長(zhǎng)度較長(zhǎng)，加之需要頻繁查找，為降低開(kāi)銷，我們采用了索引技術(shù)。先對(duì)無(wú)序的陶瓷信息詞語(yǔ)表排序，按字長(zhǎng)由短到長(zhǎng)，然后對(duì)排好序的陶瓷信息詞表，根據(jù)詞的字長(zhǎng)建立了一個(gè)索引表。因此，查找陶瓷信息詞時(shí)，可以先查索引表，然后查陶瓷信息詞表。具體算法如下所示：

提取陶瓷信息詞的算法：

輸入：陶瓷信息詞典CIC，詞串S1

輸出：陶瓷信息詞串S2

方法：

1)創(chuàng)建一個(gè)表存放陶瓷信息詞典CIC；

2)將CIC按陶瓷信息詞字長(zhǎng)以升序排列；

3)根據(jù)詞的字長(zhǎng)在CIC上創(chuàng)建一個(gè)方便查找的索引表Index；

4)Loop1

5)判斷S1是否為空，如果是，執(zhí)行第(13)步，否則，繼續(xù)；

6)取S1中的第一個(gè)單詞視為當(dāng)前單詞W；

7)Loop2

8)判斷W是否標(biāo)點(diǎn)符號(hào)，如否，繼續(xù)執(zhí)行判斷;否則，讀串S1的下一個(gè)單詞作為當(dāng)前單詞W，并執(zhí)行第(4)步；

9)計(jì)算W的字長(zhǎng)；

10)在索引表Index中查詢單詞W，如果查找到，繼續(xù)執(zhí)行；否則，讀串S1的下一個(gè)單詞視為當(dāng)前單詞W，并執(zhí)行第(4)步；

11)在CIC中查詢單詞W，如果查找到，執(zhí)行第(8)步；否則，讀串S1的下一個(gè)單詞視為當(dāng)前單詞W，并執(zhí)行第(4)步；

12)W進(jìn)入串S2，并從S1中去掉W，執(zhí)行第(4)步；

13)輸出詞串S2。

在具體實(shí)現(xiàn)程序過(guò)程中，我們可以隊(duì)列的形式存儲(chǔ)詞串S1和S2，采用二維數(shù)組存儲(chǔ)陶瓷信息詞。

4 陶瓷博客文本矩陣建立

從Web獲取到的博客文本經(jīng)預(yù)處理后仍然屬于半結(jié)構(gòu)化數(shù)據(jù)，需要將數(shù)據(jù)結(jié)構(gòu)化，即轉(zhuǎn)換為數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)形式，才能用于后續(xù)的聚類分析處理。從Web頁(yè)面中獲取的文本必須表示成計(jì)算機(jī)可讀取的形式，常用的表示形式：向量空間、布爾模型、基于圖的文本表示、概率模型和潛在語(yǔ)意索引等。本文采用向量空間模型的建立方法。

向量空間模型是將一篇文檔表示成一個(gè)特征值向量。同樣一個(gè)文檔數(shù)據(jù)集合中所有不重復(fù)出現(xiàn)的詞(除了停用詞)組成該向量的各分量，每一個(gè)不同的特征項(xiàng)對(duì)應(yīng)向量的一個(gè)維度，維數(shù)和詞的數(shù)目相同。也就是說(shuō)，在向量空間模型中，每一個(gè)文本都被轉(zhuǎn)換為一個(gè)n維的向量，n為特征項(xiàng)的個(gè)數(shù)，形式為V（T1,W1;T2,W2;…;TV,WV），Tk為特征項(xiàng)，Wk為特征項(xiàng)權(quán)重。向量中的Wk的值表示Tk在此文檔中的中的權(quán)值，即Tk對(duì)于描述此文檔所起作用的程度。Wk越大，則Tk對(duì)于描述V（T1,W1;T2,W2;…;TV,WV）也越重要;Wk越小，Tk就越不能反映V（T1,W1;T2,W2;…;TV,WV）的內(nèi)容。

本文選取的文本表示方法是基于向量空間模型的方法，該方法是將文本映射成為一個(gè)特征向量，把博客看作一個(gè)文本，每個(gè)博客都有對(duì)應(yīng)的特征項(xiàng)（也叫索引詞）,V={T1,T2,…,TV}表示相關(guān)博客的一組特征項(xiàng)，每一個(gè)Tk都是一個(gè)索引詞，集合V稱為詞匯表，v表示它的大小，代表V中所包含的特征項(xiàng)個(gè)數(shù)，對(duì)于博客Bj中的每個(gè)特征項(xiàng)Tk，都有一個(gè)權(quán)值Wkj，這樣對(duì)于每個(gè)博客Bj都可以被表示成一個(gè)詞向量Wj=｛W1j，W2j，…，Wvj｝，這個(gè)詞向量就是該博客的特征向量。從而對(duì)于一個(gè)有M個(gè)博客的博客集，可以構(gòu)造相應(yīng)的文本特征項(xiàng)矩陣：

5 結(jié)束語(yǔ)