宋燕燕
摘要 傳媒領(lǐng)域存著在大面積的領(lǐng)域知識,這類領(lǐng)域知識將特征項(xiàng)與文本類別相關(guān)聯(lián)在一起,非常有助于區(qū)分文本的具體類別。本文設(shè)計(jì)方面一種面向傳媒領(lǐng)域知識的文本分類訓(xùn)練器,旨在提高傳媒領(lǐng)域文本的分類性能。訓(xùn)練器將以非常直觀的方式實(shí)現(xiàn)關(guān)鍵詞檢索,特征詞提取,文本分類功能,可以方便地對未知的文件進(jìn)行分類,統(tǒng)計(jì)文本關(guān)鍵詞出現(xiàn)的頻率和文本內(nèi)容的訓(xùn)練。
關(guān)鍵詞 文本分類;傳媒領(lǐng)域;詞頻統(tǒng)計(jì);特征詞
中圖分類號 TP3 文獻(xiàn)標(biāo)識碼A 文章編號2095—6363(2016)12—0032—02
伴隨著互聯(lián)網(wǎng)的迅猛發(fā)展和日益遍及,互聯(lián)網(wǎng)數(shù)據(jù)量劇增,電子文本信息迅速的擴(kuò)大,如何有效地安排和管理這些信息,并且迅速、精確地找到用戶所需要的信息是當(dāng)時信息技術(shù)領(lǐng)域面對的一大應(yīng)戰(zhàn)。文本分類作為處理和安排很多文本數(shù)據(jù)的關(guān)鍵技術(shù),能夠在較大程度上處理信息亂現(xiàn)象的問題,便利用戶精確地定位所需的信息和分流信息。
文本分類是指采用計(jì)算機(jī)程序?qū)ξ谋炯凑找欢ǖ姆诸愺w系進(jìn)行分類標(biāo)記和有效管理,方便用戶進(jìn)行查詢。文本分類訓(xùn)練器的設(shè)計(jì)通常包括文本的特征向量表示、文本特征向量的降維,以及文本分類器的設(shè)計(jì)與測試等。
本文通過分析利用Java技術(shù)構(gòu)建分類訓(xùn)練器的結(jié)構(gòu)框架,明確了基于Java構(gòu)建分類訓(xùn)練器理論可行性,并進(jìn)一步設(shè)計(jì)了系統(tǒng)的技術(shù)流程和功能實(shí)現(xiàn),從而為面向傳媒領(lǐng)域的文本分類訓(xùn)練器的研究和應(yīng)用提供了一種方法。
1相關(guān)技術(shù)介紹
文本分類問題的困難之一便是特征空間的高維性,而特征提取的主要功能就是在保留文本核心信息的情況下盡量減少要處理的單詞數(shù),也就是降低向量空間維數(shù),從而提高文本處理的效率和精度。特征提取方法成為文本分類中首先要解決的問題。
特征提取的常用辦法分為根據(jù)概率的特征提取辦法和根據(jù)語義的特征提取辦法。根據(jù)概率的特征提取辦法是先對文檔進(jìn)行分詞,過濾掉停用詞,并用傳統(tǒng)算法對詞語權(quán)重進(jìn)行核算,得到權(quán)重的排序后,按權(quán)重值的大小選擇相應(yīng)的特征作為文檔的特征關(guān)鍵字。而根據(jù)語義的特征提取辦法是在過濾掉停用詞后對詞語構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),經(jīng)過詞語網(wǎng)絡(luò)結(jié)構(gòu)對特征權(quán)值進(jìn)行核算,從而得到終究文檔的特征詞。
現(xiàn)在選用的分類辦法根本都是根據(jù)機(jī)器學(xué)習(xí)的思維。對于傳媒范疇,有些專業(yè)詞具有顯著的種類傾向性,是判別文本種類的重要依據(jù),如:當(dāng)文本中較多的呈現(xiàn)“新媒體”“媒體”“移動媒體”等這些詞語時,咱們就簡單將文本聯(lián)想到媒體工業(yè)這一種類。咱們把這些行業(yè)內(nèi)流轉(zhuǎn)度高、盡人皆知、與具體種類有關(guān)的語義常識稱為范疇常識,把握住范疇常識有助于文本分類。
2文本分類訓(xùn)練器功能需求以及設(shè)計(jì)
面向于傳媒領(lǐng)域的文本分類訓(xùn)練器的功能需求有以下的幾個大的方面:該系統(tǒng)要可以對文本或文件夾進(jìn)行分類、訓(xùn)練、關(guān)鍵字檢索、詞頻查詢、清屏等具體操作來滿足用戶的多種需求;要給用戶提供直觀方便的操作界面,設(shè)計(jì)的圖形界面方便用戶直觀快速的找到自己需要的功能和其它的一些信息;盡可能詳細(xì)的優(yōu)化輸出功能,讓使用者可以更直接看到所需要的文本和訓(xùn)練結(jié)果;盡可能多的訓(xùn)練文本,合理設(shè)置傳媒領(lǐng)域關(guān)鍵詞才會使文本分類更加準(zhǔn)確。
根據(jù)功能需求對系統(tǒng)進(jìn)行設(shè)計(jì),主要設(shè)計(jì)流程如圖1所示。
3文本分類訓(xùn)練器的實(shí)現(xiàn)
文本分類訓(xùn)練器采用Java開發(fā),分類訓(xùn)練器的屬性數(shù)據(jù)可直接存儲于XML文檔中,在系統(tǒng)內(nèi)部可以方便地實(shí)現(xiàn)屬性數(shù)據(jù)的讀入和讀出,滿足用戶對屬性數(shù)據(jù)直觀的獲取需求。
1)分類模塊的實(shí)現(xiàn)
每個關(guān)鍵詞在此類文章里出現(xiàn)的平均比例等于關(guān)鍵詞出現(xiàn)次數(shù)除以文章總字?jǐn)?shù),統(tǒng)計(jì)關(guān)鍵詞種類和數(shù)量,然后把這些關(guān)鍵詞所對應(yīng)的類枚舉出來,然后將關(guān)鍵詞出現(xiàn)數(shù)量乘以在訓(xùn)練里面的平均占比,得出概論,再歸一化成百分?jǐn)?shù)排列。部分代碼如下:endprint