法漢英
【摘 要】高等教育的快速發(fā)展使學校檔案館要管理的檔案越來越多,許多學校針對這種情況采用檔案管理軟件對檔案進行管理,據(jù)調(diào)查在我校沒有對檔案文件進行自動分類功能,為減輕檔案工作人員工作量便研究一種適合我校檔案的文本自動分類方法。本文大體論述文本分類算法的知識點和文本分類算法的應用。根據(jù)山東女子學院檔案的重復性、周期性等特點,詢問檔案館工作人員采用手工對檔案進行分類時,需要知道檔案主題名和檔案人信息確定歸屬于哪一個類別。本文將檔案按照主題名看作不同類別應用加權(quán)分類算法對屬于不同的類別的檔案進行自動分類處理。
【關(guān)鍵詞】文本分類;山東女子學院檔案;短文本;加權(quán)分類算法
1 研究背景和意義
對于檔案人員來說文本分類不是一個陌生的概念,過去用手工進行檔案分類。隨著計算機快速發(fā)展出現(xiàn)了許多文本文件。對文本進行有效的分類,利用計算機進行文本分類研究和應用尤為重要[2]。
分類的意思是將具有共同特定特征的事物放在一起方便檢索。最典型的分類應用是在超市里商品排放,例如把不同品牌薯片放在一個貨架上,把餅干放在另一貨架上。這種好處是讓顧客在買東西時能比較品牌信息為購買做決定。用戶在下次購買東西的時候會直接前往該位置。
文本分類是把有相似特征的文本歸納到一起方便查詢。面對海量的檔案信息,目前的管理模式是依靠專業(yè)人員在檔案管理系統(tǒng)中進行手工分類工作,利用文本分類算法對山東女子學院檔案系統(tǒng)進行管理以提高檔案管理水平。
2 文本分類相關(guān)技術(shù)
2.1 文本分類的概念
文本分類是指在一定的分類體系下根據(jù)文本的內(nèi)容自動確定文本類別的過程[1]。文本分類是文本挖掘的一個分支。
2.2 文本分類和文本挖掘
文本知識又稱為文本數(shù)據(jù)挖掘。文本挖掘不同于數(shù)據(jù)挖掘,數(shù)據(jù)挖掘面對的是結(jié)構(gòu)化數(shù)據(jù)。文本挖掘面對是非結(jié)構(gòu)化的文本,因此決定它采用的方法與數(shù)據(jù)挖掘不同。文本分類屬于文本挖掘的范圍。
2.3 文本預處理
文本預處理在分類中很重要。文本預處理包括以下幾個方面:1)中文分詞[3]。中文分詞是將句子分為單詞和詞組的過程。2)詞性標注[4]。詞性是詞語的屬性,例如名詞,形容詞等。3)停用詞過濾[5]。停用詞指的是輔助詞。如“的”這些詞出現(xiàn)在大量的句子中如不處理會影響分類效果。4)實體識別[6]。實體識別是指對人名、地理位置等實體名字的識別。
2.4 文本表示
文本表示就是將文本預處理得到的特征詞表示成計算機所能處理二進制數(shù)。
2.5 文本特征選擇與特征抽取
對文本特征進行篩選,選出最能代表文本類別的特征,這個過程就是特征選擇[7]。對每個特征計算其統(tǒng)計的度量值,設(shè)定一個閾值T,把度量值小于T的特征值過濾掉,剩下的是有效特征。特征抽取通過對初始特征空間進行扭曲、拉伸或者旋轉(zhuǎn)等變換得到一個新的低維數(shù)特征空間的過程。
3 針對山東女子學院檔案的基礎(chǔ)詞庫的創(chuàng)建
根據(jù)學院檔案管理的特點結(jié)合文本分類技術(shù)的發(fā)展,提出一種用于學院檔案的基于語義的短文本加權(quán)自動分類算法。
3.1 基于山東女子學院檔案自動分類算法的基礎(chǔ)庫設(shè)計
對于一份檔案而言,其名字包括該檔案的所有內(nèi)容,檔案進行計算機分類無需全文分析,只需對檔案的名字分析。
本算法通過對檔案名字信息中特征詞提取和分析來進行檔案的歸類。通過對已分類的檔案名字進行統(tǒng)計分析,將與各個類別相關(guān)度高的關(guān)鍵詞提取出來建類別詞庫并根據(jù)關(guān)鍵詞與類別之間的關(guān)聯(lián)度的強弱為其分配相應的權(quán)值,可創(chuàng)建詞庫表。在檔案名字中存在大量的詞如“關(guān)于”、“通知”等與分類無關(guān)詞,為提高文本在提取特征詞的準確度減少冗余詞的出現(xiàn),需創(chuàng)建停用詞庫。通過對檔案文件責任者信息提取創(chuàng)建一個責任者詞庫。通過分析確定該檔案所屬的大類類別。
3.2 分類詞庫的創(chuàng)建
類別詞與類之間的關(guān)聯(lián)度能夠區(qū)分,需要為其類別詞與類之間的關(guān)聯(lián)度建立權(quán)重來表達這兩者的不同。當某一類別詞與類之間的關(guān)聯(lián)度非常緊密時,需要為其賦予較高的權(quán)重系數(shù),是該類別詞的檔案文件能夠分到指定的類別。當一份檔案中有多個類別詞,且這些類別詞的檔案有屬于不同的類別號時,可以通過權(quán)重計算來確定該份檔案應該分到哪個類號中。
4 基于語義的短文本的加權(quán)分類算法
在完成基礎(chǔ)詞庫的創(chuàng)建后,采用加權(quán)分類算法對檔案文件進行分類。算法的步驟為:
1)在責任者詞庫搜索該檔案責任者信息,確定該檔案屬于的大類類別。2)用停用詞表對檔案文件名字進行遍歷去除停用詞。3)根據(jù)1)確定的類別在類別詞庫中遍歷,提取文本類別詞及其對應的權(quán)值。4)將獲得的類別詞及其對應權(quán)值進行分類加權(quán)匯總并進行比較取得最大值即為該份檔案所屬的類別。
4.1 基于語義的短文本加權(quán)自動分類算法
經(jīng)過這些工作后,對檔案文件進行自動分類可以分為以下步驟:1)獲得待分類檔案責任者信息,用責任者信息在責任者詞庫中檢索獲得待分類檔案的類別。2)對名字進行停用詞操作,去除文本中的停用詞,將待分類的短文本進一步縮短。將相同的分類號合并并計算類別詞的權(quán)值進行比較確定最大值,最終確定待分類檔案所屬的類別。
4.2 短文本的處理
首先對短文本進行遍歷,去掉其中的停用詞,再根據(jù)類別詞庫中的詞匯與題名中的內(nèi)容進行比較,最后從中提取出的類別詞作為分類結(jié)果。
4.3 合并分類號并權(quán)值求和
經(jīng)過之前的工作,所有的分類主題詞所歸屬的分類號及對應的權(quán)重全部得到,即可開始計算權(quán)重最終確定其類別。最終運行步驟如下:1)從待分類檔案表中讀取第一條記錄。2)根據(jù)該條檔案的責任者信息,判斷其所屬的大類。3)在該大類下的二級類別詞庫中對檔案文件的名字進行遍歷,取得類別詞及相應的權(quán)值。4)合并相同類號,對權(quán)值求和。5)判斷是否存在唯一最大值,若存在則可直接確定類別;若不存在則轉(zhuǎn)入人工處理。6)讀取下一條,循環(huán)直至完成。最終便完成了對山東女子學院檔案的分類。
4.4 檔案分類應用分析
通過對山東女子學院檔案的自動分類,可以大大減輕了檔案管理工作人員的工作量,對文件進行分門別類的整理,做到井井有條,層次鮮明。通過文本自動分類對各類文本信息進行有效的組織分類,可以高效的為用戶提供信息檢索和信息存儲形成了學校對檔案的獨特管理。
5 總結(jié)
跟其他類的文本分類方法相比較,本文所設(shè)計的基于山東女子學院檔案的文本自動分類算法的復雜度大大降低了,取消了文本訓練的復雜過程,直接將學校檔案的各類關(guān)鍵詞和停用詞依靠人工經(jīng)驗學習進行了手工構(gòu)建,然而詞庫的構(gòu)建很復雜,需要根據(jù)分類情況的反饋不斷的調(diào)整補充。由于學校所管理的檔案內(nèi)容的特殊性,為了提高分類的效率,本文中所采用的這種簡單實用的算法經(jīng)過分析可以減少檔案工作人員的工作量,達到了預期目的。
【參考文獻】
[1]程傳鵬.中文網(wǎng)頁分類的研究與實現(xiàn)[J].中原工學院學報,2007(1).
[2]中國互聯(lián)網(wǎng)網(wǎng)絡(luò)信息中心.第三十一次互聯(lián)網(wǎng)發(fā)展統(tǒng)計報告[R].2013-01.
[3]龍樹全,趙文正,唐華.中文分詞算法概述[J].電腦科學與技術(shù),2009,10:2605-2607.
[4]陳曉文.自動詞性標注方法的比較[J].溫州大學學報,2009,01:53-57.
[5]化柏林.知識抽取中的停用詞處理技術(shù)[J].現(xiàn)在圖書館情報技術(shù),2010.08:48-51.
[6]孫鎮(zhèn),王惠臨.命名實體識別研究進展綜述[J].現(xiàn)在圖書館情報技術(shù),2012,06:42-47.
[7]張東禮,汪東升,鄭偉民.基于VSM的中文文本分類系統(tǒng)的設(shè)計與實現(xiàn)[M].清華大學出版社,2003.
[責任編輯:李書培]