劉異+趙輝
摘 要:在基礎(chǔ)教育領(lǐng)域,為方便學(xué)生、教師、家長(zhǎng)、教育機(jī)構(gòu)等搜索相關(guān)教育文本資源,提出了專用于基礎(chǔ)教育文本資源搜集的快速高效的智能化網(wǎng)頁(yè)搜索機(jī)器人理論。文本自動(dòng)分類、文獻(xiàn)自動(dòng)文摘和自動(dòng)關(guān)鍵詞提取是網(wǎng)頁(yè)機(jī)器人的重要組成部分。由分析Web網(wǎng)頁(yè)格式的文檔引出基礎(chǔ)教育文本資源信息挖掘模塊,設(shè)計(jì)提取關(guān)聯(lián)文本信息的算法, 研究在搜索引擎中如何通過對(duì)互聯(lián)網(wǎng)海量多媒體教育信息的自動(dòng)抓取、主題檢測(cè)、專題聚焦,實(shí)現(xiàn)對(duì)教育網(wǎng)絡(luò)的監(jiān)控和專題的追蹤等功能,以報(bào)告及圖表等多種分析結(jié)果的形式提供分析依據(jù),設(shè)計(jì)基礎(chǔ)教育文本監(jiān)控分析系統(tǒng),為提供全面搜索教育網(wǎng)絡(luò)服務(wù)。
關(guān)鍵詞:自動(dòng)分類;自動(dòng)文摘;自動(dòng)關(guān)鍵詞提取;Web文檔;搜索引擎;基礎(chǔ)教育資源
中圖分類號(hào):G202 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2017)19-0037-04
前言
讀網(wǎng)時(shí)代,越來越多的人使用Internet查找資料輔助工作、學(xué)習(xí),網(wǎng)絡(luò)充斥著人們?nèi)粘I畹姆椒矫婷妗8鞣N搜索引擎從海量互聯(lián)網(wǎng)資源中為用戶檢索到所需的信息,其中有通用型的搜索引擎,如Google、Baidu, 也不乏特定型的搜索引擎,如提供基礎(chǔ)教育文本資源搜索服務(wù)的網(wǎng)頁(yè)機(jī)器人。[1]文本監(jiān)控分析系統(tǒng),通過底層索引器將網(wǎng)頁(yè)機(jī)器人采集到的信息進(jìn)行分類,建立主目錄、子目錄存儲(chǔ)在索引數(shù)據(jù)庫(kù)中,定時(shí)更新數(shù)據(jù)庫(kù)保證數(shù)據(jù)庫(kù)信息與Web內(nèi)容同步,更新的具體實(shí)現(xiàn)通過網(wǎng)頁(yè)機(jī)器人遍歷指定范圍內(nèi)的整個(gè)Web空間,不間斷地從一個(gè)Default.aspx網(wǎng)頁(yè)轉(zhuǎn)到另一個(gè)newspage.aspx網(wǎng)頁(yè),從一個(gè)站點(diǎn)切換到下一個(gè)站點(diǎn),將采集到的信息更新到數(shù)據(jù)庫(kù)中。
一、基于Mashup的基礎(chǔ)教育文本資源信息挖掘模塊信息采集與整合
Web2.0時(shí)代,數(shù)據(jù)源形式多樣是互聯(lián)網(wǎng)基礎(chǔ)教育文本資源信息的一個(gè)重要特征。除基礎(chǔ)教育新聞、基礎(chǔ)教育BBS論壇等傳統(tǒng)信息源外,出現(xiàn)了基礎(chǔ)教育CastBox、基礎(chǔ)教育Blog、Wiki、聚合基礎(chǔ)教育新聞等新型的Web2.0信息交互模式,產(chǎn)生的信息量越來越大。而不同信息源中所蘊(yùn)涵的基礎(chǔ)教育文本資源信息具有重復(fù)性或關(guān)聯(lián)性,如果網(wǎng)頁(yè)機(jī)器人分別對(duì)這些信息源進(jìn)行搜索,得到的結(jié)果中很大一部分信息可能是重復(fù)的,或者相關(guān)聯(lián)的信息沒有搜索到,這樣搜索的效率不高。另一方面,傳統(tǒng)的基礎(chǔ)教育文本資源信息采集過程中,添加或更新不同類型的信息源,可能需要調(diào)整網(wǎng)頁(yè)機(jī)器人的采集策略,難以適應(yīng)Web2.0時(shí)代的信息源類型多樣化的特點(diǎn)。因此,有必要對(duì)來自不同信息源的基礎(chǔ)教育文本資源信息進(jìn)行整合和融合。
作為一種新型的基于Web的數(shù)據(jù)集成技術(shù),Mashup技術(shù)[3]是將多個(gè)支持WebAPI的不同應(yīng)用進(jìn)行堆疊而形成的新型Web服務(wù),它兼容性好,適用于多種不同的外部網(wǎng)絡(luò)數(shù)據(jù)源格式,應(yīng)用面廣,涵蓋外部公共APIs、XML、RSS、Atom、Feed、Web services、HTML等,具有Web2.0的特點(diǎn)。因此,本系統(tǒng)使用Mashup技術(shù)開發(fā)可視化的Mashup工具,供信息搜集人員對(duì)多種不同來源的基礎(chǔ)教育文本資源信息進(jìn)行整合與融合,形成Mashup站點(diǎn)。(如圖1所示)這樣網(wǎng)頁(yè)機(jī)器人可以從Mashup站點(diǎn)采集各種互聯(lián)網(wǎng)基礎(chǔ)教育文本資源信息,以提高搜索的效率。
二、文本自動(dòng)分類
信息檢索、內(nèi)容管理及信息過濾等流程困難重重,各種電子格式的文本文檔數(shù)量以指數(shù)爆炸性增長(zhǎng),有效的解決辦法是自動(dòng)處理未分類文檔,判斷它所屬的預(yù)定義類別屬于一個(gè)或多個(gè)類別。根據(jù)現(xiàn)有的數(shù)學(xué)法則,構(gòu)造出一個(gè)能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)映射到指定類別中的分類函數(shù)模型,縮短文本內(nèi)容檢索、文本數(shù)據(jù)存儲(chǔ)的處理時(shí)間。
分類函數(shù)模型的構(gòu)造有神經(jīng)網(wǎng)絡(luò)分析法、統(tǒng)計(jì)方法及機(jī)器學(xué)習(xí)方法等。人工神經(jīng)網(wǎng)絡(luò)分析法主要是針對(duì)小規(guī)模識(shí)別問題,不適用于大規(guī)模小樣本集群識(shí)別問題。[4]支持向量機(jī)分類法是萬(wàn)普尼克等人依據(jù)統(tǒng)計(jì)學(xué)提出的,網(wǎng)頁(yè)機(jī)器人運(yùn)行有限條件下小樣本的決策規(guī)則對(duì)各個(gè)測(cè)試集依次進(jìn)行測(cè)試,產(chǎn)生極小誤差。它無(wú)需進(jìn)行迭代運(yùn)算,優(yōu)于神經(jīng)網(wǎng)絡(luò)分析法,處理數(shù)據(jù)時(shí)局部不會(huì)出現(xiàn)極小值。[5]
通常情況下,支持向量機(jī)分類法適用于兩個(gè)模型的分類,對(duì)于多個(gè)模型的分類通過完全二叉決策樹的級(jí)連式SVM模型構(gòu)造。假設(shè)分類函數(shù)模型類別數(shù)是M,SVM級(jí)數(shù)是N,那么N= [log2M],得到級(jí)連式SVM分類數(shù)據(jù)處理能力是2N≥M。三層級(jí)連式SVM的分類函數(shù)模型如圖2所示。
三、文獻(xiàn)自動(dòng)文摘
文獻(xiàn)自動(dòng)文摘就是通過網(wǎng)頁(yè)機(jī)器人瀏覽原始文獻(xiàn),自動(dòng)提取文摘內(nèi)容。自動(dòng)文摘是“一份用網(wǎng)頁(yè)機(jī)器人自動(dòng)提取文獻(xiàn)內(nèi)容的縮短的精確表達(dá)而無(wú)須補(bǔ)充解釋或評(píng)論”。[6]自動(dòng)文摘技術(shù)包含文字分詞、句法分析器、詞性注釋工具和自然語(yǔ)義處理等。
自動(dòng)文摘技術(shù)目前有兩種實(shí)現(xiàn)方法:[7]一種是基于統(tǒng)計(jì)理論的方法,另一種是基于自然語(yǔ)言處理的方法。統(tǒng)計(jì)方法直接抽取原始文獻(xiàn)句子組合成文摘內(nèi)容,而自然語(yǔ)言處理方法則是運(yùn)用更深層次的機(jī)器學(xué)習(xí)技術(shù)如語(yǔ)義分析理解原文,推理出文摘內(nèi)容,文摘語(yǔ)句與原文并不相同。
組合詞是文章的重要組成部分,包含各類術(shù)語(yǔ)、文本關(guān)鍵詞、實(shí)體命名等。在分詞系統(tǒng)中,組合詞能表達(dá)獨(dú)立的特定語(yǔ)義,但是容易被誤切分為多個(gè)與原文主題意思相悖的詞組。解決方法是根據(jù)句子內(nèi)容、位置、線索詞和用戶偏好等關(guān)鍵因素使表達(dá)句子含義的組合詞獲取優(yōu)先級(jí)別的權(quán)重值,消除冗余內(nèi)容,輸出文獻(xiàn)文摘。下面介紹幾種自動(dòng)文摘的關(guān)鍵技術(shù)。
1.組合詞識(shí)別與分詞結(jié)果修正技術(shù)
分詞是中文文本處理的第一步。由于網(wǎng)上數(shù)字化信息資源的擴(kuò)增,漢語(yǔ)詞法分析系統(tǒng)內(nèi)分詞詞典的詞庫(kù)量并不完善,詞庫(kù)更新速度跟不上資源擴(kuò)增速度,導(dǎo)致不能智能識(shí)別出大規(guī)模的由兩個(gè)及兩個(gè)以上的詞構(gòu)成的組合詞。解決方法是:網(wǎng)頁(yè)機(jī)器人使用基于詞序列頻率有向網(wǎng)的中文組合詞提取算法識(shí)別出組合詞。[8]結(jié)束識(shí)別操作,修正分詞結(jié)果,還原那些被分詞系統(tǒng)切碎歪曲文章大意的組合詞。[9]
2.組合詞的權(quán)重計(jì)算技術(shù)
為了使表達(dá)句子含義的組合詞獲取優(yōu)先級(jí)別的權(quán)重值,需要考慮詞頻、同義詞現(xiàn)象、詞性、詞長(zhǎng)、位置等因素因子。詞頻,即詞出現(xiàn)的次數(shù)。在統(tǒng)計(jì)詞頻之前,先將意思相同或相近的同義詞詞頻合并為一個(gè),再將這些詞頻疊加。同義詞現(xiàn)象在句子中出現(xiàn)的頻率較高,比如多名筆者頻繁用相同的詞表達(dá)相同的意思,一筆者頻繁用不同的近義詞表達(dá)相同的意思?,F(xiàn)代漢語(yǔ)詞性包含兩類14種,其中名詞、名詞性詞組是表達(dá)句子中心主題的核心詞,這類組合詞具有較高優(yōu)先級(jí)別的權(quán)重值。詞長(zhǎng),即詞的字節(jié)長(zhǎng)度。實(shí)驗(yàn)表明,關(guān)鍵詞容易在4~6個(gè)字的詞中產(chǎn)生,故四個(gè)或四個(gè)以上詞長(zhǎng)的詞被賦予更高優(yōu)先級(jí)別的權(quán)重值。另外,可以通過判斷組合詞的優(yōu)先位置獲取關(guān)鍵詞,比如能大致反映核心意思的詞是一篇文章的標(biāo)題,故位于文章主、副標(biāo)題的詞是重點(diǎn)排查詞。
3.段落句子的權(quán)重計(jì)算技術(shù)
句子的內(nèi)容決定這句話在段落中的重要程度,需要考慮組合詞的權(quán)重值、線索詞的權(quán)重值、用戶喜好、句子的位置等因素因子。組合詞的權(quán)重值,即對(duì)各類術(shù)語(yǔ)、文本關(guān)鍵詞、實(shí)體命名等組合詞計(jì)算權(quán)重值,權(quán)重值越高,句子所含信息量越大,句子重要度越高。線索詞是“總而言之”、“綜上所述”等帶有明顯標(biāo)志的詞和詞組,常用來標(biāo)識(shí)段落中的重要句子。[10] “首先”、“其次”、“最后”等表示段落層次關(guān)系的線索詞應(yīng)當(dāng)優(yōu)先提取,輸出文摘操作變得簡(jiǎn)單,效率大幅度提高。為獲取定制化的文獻(xiàn)自動(dòng)文摘,使文摘句子投用戶所喜好,網(wǎng)頁(yè)機(jī)器人需要收集用戶固定喜好的詞集進(jìn)行權(quán)重值計(jì)算。而句子的位置重要度一般依據(jù)每個(gè)段落的第二句話通常為段落的中心主題句,優(yōu)先考慮這句話所包含的重要信息。
四、自動(dòng)關(guān)鍵詞提取
為了高效地處理互聯(lián)網(wǎng)海量多媒體教育信息,技術(shù)人員在信息采集、資源檢索、文獻(xiàn)自動(dòng)文摘、文本自動(dòng)分類、文本信息聚合等方面開展了大量研究,發(fā)現(xiàn)網(wǎng)頁(yè)機(jī)器人怎樣遍歷文獻(xiàn)提取關(guān)鍵詞是做好研究工作的關(guān)鍵基石。
關(guān)鍵詞描述文章中心主題內(nèi)容,以滿足不同人群依據(jù)個(gè)人喜好檢索文本信息。關(guān)鍵詞極其精煉的優(yōu)點(diǎn)使它能以極小的計(jì)算代價(jià)進(jìn)行文本關(guān)聯(lián)性度量,提高進(jìn)行信息采集、資源檢索、文獻(xiàn)自動(dòng)文摘、文本自動(dòng)分類、文本信息聚合等操作的處理效率。文本內(nèi)容檢索是關(guān)鍵詞應(yīng)用最廣泛的領(lǐng)域。用戶在搜索框內(nèi)輸入查詢關(guān)鍵詞,搜索結(jié)果出現(xiàn)全部含有此關(guān)鍵詞的網(wǎng)絡(luò)文本資源。
“關(guān)鍵”的度量與“詞”的選擇是關(guān)鍵詞提取技術(shù)需要攻克的難點(diǎn)?!瓣P(guān)鍵”的度量技術(shù)不能應(yīng)用于短語(yǔ)的現(xiàn)象比比皆是,故對(duì)于短語(yǔ)以及未登錄詞這一部分關(guān)鍵詞的提取工作困難重重。為此,筆者將關(guān)鍵詞提取技術(shù)分成兩大部分分析處理,包括單個(gè)關(guān)鍵詞提取和多個(gè)詞串關(guān)鍵詞提取。該技術(shù)依托分離函數(shù)模型的中文關(guān)鍵詞提取算法設(shè)計(jì)出不同的關(guān)鍵詞特征,提高關(guān)鍵詞抽取的準(zhǔn)確度。
關(guān)鍵詞提取是典型的多標(biāo)簽分類問題,技術(shù)人員往關(guān)鍵詞分類函數(shù)模型輸入一組訓(xùn)練樣本,使用機(jī)器學(xué)習(xí)方法判斷出此模型中的每一個(gè)候選詞或詞串是關(guān)鍵詞還是非關(guān)鍵詞,標(biāo)注候選詞,接著判斷新的候選關(guān)鍵詞,循環(huán)往復(fù)執(zhí)行。
1.生成單個(gè)候選關(guān)鍵詞與多個(gè)候選詞串關(guān)鍵詞
前面提到,分詞是中文關(guān)鍵詞提取的第一步。需要強(qiáng)調(diào)的是,數(shù)字、標(biāo)點(diǎn)符號(hào)不是單個(gè)候選關(guān)鍵詞。詞串在成為候選關(guān)鍵詞串之前要進(jìn)行過濾處理,一般選取1﹤詞長(zhǎng)﹤5的詞串作為候選詞串,刪除中文詞串中的數(shù)字、標(biāo)點(diǎn)符號(hào)等無(wú)用字節(jié),而英文候選詞串提取會(huì)先把開頭詞、結(jié)尾詞過濾掉。
2.分離函數(shù)模型
詞串是把一系列的詞按照某種分類方式組合在一起的一串詞,具有鏈?zhǔn)浇Y(jié)構(gòu)特點(diǎn)。不同于傳統(tǒng)意義上的等同,詞與詞串二者有所區(qū)別。因此,筆者針對(duì)詞和詞串設(shè)計(jì)出不同的特征,分開訓(xùn)練、學(xué)習(xí)單個(gè)關(guān)鍵詞樣本集和多個(gè)關(guān)鍵詞串樣本集,獲取單個(gè)關(guān)鍵詞模型與多個(gè)關(guān)鍵詞串模型。然后依次應(yīng)用這兩個(gè)不同的模型對(duì)單個(gè)候選關(guān)鍵詞和多個(gè)候選詞串關(guān)鍵詞進(jìn)行判斷,可以往此分離函數(shù)模型中任意添加詞與詞串的關(guān)鍵特征,效果明顯優(yōu)于不考慮分離的整體函數(shù)模型。
3.不同關(guān)鍵詞特征選取
因?yàn)榉蛛x函數(shù)模型是分別對(duì)詞與詞串構(gòu)造分類模型,所以對(duì)應(yīng)的模型可以選取不同的關(guān)鍵特征。特征TF×IDF使用統(tǒng)計(jì)學(xué)方法評(píng)估單個(gè)詞語(yǔ)對(duì)文檔集或語(yǔ)料庫(kù)中指定文檔的重要程度,實(shí)驗(yàn)表明特征TF×IDF存在一些缺點(diǎn):
(1)以“詞頻”特征單一衡量單個(gè)詞的重要度,重要的詞出現(xiàn)次數(shù)不多的情況時(shí)有發(fā)生(TF值不高)。
(2)算法不能反映單個(gè)詞位置,比如網(wǎng)絡(luò)文檔,應(yīng)結(jié)合HTML的結(jié)構(gòu)特征計(jì)算權(quán)重值。
(3)IDF值簡(jiǎn)單,不易調(diào)整權(quán)重值,不足以反映單個(gè)詞的重要度和特征詞的分布情況。
針對(duì)TF×IDF不足,另外選取了兩個(gè)特征NWT和TF×IF。NWT是一篇文章詞數(shù)總數(shù),它被用于解決小型文檔候選關(guān)鍵詞TF值不高的問題?!癟F×IF=候選關(guān)鍵詞在某份文檔中出現(xiàn)的頻率/候選關(guān)鍵詞在整本文檔集中的詞頻數(shù)”。TF×IF很好地解決了位置、分布情況的問題。
文本關(guān)鍵詞提取流程如圖3所示,包括分部讀取文本、拼接分詞、關(guān)鍵詞提取、過濾存儲(chǔ)和權(quán)重值計(jì)算五大流程。
分部讀取文本是為了賦予標(biāo)題、起始段、正文和末尾段等段落不同的位置權(quán)重。分詞采用漢語(yǔ)詞法分析系統(tǒng),根據(jù)共現(xiàn)概率原理(即經(jīng)常出現(xiàn)在同一個(gè)段落的若干詞為共現(xiàn)詞,共現(xiàn)的概率越高,詞與詞相互之間的關(guān)聯(lián)就越密切)對(duì)分詞結(jié)果進(jìn)行過濾拼接。通過統(tǒng)計(jì)海量文本數(shù)據(jù),對(duì)各詞詞性進(jìn)行標(biāo)注發(fā)現(xiàn):虛詞、標(biāo)點(diǎn)或符號(hào)成為關(guān)鍵詞的概率幾乎為0,而實(shí)詞(如名詞、動(dòng)詞、形容詞等)成為關(guān)鍵詞的概率較高。提取實(shí)詞可以消除提取噪音,提高提取速率。提取關(guān)鍵詞的同時(shí),對(duì)相應(yīng)詞頻、位置信息、出現(xiàn)文章數(shù)等信息進(jìn)行格式化存儲(chǔ)。
關(guān)鍵詞提取的存儲(chǔ)過程中可能會(huì)出現(xiàn)大量重復(fù)的相同詞匯或同義詞數(shù)組,故需要進(jìn)行同義歸并和排重處理。使用詞語(yǔ)自動(dòng)匹配算法合并相同含義的詞語(yǔ),并累加相應(yīng)詞頻數(shù),同一詞語(yǔ)出現(xiàn)在不同的文章里還需要對(duì)出現(xiàn)的文章次數(shù)進(jìn)行累加。為了方便統(tǒng)一處理,同義歸并需定義同義詞數(shù)組,只要計(jì)算機(jī)在文章中匹配到同義詞,就用該數(shù)組的第一項(xiàng)同義詞詞組替代,累加并統(tǒng)計(jì)出相應(yīng)詞頻數(shù)。
結(jié)合一定時(shí)間內(nèi)基礎(chǔ)教育話題受關(guān)注程度來對(duì)話題進(jìn)行建模:〒=(n,rfi,Di,rdi,α),其中,n表示一定時(shí)間范圍內(nèi)的時(shí)間單元個(gè)數(shù);rfi是該話題在時(shí)間單元i中相關(guān)通告的通告頻率;Di是在時(shí)間單元i中通告的總數(shù);rdi是話題在時(shí)間單元i中的通告天數(shù);α是一個(gè)時(shí)間單元的天數(shù)。采用向量?jī)?nèi)積計(jì)算公式對(duì)熱點(diǎn)詞進(jìn)行權(quán)重值計(jì)算,設(shè)置開關(guān)上下限閾值,過濾掉權(quán)重值較低的詞匯,獲得文本關(guān)鍵詞集,將詞集存放在索引數(shù)據(jù)庫(kù)中。
結(jié)束語(yǔ)
基礎(chǔ)教育文本資源搜索引擎網(wǎng)頁(yè)機(jī)器人有著寬廣的前景,在基礎(chǔ)教育產(chǎn)業(yè)必然會(huì)獨(dú)樹一幟大放異彩,人工智能成為教育技術(shù)學(xué)學(xué)科近年來研究的新熱點(diǎn)。本文提出了基于Mashup的基礎(chǔ)教育文本資源信息挖掘模塊信息采集與整合的方法,介紹了面向互聯(lián)網(wǎng)環(huán)境的基礎(chǔ)教育文本資源搜索引擎網(wǎng)頁(yè)機(jī)器人的關(guān)鍵技術(shù),它是數(shù)字媒體技術(shù)、自然語(yǔ)言處理、模式識(shí)別及機(jī)器學(xué)習(xí)等交叉學(xué)科的一個(gè)研究方向,具有重要的理論價(jià)值和實(shí)際應(yīng)用背景。到目前為止,對(duì)基礎(chǔ)教育文本智能化網(wǎng)頁(yè)搜索機(jī)器人的研究取得了實(shí)質(zhì)性進(jìn)展,但這僅僅是探索的第一步,網(wǎng)頁(yè)機(jī)器人理論研究還不成熟,筆者會(huì)在今后的科研工作中加強(qiáng)反思、修正和完善,將進(jìn)一步的研究實(shí)踐應(yīng)用到基礎(chǔ)教育網(wǎng)站中,為基礎(chǔ)教育文本資源網(wǎng)頁(yè)搜索服務(wù),提高網(wǎng)頁(yè)機(jī)器人搜索效率。
參考文獻(xiàn):
[1]程斯輝.試論基礎(chǔ)教育的本質(zhì)[J].中國(guó)教育學(xué)刊,2004(1):15-19.
[2]孫茹.搜索引擎的智能化發(fā)展方向[J].科技傳播,2015(1):125-129.
[3]潘雪峰,花貴春,梁斌.走進(jìn)搜索引擎[M].北京:電子工業(yè)出版社,2011.
[4]李曉黎,劉繼敏,史忠植.基于支持向量機(jī)與無(wú)監(jiān)督聚類相結(jié)合的中文網(wǎng)頁(yè)分類器[J].計(jì)算機(jī)學(xué)報(bào),2001(1):62-67.
[5]陳毅松,汪國(guó)平,董士海.基于支持向量機(jī)的漸進(jìn)直推式分類學(xué)習(xí)算法[J].軟件學(xué)報(bào),2003(3):451-460.
[6]國(guó)際標(biāo)準(zhǔn)ISO214-1979(E)規(guī)定.[EB/OL].http://baike.baidu.com/item/.
[7]Ye S R,Chua T S,Karl M Y,et al.Document concept lattice for text understanding and summarization.Information Processing and Management,2007,43(2):1643-1662.
[8]Chen J C,Zheng Q L,Li Q Y,et al.Chinese combined-word detection based on directed net of word-sequence frequency.Application Research of Computers,2009,26(10):3746-3749.
[9]Institute of computing technology Chinese academy of sciences.ICTCLAS 2009.http://ictclas.org/[2009-4-6].
[10]Guo Y H,Zhong Y X,Ma Z Y,et al.Introduction of the development of automatic summarization.Information Learned Journal,2002,21(5):582-591.Text Basic Education Resources Search Engine Web Robot.