国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種Web信息挖掘的英語閱讀選篇分類研究

2009-02-18 09:11
現(xiàn)代教育技術 2009年2期
關鍵詞:文本分類英語閱讀

吳 昊

【摘要】隨著網(wǎng)絡信息化程度的不斷提高,英語閱讀教學模式也發(fā)生了根本性的變化,網(wǎng)絡環(huán)境下英語閱讀教學題材選篇的多樣性與靈活性有了質的飛躍。由于目前英語閱讀題材選篇多為手工挑選,題材涉及面不夠廣泛并且任務繁重,提出了一種基于Web信息挖掘的英語閱讀選篇自動分類的設計模式,以期利用計算機技術為構建高效實用的英語閱讀自動選篇系統(tǒng)提供有效的解決途徑。

【關鍵詞】Web信息挖掘;英語閱讀;文本分類;結構模型

【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097 (2009) 02—0067—04

引言

信息化的不斷推進給信息獲得方式帶來前所未有的沖擊,英語閱讀素材的獲取也必然要隨之進行相應的改進和調(diào)整,而有效利用網(wǎng)絡資源則是未來英語閱讀材料研究的一個重點領域。針對于英語閱讀題材選篇的模式單一、手工操作相對繁雜、歸類困難和數(shù)據(jù)量少等問題,本文擬通過一種高效的、靈活的網(wǎng)絡文本分類的英語閱讀選篇分析方法來給予解決,為實現(xiàn)網(wǎng)上海量數(shù)據(jù)的英語閱讀選篇自動歸類給出可供借鑒的依據(jù),并提出一種實際有效的解決方案。

為了從海量數(shù)據(jù)中發(fā)現(xiàn)有效、新穎、潛在有用、可最終理解的模式,數(shù)據(jù)庫領域引入了數(shù)據(jù)挖掘(Data Mining)[1,2]。由于數(shù)據(jù)挖掘的缺陷,Web 挖掘技術(數(shù)據(jù)挖掘技術跟 Web技術相結合)作為一種新技術逐漸得到重視。有研究表明,在海量的Web信息資源中,有80%以上的信息是以文本的形式存在的,因此隸屬于Web內(nèi)容挖掘的Web文本挖掘顯得尤為重要[3,4]。Web文本挖掘就是從 Web 文檔和 Web 活動中發(fā)現(xiàn)、抽取感興趣的潛在的有用模式和隱藏的信息的過程。因為Web文檔中的標記給文檔提供了額外的信息,所以提高了Web文本挖掘的性能,而Web 文本挖掘是文本挖掘的主要研究內(nèi)容。Web文本挖掘對我們充分利用Web信息資源很有幫助,能夠使人們比較準確找到需要的資料,同時還可以節(jié)約搜索時間,提高Web文檔的利用價值等。Web文本挖掘可以對Web文檔集合的內(nèi)容進行總結、分類、聚類、關聯(lián)分析以及趨勢預測等。

隨著Web文本分類技術在信息檢索、智能搜索引擎和文本分類器的構造等領域的廣泛應用[5],Web文本分類的研究己經(jīng)成為信息處理的一個前沿課題,有著廣泛的應用前景和重要的研究意義,它的研究和應用對于英語閱讀題材的分類和歸納也具有相當重要的作用。

一 Web信息挖掘

1 Web信息挖掘及其分類

Web是一個巨大的、開放性、動態(tài)性、廣泛分布、相互聯(lián)系并且不斷進化的信息倉庫[6]。它也是一個巨大的文檔累積的集合,包括超鏈接信息、訪問及使用信息,資源分布分散,這樣一來也就導致了信息獲取的困難。Web信息挖掘是指對目標樣本進行特征分析,并且據(jù)此從Web文檔和Web活動中抽取人們感興趣的、潛在的有用模式和隱藏的信息,所挖掘出的知識能夠用于信息管理、查詢處理、決策支持、過程控制等方面。人們利用Web信息挖掘技術可以從Web海量的數(shù)據(jù)中自動地、智能地抽取隱藏在這些數(shù)據(jù)中的知識。但如何滿足各種用戶不同的個性化需求,卻成了新的信息服務系統(tǒng)面臨的具有挑戰(zhàn)性的課題[7]。Web信息挖掘的一種比較流行的分類方法見圖1。

根據(jù)Web信息挖掘的數(shù)據(jù)對象,將Web挖掘分為3 類:Web內(nèi)容挖掘(Content Mining) 、Web結構挖掘(Construct Mining) 、Web使用挖掘(Usage Mining)。這里Web內(nèi)容挖掘又可以分為Web文本自動分類和Web搜索結果歸納,本文將主要研究其中一個分支Web文本自動分類,并結合英語閱讀自動選篇進行分析。

2 Web信息挖掘的流程

本過程主要涉及四個方面問題:數(shù)據(jù)收集,數(shù)據(jù)選擇及特征提取,模式發(fā)現(xiàn),模式分析。其流程如圖2所示。

(1)數(shù)據(jù)收集。找到Web信息挖掘的數(shù)據(jù)源,通過預先設置的URL路徑找到合適的信息資源。

(2)數(shù)據(jù)選擇和特征提取。針對取得的Web信息資源,剔除無用信息,并將信息按特定要求進行特征提取。

(3)模式發(fā)現(xiàn)。利用合理有效的挖掘算法,自動對上一步整理完成的內(nèi)容進行深入分析,發(fā)現(xiàn)其中蘊含的模式。

(4)模式分析。驗證、解釋上一步驟產(chǎn)生的模式,并對挖掘出來的模式、規(guī)則進行分析,找出其中蘊含的讀者感興趣的模式和信息。

3 Web信息挖掘技術手段

Web信息巨大,要有效處理這么大的數(shù)據(jù)量既要考慮系統(tǒng)運行時的時間復雜度,也要考慮空間復雜度,結合二者并加以合理分析利用才能使系統(tǒng)的整體性能真正提高。在Web信息挖掘技術手段方面當前主要涉及以下幾點:

(1) 統(tǒng)計分析。它是一種重要的數(shù)據(jù)處理技術[8],根據(jù)現(xiàn)有大量數(shù)據(jù)應用統(tǒng)計分析的方法進行歸納、解析,從而找出某類數(shù)據(jù)的分布規(guī)律。

(2) 關聯(lián)規(guī)則。關聯(lián)規(guī)則是表示數(shù)據(jù)庫中一組對象之間某種關聯(lián)關系的規(guī)則[9]。

(3) 文本分類。文本分類是指按照預先定義的主題類別,為文檔集合中的每個文檔確定一個類別。

(4) 文本聚類。文本聚類沒有預先定義好的類別,它能夠從信息本身出發(fā),自動進行分類,它的目標是將文檔集合分成若干個簇,要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能地大,而不同簇間的相似度盡可能地小。

二 英語閱讀Web文本分類

1 特征表示

Web文本信息的特征表示,是指自動地從Web 文本信息中抽取出代表英語閱讀內(nèi)容主題的特征詞條,形成特征矢量來表示英語閱讀素材的Web文本。抽取文本特征一般需要先移除HTML標簽或其它標識、刪除停用詞、執(zhí)行詞根化等。由抽取的關鍵詞形成的特征矢量表示特定的英語閱讀文檔。文本特征分為描述性特征和語義性特征。

對于一篇英語閱讀題材來說,詞是題材篇章表意的最基本單位,也是能夠反映內(nèi)容的最主要特征,一篇文章中使用的詞,在某種程度上可以代表文章的內(nèi)容。目前英語閱讀題材的表示模型有很多,其中最普遍使用的是向量空間模型(Vector Space Model)。在這種模型中,每篇英語閱讀題材被表示成特征向量:

式(1)

其中:fi為特征詞條,wi ( d)為特征詞條fi在題材中的權重[8]??梢詫⒂⒄Z閱讀題材d中出現(xiàn)的所有詞作為fi,然而這樣做會使得特征向量的維數(shù)特別高,特征不明顯,計算復雜。英語閱讀題材的內(nèi)容主要是由動詞、名詞、形容詞等實詞決定的,虛詞和一些在所有題材中均出現(xiàn)的高頻詞對分類是沒有任何意義的,所以需要進行有效特征表示,降低特征空間的維數(shù),以達到降低計算的復雜度、提高分類準確率的目的。然后對初始特征向量通過統(tǒng)計的方法提取有效特征。

2 特征相似度的計算

利用特征向量空間模型進行英語閱讀題材分類時,通常是先計算出待分類題材與每一種題材類別之間的相似度,然后取相似度最大的類作為待分題材的歸屬類。一般相似度的計算公式采用兩個特征向量間的余弦夾角來表示:

式(2)

其中:Wik、Wjk分別表示題材di和類cj第k個特征項的權值。

3 英語閱讀文本分類方法

如前所述,當前許多基于向量空間模型的Web文本自動分類方法均是通過比較某個網(wǎng)頁與所有類之間的相似度,將相似度最大的類作為網(wǎng)頁的歸屬類。

對于任意給定的一篇閱讀題材,設定合適的閾值是正確分類的關鍵,閾值設定過小會導致分類數(shù)太多,而設定過大會導致識別不出是哪一類,因此本文根據(jù)每個待分類題材與各個類的相似度的實際情況動態(tài)地計算出一個閾值。這樣每個待分類題材在分類時使用的閾值是不相同的,不是固定的。這里預先將動態(tài)閾值設定為所有相似度的平均值,即:

式(3)

為了使設定的閾值盡量偏向于相似度較大的類別,以減少錯誤劃分,本文給每一個相似度分配一個權重 ,其計算方法如下:

式(4)

則動態(tài)閾值 。

通過計算出的動態(tài)閾值λ,比較每一個相似度與λ的大小,如果Si>λ,則英語閱讀題材d屬于第i個類。

三 英語閱讀語料選篇實驗

1 語料集的選擇

英語閱讀語料集是在網(wǎng)上各大英語類網(wǎng)站上進行收集的。常用經(jīng)濟網(wǎng)站有:金融時報、財富、遠東經(jīng)濟評論、福布斯、商業(yè)周刊等;新聞類網(wǎng)站有:CNN、BBC、華盛頓郵報、泰晤士報、今日美國、觀察家、每日電訊等;英美周刊雜志網(wǎng)站有:每周標準、ESL港灣、沙龍、外交事務雜志、新共和、國家評論、外交政策、民族等;時事類網(wǎng)站有:安全政策研究中心、世界各國地圖、衛(wèi)星照片、網(wǎng)上各國政府資料等;綜合類網(wǎng)站有:華爾街日報、南華早報、俄羅斯周刊、時代周刊等。其題材十分廣泛,涉及體育、教育、財經(jīng)、工業(yè)、農(nóng)業(yè)、法制、交通、科技、軍事、環(huán)保十個方面的內(nèi)容,這里一共選擇了3000篇文檔資料用于實驗,一半用于訓練,另一半用于測試。實驗文檔類別構成如表1所示。

2 評價標準

進行Web文本分類的最終目標都是為了盡可能地得到最滿意的結果,所以對分類結果的評價才是真正衡量一個分類系統(tǒng)好壞的最終標準。本文目前所做的工作大都是基于試驗性的,所用的語料或者仿真數(shù)據(jù)都是已知類別數(shù)及其樣本數(shù),所以在我們用分類算法對那些特定語料庫(已知分類結果)做分析時就可以參照在信息檢索、文本分類中經(jīng)常應用的一些評價方法。衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)是準確率(文檔集中正確歸類的文檔數(shù)占所有被分入該類文檔總數(shù)的百分比)和召回率(文檔集中正確歸類的文檔數(shù)占該類文檔總數(shù)的百分),同時也是衡量分類算法效果的常用指標[9]。本實驗中使用準確率和召回率兩個常用的文本分類評估測試值。

3 實驗分析

針對表1中的實驗數(shù)據(jù)選取其中的1500篇文檔用于實驗測試,由于一開始搜集的文檔是HTML格式的,所以要經(jīng)過預處理,轉換為合適的空間向量模型才能進行文檔分類。實驗結果如表2所示。

從表2的測試結果可以看出,本文方法對英語閱讀題材分類達到了滿意的分類效果,平均準確率和平均召回率分別為92.5%和92. 3%。這里獲得的準確率和召回率均有較好的表現(xiàn),因此本文的研究方法是可行的。

四 結束語

隨著Internet在全世界的普及和廣泛應用,網(wǎng)絡信息成為人們?nèi)≈槐M的信息來源。然而大部分可以獲取的信息是以電子形式存在的,尤其是以Web文本方式存在居多。英語閱讀手工選篇已經(jīng)不再適應日益增加的海量數(shù)據(jù)的處理需求,人們需要能夠自動完成Web文檔相應題材選篇的技術,這就要求進行正確有效的文本挖掘。近年來針對英語閱讀的文本挖掘已經(jīng)逐漸成為研究的新課題,并取得了一些成果。

英語閱讀選篇由于分類自身的難度和Web數(shù)據(jù)自身的特點,其性能還有待進一步完善。如需要研究更高效的降維方法來提高分類的質量;需要有效降低時間消耗成本;需要進一步的研究分類搜索引擎,進而把文本分類應用到搜索引擎中,提高信息檢索的效率。

本文主要闡述了基于Web信息挖掘的英語閱讀自動選篇的分類研究方法,給出了系統(tǒng)實現(xiàn)的一般設計流程,通過實驗數(shù)據(jù)驗證了這種方法有較好的準確率和召回率。

參考文獻

[1]Iawei Han and Micheline Kamber, Data Mining: Concepts and Techniques[J].Morgan Kaufmann Publishers, 2001

[2]Olivier Vandecruys, David Martens, Bart Baesens, Christophe Mues, Manu De Backer, Raf Haesen, Mining Software Repositories for Comprehensible Software Fault Prediction Models Journal of Systems and Software Vol. 81, Nb. 5, pp. 823-839, 2008

[3]BAI Jing, NIE Jianyun, CAO Guihong. Integrating compound terms in Bayesian text classification[C]//Proc of IEEE /W IC/ACM International Conference. 2005: 598-601.

[4]LI Baoli, LU Q, YU Shiwen. An adaptive k-nearest neighbor text categorization strategy[J].ACM Transactions on Asian Language Information Processing,2004,12(31):215-226.

[5]E.Kirkos,C.Spathis and Y. Manolopoulos, Applying data mining methodologies for auditor selection, Proceedings 11th Pan-Hellenic Conference in Informatics (PCI), Patras, Greece, 2007, pp. 165–178.

[6]Magdalini Eirinaki, Michalis Vazirgiannis, Web Mining for Web Personalization [J].ACM Transactions on Internet Technology, 2003.

[7]He B,Tao T, Chang K. Clustering structured Web sources: A schema-based,model-differentiationapproach[A].International Workshop on Clustering Information over the Web [C]. Crete, Greece, 2004.

[8]MODHA D S, SPAN GL ER W S. Feature weighting in K-Means clustering[J]. Machine Learning, 2003, 52(3): 217-237.

[9]Ma ZhongMiing, Gautam Pant, Olivia R Sheng. Interest-Based Personalized Search [C] //ACM Transactions on Information Systems. New York: ACM, 2007.

猜你喜歡
文本分類英語閱讀
基于組合分類算法的源代碼注釋質量評估方法
基于貝葉斯分類器的中文文本分類
初探利用講故事的方式激發(fā)低年級小學生英語閱讀興趣
基于蟻群智能算法的研究文本分類
基于樸素貝葉斯分類的Java課程網(wǎng)絡答疑反饋系統(tǒng)
基于K—means算法的文本分類技術研究
文本分類算法在山東女子學院檔案管理的應用
陕西省| 曲阜市| 互助| 密云县| 淮阳县| 宿松县| 德令哈市| 新丰县| 永济市| 谷城县| 丰都县| 和田市| 大安市| 桐庐县| 潜山县| 樟树市| 嘉祥县| 武义县| 家居| 体育| 安平县| 辛集市| 洱源县| 叙永县| 德江县| 平顶山市| 潜山县| 城步| 新田县| 乌拉特前旗| 镇江市| 萨迦县| 怀化市| 和林格尔县| 边坝县| 平潭县| 会宁县| 龙岩市| 阳江市| 铜鼓县| 农安县|