国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

BETSY在自動(dòng)作文評(píng)分中的原理與應(yīng)用

2011-12-06 01:17:34進(jìn)
當(dāng)代外語(yǔ)研究 2011年1期
關(guān)鍵詞:伯努利貝葉斯文檔

唐 進(jìn)

(咸寧學(xué)院,湖北,咸寧,437100)

1. 概述

大規(guī)模的語(yǔ)言測(cè)試如TOEFL、CET機(jī)考等都要對(duì)應(yīng)試者進(jìn)行寫(xiě)作能力測(cè)試。不過(guò),英語(yǔ)作文大規(guī)模人工閱卷存在耗費(fèi)大量人力、物力的問(wèn)題,閱卷員的評(píng)判也帶有很強(qiáng)的主觀性。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,自動(dòng)作文評(píng)分(Automated Essay Scoring,AES)在國(guó)外已進(jìn)入實(shí)際應(yīng)用階段(Kukich 2000:25)。國(guó)內(nèi)自動(dòng)作文評(píng)分的研究雖然起步較晚,但也越來(lái)越受到學(xué)者們的重視。萬(wàn)鵬杰(2005:11-13)利用電子軟件評(píng)估系統(tǒng)對(duì)大學(xué)英語(yǔ)寫(xiě)作進(jìn)行測(cè)試,探討電子軟件評(píng)估代替人工評(píng)估的可能性。陳瀟瀟和葛詩(shī)利(2008:78-83)等人對(duì)國(guó)外英語(yǔ)作文自動(dòng)評(píng)分做了綜述,初步介紹了PEG(Project Essay Grade)、IEA(Intelligent Essay Assessor)、E-rater(Electronic Essay Rater)、IntelliMetricTM、BETSY(Bayesian Essay Test Scoring sYstem)等自動(dòng)評(píng)分系統(tǒng)的基本功能。梁茂成(2005)則把他利用220個(gè)樣本的訓(xùn)練集得出的評(píng)分模型應(yīng)用在120個(gè)樣本的驗(yàn)證集上以進(jìn)行可信度驗(yàn)證。

在國(guó)內(nèi)外學(xué)者的研究中,我們發(fā)現(xiàn)BETSY系統(tǒng)能夠整合許多自動(dòng)作文評(píng)分系統(tǒng)(如PEG、LSA、E-rater和IntelliMetricTM等)的優(yōu)點(diǎn),而且應(yīng)用廣泛(文本篇幅可長(zhǎng)可短)、容易操作、非統(tǒng)計(jì)學(xué)人員更容易理解(Lawrence & Tahung 2002:3-21)。因BETSY是開(kāi)源軟件,它還可以免費(fèi)從Internet上下載①。本文具體分析該評(píng)分系統(tǒng)的工作原理,并采用實(shí)證方法驗(yàn)證該系統(tǒng)在英語(yǔ)作文自動(dòng)評(píng)分中的應(yīng)用效果。

2. BETSY的工作原理

BETSY是國(guó)外一款流行作文自動(dòng)評(píng)分系統(tǒng),由美國(guó)馬里蘭大學(xué)Lawrence M. Rudner博士為主研制。BETSY的核心原理是貝葉斯理論(Bayes’ Theorem),是建立在文本分類(lèi)(Text Classification)基礎(chǔ)上的自動(dòng)作文評(píng)分系統(tǒng)。BETSY根據(jù)一個(gè)己標(biāo)注的訓(xùn)練文檔集合,找到文檔特征和文檔類(lèi)別之間的關(guān)系模型,然后利用這種關(guān)系模型對(duì)新的文檔進(jìn)行類(lèi)別判斷,達(dá)到自動(dòng)評(píng)分的目的。BETSY的核心技術(shù)由文本預(yù)處理(Text Preprocessing)、文本表征(Representation)、分類(lèi)方法等幾部分構(gòu)成。下面,我們將分別進(jìn)行說(shuō)明。

2.1 文本預(yù)處理

BETSY要處理大量非結(jié)構(gòu)化的自然語(yǔ)言文本數(shù)據(jù),因此在對(duì)文檔進(jìn)行特征提取前,需要先對(duì)這些文本數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理,這將直接影響文本分類(lèi)的效率、準(zhǔn)確度以及最終模式的有效性。因此,為減少文本特征表示中的數(shù)據(jù)干擾(data-noises),改善文檔表征的質(zhì)量,同時(shí)也為提高分類(lèi)器的訓(xùn)練和分類(lèi)效率,BETSY在特征使用前,通常需要對(duì)文檔進(jìn)行必要的自然語(yǔ)言預(yù)處理。預(yù)處理主要包括刪去停用詞(stop words)、提取詞根(stemming)和特征選擇(feature selection)等(古平2006:21)。

刪去停用詞是將英語(yǔ)中大量的介詞、代詞、形容詞、副詞等從特征集中去掉。BETSY停用詞列表中有319個(gè)單詞,研究者也可以自定義添加額外的停用詞。提取詞根是指將具有相同或相近形式的單詞合并為一個(gè)語(yǔ)義單位的過(guò)程。提取詞根的主要手段是將字尾的變化去除,例如將shopping替換為shop。BETSY采用波特算法(Porter’s stemming algorithm)進(jìn)行取詞,步驟包括:將詞尾有元音的單詞es、e、ed、y替換掉(如將agreed替換為agre),替換詞尾tional、fulness、iveness為tion、ful、ive,替換詞尾icate、iveness、alize為ic、ive、al,刪除剩余的標(biāo)準(zhǔn)詞尾,例如al、ance、er、ic等等,去除詞尾的e,例如用becaus替換because等。這樣能將絕大多數(shù)字母的變化型去除掉,減少數(shù)據(jù)儲(chǔ)存的空間,并且能搜索出有用的信息。當(dāng)然,波特算法所做的是技術(shù)處理,而不是語(yǔ)法規(guī)則的變換。本文預(yù)處理的特征選擇是特征降維(feature dimension reduction)方法的一種,是指從一組已知特征集中按照某一準(zhǔn)則選擇出有很好區(qū)分特性的特征子集,或按照某一準(zhǔn)則對(duì)特征的分類(lèi)性能進(jìn)行排序以用于分類(lèi)器的優(yōu)化設(shè)計(jì)(宋國(guó)杰等2003:1544-1545)。同時(shí),必須先確定一個(gè)特征評(píng)價(jià)函數(shù),并根據(jù)該函數(shù)計(jì)算每個(gè)特征得分(古平2006:21)。信息增益(information gain)是常見(jiàn)的特征評(píng)價(jià)函數(shù)之一(參見(jiàn)公式(1))。在公式中,對(duì)于特征f和文檔ci,信息增益可以通過(guò)f在ci中出現(xiàn)和不出現(xiàn)的情況來(lái)計(jì)算f的信息量:

(1)IG(f)=∑P(ci)logP(ci)+

P(f)∑P(ci|f)logP(ci|f)+

2.2 文本表征

在BETSY中,文本表征就是在給定的分類(lèi)體系下,根據(jù)文本內(nèi)容自動(dòng)地確定文本關(guān)聯(lián)的質(zhì)量類(lèi)別?;蛘哒f(shuō),這就是給定一篇英語(yǔ)作文,為了得到其文檔表示,需要將作文中提取的有效特征合理地組織起來(lái)的過(guò)程。BETSY中文檔表征的方法采用樸素貝葉斯分類(lèi)器,這是一個(gè)基于類(lèi)條件的獨(dú)立性假設(shè)(樸素假設(shè)),即假設(shè)一個(gè)文檔中任何兩個(gè)特征詞之間的出現(xiàn)與否是相互獨(dú)立的(梁宏勝等2007:328)。其主要思想就是計(jì)算在給定一待分類(lèi)文檔的條件下其屬于各個(gè)類(lèi)別的條件概率,然后選擇條件概率最高的那個(gè)類(lèi)別為該文檔所屬的類(lèi)別。BETSY采用兩種文本表示模型:多元伯努利模型(Multivariate Bernoulli Model,MBM)和多項(xiàng)式模型(Multinomial Model,MM)。

多元伯努利模型是樸素貝葉斯方法最常用的實(shí)現(xiàn)模型之一,它使用0和1二值向量(Vector)來(lái)表示一個(gè)文檔。即d={x1,…xn},xk=1就說(shuō)明特征項(xiàng)(item)在文本中出現(xiàn),反之特征項(xiàng)沒(méi)有在文本中出現(xiàn)。無(wú)論文檔中出現(xiàn)或未出現(xiàn)的特征項(xiàng)均被檢測(cè)。在BETSY中,由于伯努利模型將文檔看作多重獨(dú)立的伯努利實(shí)驗(yàn),對(duì)于給定的分類(lèi)cj,文本di的條件概率見(jiàn)公式(2):

(1-Bit)(1-P(wt|cj))]

其中V表示文章中單詞出現(xiàn)的特征,Bit∈(0,1),表示特征項(xiàng)t是否出現(xiàn)在文章i中。P(wt|cj)表示特征項(xiàng)wt出現(xiàn)在評(píng)分為cj的文章中的概率(在多元伯努利模型中至少要出現(xiàn)一次)。模型中用到的參數(shù)都要通過(guò)訓(xùn)練階段,從訓(xùn)練數(shù)據(jù)中訓(xùn)練得到,通常取它們的最大或然估計(jì)(Maximum Likelihood Estimation)作為它們的估計(jì)值,見(jiàn)公式(3):

公式(3)中,Dj為訓(xùn)練文檔集中分類(lèi)cj的文檔數(shù),J為分?jǐn)?shù)組數(shù)。為避免出現(xiàn)零概率,采用Laplace平滑技術(shù)進(jìn)行調(diào)整。對(duì)于給定的分類(lèi)cj,文章di的概率由公式(2)給出,并乘以先驗(yàn)概率,經(jīng)標(biāo)準(zhǔn)化處理后得到較高的后驗(yàn)概率(posterior probability)。

多項(xiàng)式模型也常被稱作Unigram語(yǔ)言模型。Unigram語(yǔ)言模型是N-gram的一種,當(dāng)N=1時(shí),成為Unigram模型,即詞與詞之間互相獨(dú)立,完全沒(méi)有上下文信息,反映的只是詞頻統(tǒng)計(jì)特性。Unigram語(yǔ)言模型假設(shè)詞與詞之間是相互獨(dú)立的,一個(gè)詞出現(xiàn)的概率與這個(gè)詞前面的詞不存在必然聯(lián)系。換句話說(shuō),在多項(xiàng)式模型中,文檔被看成是長(zhǎng)度為m的單詞序列,并且假定文檔的長(zhǎng)度與類(lèi)別無(wú)關(guān),考慮特征項(xiàng)在文檔中出現(xiàn)的頻率。并且,文檔得分的概率di在給定類(lèi)別的條件概率P(di|cj)可以由公式(4)計(jì)算得到:

其中Nit是wt在文章中出現(xiàn)的次數(shù),P(wt|cj)表示特征項(xiàng)wt出現(xiàn)在評(píng)分為cj的文章中的概率,從訓(xùn)練集的數(shù)據(jù)中計(jì)算得到公式(5):

其中D為訓(xùn)練集中所有文檔數(shù)。同樣的道理,多項(xiàng)式模型在評(píng)判作文分?jǐn)?shù)的時(shí)候,也只能使用頻率非零的特征項(xiàng)。

在多變量伯努利模型中,文本中出現(xiàn)或未出現(xiàn)的特征項(xiàng)都需計(jì)算。在多項(xiàng)式模型中,只計(jì)算一篇文章中出現(xiàn)的特征項(xiàng),每個(gè)特征項(xiàng)可以出現(xiàn)多次,并假定文檔的長(zhǎng)度與文檔的分?jǐn)?shù)無(wú)關(guān)。經(jīng)過(guò)訓(xùn)練集的參數(shù)估計(jì)后,多項(xiàng)式模型在評(píng)估一篇新的文本時(shí),速度要比多變量伯努利模型快(Lawrence & Tahung 2002:3-21)。

2.3 分類(lèi)方法

BETSY采用基于貝葉斯定理的分類(lèi)方法。這是根據(jù)貝葉斯理論計(jì)算概率的一種方法,即認(rèn)為一個(gè)事件會(huì)不會(huì)發(fā)生取決于該事件在先驗(yàn)分布中已經(jīng)發(fā)生過(guò)的次數(shù)。貝葉斯定理指出,對(duì)于事件X和Y,已知Y的概率時(shí)X發(fā)生的概率(用p{X|Y}表示)等于已知X的概率時(shí)Y發(fā)生的概率(用p{Y|X}表示)乘以X的概率(p{X}),再除以Y的概率(p{Y}),見(jiàn)公式(6):

(6) p{X|Y}=p{X}*p{Y|X}/p{Y}

因此,貝葉斯理論的應(yīng)用有三個(gè)步驟:(1)已知類(lèi)條件概率密度參數(shù)表達(dá)式和先驗(yàn)概率;(2)利用貝葉斯公式轉(zhuǎn)換成后驗(yàn)概率;(3)根據(jù)后驗(yàn)概率大小進(jìn)行決策分類(lèi)。

貝葉斯理論在作文自動(dòng)評(píng)分中的主要任務(wù)是根據(jù)大量的文本特征項(xiàng)對(duì)文本進(jìn)行分類(lèi),一般分為三類(lèi)或四類(lèi)。Lawrence和Tahung(2002)的例子較為簡(jiǎn)單,他們將文本分為三類(lèi)(好、中、差)。因此我們需要確定三個(gè)概率:第一,“好”的文本中特征項(xiàng)出現(xiàn)的概率;第二,“中”的文本中特征項(xiàng)出現(xiàn)的概率;以及第三,“差”的文本中特征項(xiàng)出現(xiàn)的概率。我們分別設(shè)Pi=(ui=1|A),Pi=(ui=1|R)和Pi=(ui=1|I);對(duì)于每一個(gè)特征i有不同的概率;A、R和I分別代表文本的分類(lèi)“好”、“中”和“差”。同時(shí),Lawrence和Tahung(2002:3-21)強(qiáng)調(diào),確定條件概率需要1000個(gè)以上的樣本量。

表1 假設(shè)特征項(xiàng)的條件概率②

在BETSY的官方網(wǎng)站上提供了一個(gè)4個(gè)特征項(xiàng)的例子(參見(jiàn)表1)。在這個(gè)例子中,假設(shè)文章包涵4個(gè)特征項(xiàng),每個(gè)特征項(xiàng)按照“好”、“中”、“差”統(tǒng)計(jì)概率。觀察表1中的特征項(xiàng)與相應(yīng)的概率,很容易發(fā)現(xiàn):“好”的文章包涵特征項(xiàng)1(.7)和2(.8);“中”的文章包涵特征項(xiàng)3(.8);而“差”的文章包涵特征項(xiàng)4(.9)。為對(duì)這篇文章進(jìn)行評(píng)分分類(lèi),我們假設(shè)先驗(yàn)概率相同,即P(A)=P(R)=P(I)=.33。根據(jù)貝葉斯理論,即公式(6),得出這篇文章為“好”的概率為:P(A|ui=1)=P(ui=1|A)*P(A)/P(ui=1)=.7*.33=.233;“中”的概率為:P(R|ui=1)=P(ui=1|R)*P(R)=.6*.33=.200;“差”的概率為P(I|ui=1)=P(ui=1|I)*P(I)=.1*.33=.033。根據(jù)這些聯(lián)合概率就可獲得后驗(yàn)概率:P′(A)=.233/(.233+.200+.033)=.500;P′(R)=.200/(.233+.200+.033)=.429;P′(I)=.033/(.233+.200+.033)=.071。接著,我們用得到的后驗(yàn)概率作為新的先驗(yàn)概率,去驗(yàn)證下一個(gè)特征項(xiàng),重復(fù)這一過(guò)程直到所有特征項(xiàng)被歸類(lèi)。表2就對(duì)這一重復(fù)過(guò)程進(jìn)行了說(shuō)明。

表2 文本分類(lèi)③

進(jìn)一步假設(shè),一篇作文包涵了特征項(xiàng)1、3和4,P(ui|S)的值來(lái)自表1。由于假設(shè)規(guī)定本篇習(xí)作不包涵特征項(xiàng)2,因此對(duì)于特征項(xiàng)2,就有P(ui=0)=1-P(ui=1)。根據(jù)極大后驗(yàn)估計(jì)法(Maximum a posterior estimation),習(xí)作為“中”的概率為.815(表2),是最高的概率。也就是說(shuō),本篇習(xí)作的分類(lèi)為“中”。BETSY就是采用這種算法對(duì)文本進(jìn)行分類(lèi)與評(píng)分。

3. BETSY在英語(yǔ)自動(dòng)作文評(píng)分中的應(yīng)用

下面,我們將采用實(shí)驗(yàn)方法驗(yàn)證BETSY在英語(yǔ)作文自動(dòng)評(píng)分中的應(yīng)用效果。在實(shí)驗(yàn)中,我們比較BETSY自動(dòng)作文評(píng)分與人工評(píng)分的結(jié)果,并作相關(guān)統(tǒng)計(jì)學(xué)處理與分析。

首先收集寫(xiě)作樣本。采用2009年12月全國(guó)大學(xué)英語(yǔ)四級(jí)考試寫(xiě)作試題“Create a Green Campus”作為數(shù)據(jù)收集工具。要求被試完成的習(xí)作字?jǐn)?shù)在120左右,并要求緊扣題目。被試為1504名湖北某高校公共英語(yǔ)大學(xué)二年級(jí)學(xué)生。聘請(qǐng)兩名大學(xué)英語(yǔ)教師對(duì)學(xué)生習(xí)作人工評(píng)分。為簡(jiǎn)化操作程序,習(xí)作只分為A、B、C、D四個(gè)等級(jí),分別對(duì)應(yīng)的分?jǐn)?shù)為14分、11分、8分和5分,滿分為15分。兩位教師評(píng)分的一致率在86%以上。同時(shí)兩位教師對(duì)評(píng)分有爭(zhēng)議的樣本進(jìn)行磋商,最終給出這部分樣本的平均分。綜合各方面因素,在1504篇習(xí)作中,最終確定有效樣本1187篇。其中987篇習(xí)作為訓(xùn)練集樣本,200篇習(xí)作為驗(yàn)證集樣本。

接下來(lái)采用版本號(hào)為1.03.55d.03.13的BETSY系統(tǒng)讀取樣本數(shù)據(jù),并自動(dòng)進(jìn)行單詞(words)和詞對(duì)(word pairs)訓(xùn)練。在此過(guò)程中,BETSY會(huì)去掉每1000詞中出現(xiàn)不足5次的單詞,避免數(shù)據(jù)庫(kù)過(guò)于龐大。同時(shí),BETSY根據(jù)內(nèi)建的英語(yǔ)停用詞表標(biāo)記停用詞、采用波特算法進(jìn)行取詞根處理、特征降維等,使向量維數(shù)得到進(jìn)一步降低。BETSY收集完足夠信息后,實(shí)驗(yàn)分別采用多元伯努利模型和多項(xiàng)式模型對(duì)另外200篇習(xí)作的驗(yàn)證集進(jìn)行自動(dòng)評(píng)分,并對(duì)BETSY與人工評(píng)分的結(jié)果進(jìn)行統(tǒng)計(jì)分析。表3是相關(guān)參數(shù)的描述統(tǒng)計(jì)結(jié)果。

表3 描述統(tǒng)計(jì)

從表3的統(tǒng)計(jì)結(jié)果來(lái)看,人工閱卷、多元伯努利模型和多項(xiàng)式模型的均值、標(biāo)準(zhǔn)差差別并不大,但多元伯努利模型與多項(xiàng)式模型的平均得分都比人工評(píng)分高。

表4是對(duì)人工閱卷、多元伯努利模型和多項(xiàng)式模型結(jié)果所作的相關(guān)性分析。從表4可知,人工閱卷與多元伯努利模型之間、人工閱卷與多項(xiàng)式模型之間、多元伯努利模型與多項(xiàng)式之間存在顯著相關(guān)(r人工閱卷-多元伯努利模型=.624,r人工閱卷-多項(xiàng)式模型=.611,r多元伯努利模型-多項(xiàng)式模型=.860,p<.01)。而且,人工閱卷與多元伯努利模型、多項(xiàng)式模型之間均為強(qiáng)相關(guān)。多元伯努利模型與多項(xiàng)式模型之間的相關(guān)系數(shù)達(dá).860,兩種模型均來(lái)源于樸素貝葉斯理論,在本次實(shí)驗(yàn)中的結(jié)果差別不大。

表4 相關(guān)性

注:**p<0.01。

以人工評(píng)分為x軸、以多元伯努利模型和多項(xiàng)式模型為y軸,分別畫(huà)出人工評(píng)分與多元伯努利模型、人工評(píng)分與多項(xiàng)式模型的散點(diǎn)圖(圖1、圖2);以多元伯努利模型為x軸,多項(xiàng)式模型為y軸畫(huà)出多元伯努利模型與多項(xiàng)式模型之間的散點(diǎn)圖(圖3)。從圖1-3可以看出,人工閱卷與多元伯努利模型之間、人工閱卷與多項(xiàng)式模型之間、多元伯努利模型與多項(xiàng)式模型之間均為線性正相關(guān)。

圖1 人工評(píng)分與多元伯努利模型散點(diǎn)圖

圖2 人工評(píng)分與多項(xiàng)式模型散點(diǎn)圖

圖3 多項(xiàng)式模型與多元伯努利模型散點(diǎn)圖

重新觀察樣本數(shù)據(jù),發(fā)現(xiàn)有部分?jǐn)?shù)據(jù)(14組,占總數(shù)的7%)人工評(píng)分與BETSY自動(dòng)評(píng)分差別較大(表5),相差等級(jí)在兩個(gè)以上。根據(jù)整個(gè)實(shí)驗(yàn)流程,我們認(rèn)為出現(xiàn)這種現(xiàn)象的主要原因有三個(gè):第一,樣本數(shù)據(jù)量不夠。和其他自動(dòng)作文評(píng)分軟件相比,BETSY的樣本量要求相對(duì)較小。較小的樣本量也許會(huì)帶來(lái)評(píng)分精度的降低,不過(guò)這需要進(jìn)一步的研究才能確定。第二,BETSY系統(tǒng)本身存在一定的系統(tǒng)誤差。例如,波特算法并非完美,部分字詞無(wú)法正確地將詞型、時(shí)態(tài)變化還原成原型(柯淑津2007);樸素貝葉斯模型也存在性能不穩(wěn)定的問(wèn)題等等(石志偉、吳功宜2004)。第三,BETSY內(nèi)建的停用詞列表中有319個(gè)詞匯,這是一個(gè)通用停用詞列表,并不包含中國(guó)英語(yǔ)學(xué)習(xí)者的語(yǔ)言特征。實(shí)驗(yàn)在設(shè)計(jì)過(guò)程中未考慮到要增刪停用詞列表以適合中國(guó)英語(yǔ)學(xué)習(xí)者特征,這也會(huì)影響到模型評(píng)分的精度。

表5 人工評(píng)分與BETSY之間的差異

綜上所述,盡管實(shí)驗(yàn)中存在的一些問(wèn)題尚需通過(guò)進(jìn)一步的研究驗(yàn)證,但BETSY的評(píng)分結(jié)果與人工評(píng)分結(jié)果確存有較強(qiáng)的相關(guān)性,這也充分表明BETSY具備推廣基礎(chǔ)。當(dāng)然,我們同時(shí)也期待下一個(gè)版本的BETSY系統(tǒng)能夠進(jìn)一步提高其評(píng)分的穩(wěn)定性與準(zhǔn)確性。

4. 結(jié)語(yǔ)

BETSY自動(dòng)作文評(píng)分系統(tǒng)集多種自動(dòng)作文平分系統(tǒng)的優(yōu)點(diǎn)于一身。本文的實(shí)驗(yàn)結(jié)果也清楚地表明它與人工評(píng)分之間存在很強(qiáng)的相關(guān)性,可見(jiàn)BETSY系統(tǒng)具備一定的應(yīng)用基礎(chǔ)。

總體來(lái)看,雖然自動(dòng)作文評(píng)分還面臨著一些問(wèn)題,但隨著自然語(yǔ)言處理技術(shù)的不斷發(fā)展,相信它們?cè)谥袊?guó)的大規(guī)模實(shí)施為期不遠(yuǎn)。

附注:

① 見(jiàn):http:∥echo.edres.org/betsy

② 見(jiàn):http:∥echo.edres.org/betsy/bayesian_ov.htm

③ 見(jiàn):http:∥echo.edres.org/betsy/bayesian_ov.htm

Kukich, K. 2000. Beyond Automated Essay Scoring [A]. In Marti A. Hearst (ed.). The debate on automated essay grading [J].IEEEIntelligentsystems(5): 25.

Lawrence M. Rudner & Tahung Liang. 2002. Automated essay scoring using Bayes’ Theorem [J].TheJournalofTechnology,LearningandAssessment(2): 3-21.

陳瀟瀟、葛詩(shī)利.2008.自動(dòng)作文評(píng)分研究綜述[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào)(5):78-83.

古平.2006.基于貝葉斯模型的文檔分類(lèi)及相關(guān)技術(shù)研究[D].重慶大學(xué)博士學(xué)位論文.

柯淑津.2007.英文檢索原型化處理[OL].http:∥www.cis.scu.edu.tw.

梁宏勝、徐建民、成岳鵬.2007.一種改進(jìn)的樸素貝葉斯文本分類(lèi)方法[J].河北大學(xué)學(xué)報(bào)(自然科學(xué)版)(3):328.

梁茂成、文秋芳.2007.國(guó)外作文自動(dòng)評(píng)分系統(tǒng)評(píng)述起始[J].外語(yǔ)電化教學(xué)(5):18.

梁茂成.2005.中國(guó)學(xué)生英語(yǔ)作文自動(dòng)評(píng)分模型的構(gòu)建[D].南京大學(xué)博士學(xué)位論文.

石志偉、吳功宜.2004.改善樸素貝葉斯在文本分類(lèi)中的穩(wěn)定性[OL].http:∥www.intsci.ac.cn.

宋國(guó)杰、唐世渭、楊冬青、王騰蛟.2003.基于最大熵原理的空間特征選擇方法[J].軟件學(xué)報(bào)14(9):1544-1545.

萬(wàn)鵬杰.2005.電子軟件評(píng)估系統(tǒng)測(cè)試大學(xué)英語(yǔ)寫(xiě)作的研究報(bào)告[J].外語(yǔ)電化教學(xué)(6):11-13.

猜你喜歡
伯努利貝葉斯文檔
有人一聲不吭向你扔了個(gè)文檔
貝葉斯公式及其應(yīng)用
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
一種伯努利原理研究的實(shí)驗(yàn)裝置
基于貝葉斯估計(jì)的軌道占用識(shí)別方法
淺談關(guān)于n重伯努利試驗(yàn)概率計(jì)算問(wèn)題
一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
電子器件(2015年5期)2015-12-29 08:43:15
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
三個(gè)高階伯努利多項(xiàng)式與等冪和多項(xiàng)式的對(duì)稱等式
IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
佛学| 临沧市| 闵行区| 卢氏县| 江永县| 右玉县| 资中县| 成武县| 察隅县| 荆门市| 图木舒克市| 玛纳斯县| 河曲县| 黄浦区| 孟州市| 吉首市| 大竹县| 靖边县| 托克逊县| 吉林省| 鄂托克旗| 阿巴嘎旗| 大悟县| 乌拉特后旗| 朔州市| 麟游县| 长岛县| 英吉沙县| 清新县| 山东省| 陵水| 海丰县| 许昌县| 兰坪| 东至县| 武定县| 出国| 古田县| 邛崃市| 赫章县| 岑溪市|