国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于抽象語義表示的短文本質(zhì)量評估方法

2022-07-07 02:51:08高永兵黎預(yù)璇馬占飛
計算機(jī)應(yīng)用與軟件 2022年5期
關(guān)鍵詞:句法結(jié)構(gòu)例句短文

高永兵 張 穎 黎預(yù)璇 馬占飛

1(內(nèi)蒙古科技大學(xué)信息工程學(xué)院 內(nèi)蒙古 包頭 014010)2(包頭師范學(xué)院信息工程系 內(nèi)蒙古 包頭 014010)

0 引 言

短文本質(zhì)量是影響信息獲取的主要因素,高質(zhì)量語句不僅語義清晰準(zhǔn)確無歧義,而且語言體驗上也更順暢?,F(xiàn)在很多短文本平臺數(shù)據(jù)都已經(jīng)達(dá)到PB級,人工篩選與標(biāo)注是不現(xiàn)實的,因此需要一種自動化短文本質(zhì)量評估與篩選方法。邱琳[1]在中文長文本方面提出文本質(zhì)量評測方法。通過詞語一致性、文本重復(fù)率以及文本主題數(shù)量對文本質(zhì)量進(jìn)行評估。以上三個測量標(biāo)準(zhǔn)主要應(yīng)用在長文檔領(lǐng)域,需要大量語料輔助計算,對短文本或單個句子質(zhì)量評估并不適用。針對短文本,鐘將等[2]提出一種主題特征格分析的文本質(zhì)量評估方法,計算電商中用戶評論的內(nèi)容質(zhì)量。這種方式屬于限定域的質(zhì)量評估模式,不具有普適性。陳銘[3]通過對微博文本質(zhì)量評估,實現(xiàn)更精準(zhǔn)的推薦。通過文本內(nèi)容與作者影響力兩個條件判別質(zhì)量類別。由于微博平臺交互性特點(diǎn),文本質(zhì)量不能僅考慮具體內(nèi)容,應(yīng)結(jié)合作者的社交網(wǎng)絡(luò)與個人地位等因素,計算最終文本質(zhì)量。該模型主要解決主題相似性問題對文本結(jié)構(gòu)并未分析,然而在句子少的短文本中,其主題不易選準(zhǔn),而且最終質(zhì)量評估還依賴于作者的影響力,計算開銷大效率低。

以上三種文本質(zhì)量評估方式依賴文本與主題間的相似性作為質(zhì)量判斷的依據(jù),相似性越高,質(zhì)量越好,并未詳細(xì)分析句子的語法結(jié)構(gòu)與修飾語義對質(zhì)量的影響。針對原有方法的不足,本文提出一種將句法結(jié)構(gòu)與修飾語義相結(jié)合的短文本質(zhì)量評估方法。

1 抽象語義表示(AMR)

抽象語義表示(Abstract Meaning Representation,AMR)由Banarescu等[4]在2013年提出,是將句子信息抽象為圖結(jié)構(gòu),節(jié)點(diǎn)為句中的實詞,節(jié)點(diǎn)間的有向弧為實詞間關(guān)系。為提高其分析的準(zhǔn)確性,Bos[5]與Stabler[6]對其通用量詞表示進(jìn)行了完善。隨著AMR的快速發(fā)展,先后提出JAMR[7-8]解析器、CAMR[9-10]解析器和TAMR[11]解析器,但其均適用于英文句子。Li等[12-13]根據(jù)中文賓州樹庫的分詞規(guī)范與中文Propbank的動詞框架詞典,初步建立一套中文AMR標(biāo)注規(guī)范,人工標(biāo)注中文《小王子》語料庫并不斷完善。在此基礎(chǔ)上,利用中文斯坦福依存解析改進(jìn)Wang等[14]基于轉(zhuǎn)換的CAMR器使其實現(xiàn)中文AMR解析,但其解析結(jié)果準(zhǔn)確性較低。李斌等[15]研究漢語特點(diǎn),標(biāo)注中文AMR語料集并改進(jìn)中文AMR標(biāo)注規(guī)范。之后,吳泰中等[16]利用該數(shù)據(jù)集提出準(zhǔn)確率更高的基于轉(zhuǎn)移神經(jīng)網(wǎng)絡(luò)的中文AMR解析器,本文利用該解析器實現(xiàn)句子到AMR轉(zhuǎn)換。

AMR是一種與領(lǐng)域無關(guān)的深層語義分析與句法分析相結(jié)合的方法,能夠?qū)渥又卸嘀^詞結(jié)構(gòu)進(jìn)行分析。何保榮等[17]根據(jù)現(xiàn)代漢語特點(diǎn)提出12種中文句式,將各種句式與句模相對應(yīng),總結(jié)出三類謂詞的句法結(jié)構(gòu),分別為:施事+V+受事+客事,施事+V+的+外圍語義角色,施事+V。并將復(fù)合句拆分為單句處理。通過AMR的特點(diǎn)更準(zhǔn)確的分析謂詞的句法結(jié)構(gòu)。本文根據(jù)上述三個類別劃分句法結(jié)構(gòu)等級。

為研究過程方便處理,AMR可采用邏輯表達(dá)、節(jié)點(diǎn)重入的PENMAN樹形式與圖三種表達(dá)方式,其中,PENMAN樹形式使用分層表示的方式充分體現(xiàn)句子的句法結(jié)構(gòu)與序列間的聯(lián)系,為短文本質(zhì)量分析提供基礎(chǔ)。

2 短文本質(zhì)量評估

短文本質(zhì)量指句法完整且內(nèi)容清晰表達(dá)優(yōu)美的句子,如例句P1至P6的文本質(zhì)量逐漸提高。本文目標(biāo)是建立一套普適性的短文本質(zhì)量評估模型,首先確定語句的質(zhì)量評估準(zhǔn)則,在此基礎(chǔ)上依據(jù)AMR圖結(jié)構(gòu),分析句子的句法結(jié)構(gòu)與序列緊密程度實現(xiàn)語句評估規(guī)則和算法實現(xiàn),進(jìn)而實現(xiàn)短文本的質(zhì)量評估。

P1 哈哈! (主語殘缺)

P2 新年快樂!??!(結(jié)構(gòu)簡單)

P3 我祝大家新年快樂!?。?結(jié)構(gòu)完整,缺少修飾)

P4 新的一年即將來臨,我衷心祝愿朋友們:家庭好、事業(yè)好、身體好、心情好、運(yùn)氣好、福氣好,一切安好?。?結(jié)構(gòu)完整,修飾齊備,緊密性較低)

P5 好久沒有在家過年,但你們不要忘記我與你們相隔雖遠(yuǎn),愛你們的心依舊溫?zé)幔履昕鞓罚?結(jié)構(gòu)完整,關(guān)聯(lián)修飾)

P6 漫天的禮花升騰著我們的夢想,點(diǎn)燃的爆竹絢麗了我們的希望。我們把曾經(jīng)的美好定格早曼妙的記憶中,把來年的憧憬融化在新年的祝福里。人生中的很多東西是很難辭別的,我們只能背負(fù)著對未來的寄托,抖抖身上的雪花,撣撣回憶中的灰塵,全身心走入新的一年,祝福大家新年快樂!(結(jié)構(gòu)完整,內(nèi)容緊密,多句模式)

2.1 評估思路和準(zhǔn)則

文本是信息傳遞的媒介,因此文本質(zhì)量評估應(yīng)和其所含的信息量相關(guān)。信息的度量是由香農(nóng)于1948年提出的信息熵來表示,信息熵主要描述了系統(tǒng)的不確定性,一個系統(tǒng)中的狀態(tài)可能性越多,不確定性就越大,信息熵就越低。信息熵也可以說是系統(tǒng)有序化程度的一個度量。一個系統(tǒng)越是有序,信息熵就越低;反之,一個系統(tǒng)越是混亂,信息熵就越高。凡是隨機(jī)事件導(dǎo)致的變化,都可以用信息熵的改變量這個統(tǒng)一的標(biāo)尺來度量。

本文將信息熵思路沿用到短文本質(zhì)量評估中,將不確定性作為文本質(zhì)量度量準(zhǔn)則。如例句P1到P6,隨著上下文信息增加,傳遞的信息量增大,消減內(nèi)容的不確定性提高文本質(zhì)量。公式表示如下:

U′=U-IS

(1)

式中:U為信息不確定總空間,保持恒定;IS為句子S表達(dá)內(nèi)容(信息含量);U′為引入句子后的剩余不確定空間。U′是質(zhì)量評估依據(jù),U′越小,質(zhì)量越高。IS變大時會導(dǎo)致U′變小,因此IS成為質(zhì)量度量的關(guān)鍵。

在一句話中,隨著句子結(jié)構(gòu)的完備和修飾成分的增加,其表達(dá)內(nèi)容的不確定性逐漸降低,質(zhì)量不斷提高,因此高質(zhì)量文本結(jié)構(gòu)完整語義豐富清晰。據(jù)此提出準(zhǔn)則一:

準(zhǔn)則一:句子的語法結(jié)構(gòu)越完整,質(zhì)量越高。

在一句話中,句子主體部分(主謂賓)和修飾成分(定狀補(bǔ)等)的重要性是不一樣的,不同成分對表達(dá)內(nèi)容的不確定性影響程度也不一樣;進(jìn)一步可以得出修飾成分的位置不同,對表達(dá)內(nèi)容的不確定性影響程度也不一樣。據(jù)此提出準(zhǔn)則二。

準(zhǔn)則二:句子中各成分序列的緊密性越強(qiáng),質(zhì)量越高。

如在例句P4中,謂語為“祝愿”,主語為“我”,賓語為“朋友們”,狀語“新的一年即將來臨”和“衷心”,補(bǔ)語為“家庭好、事業(yè)好、身體好、心情好、運(yùn)氣好、福氣好,一切安好??!”,應(yīng)有I(祝愿)>I(衷心)等關(guān)系存在,即在消除不確定性方面,句子的主體成分應(yīng)大于修飾成分;進(jìn)一步看,狀語“新的一年即來臨”比起補(bǔ)語中的某個并列成分,應(yīng)有I(新的一年即將來臨)>I(身體好),更顯得重要。

根據(jù)以上兩條準(zhǔn)則,本文提出了一基于AMR的單句質(zhì)量評估的算法,根據(jù)計算結(jié)果將句子質(zhì)量分類。

2.2 句法結(jié)構(gòu)分級

漢語中常會出現(xiàn)句子成分缺少和省略的情況,特別是在口語化碎片化嚴(yán)重的短文本領(lǐng)域,更是如此。例句P1中,不包含有謂詞,“哈哈”表達(dá)作者的情感,內(nèi)容無主題與事件,句法結(jié)構(gòu)差;例句P2中,“快樂”表達(dá)作者的情感,“新年”為文本的主題,“新年快樂”事件描述不完整;例句P3中,“新年”為文本的主旨,“我”為謂詞的執(zhí)行者,“大家新年快樂”為“?!钡木唧w內(nèi)容,事件描述完整。隨著句法結(jié)構(gòu)的完備,文本語義由模糊逐漸清晰,對事件描述逐漸完整,短文本質(zhì)量依次提高。三個例句與對應(yīng)AMR的PENMAN表示如圖1所示,P1部分對應(yīng)例句P1,P2部分對應(yīng)例句P2,P3部分對應(yīng)例句P3。

圖1 例句P1-P3 PENMAN表示的AMR圖

AMR圖中每一行由兩部分組成,(xi/node)表示節(jié)點(diǎn),其中node為節(jié)點(diǎn)內(nèi)容,xi表示句子分詞后節(jié)點(diǎn)的索引;:relation()表示節(jié)點(diǎn)關(guān)系,relation為具體關(guān)系名稱,如使用:arg0()與:arg1()關(guān)系表示句中謂詞的施事與受事關(guān)系,從例句P1、P2與P3對比中可以看出,若謂詞結(jié)構(gòu)完整,那么文本的主旨清楚,語義明晰。為此將句法結(jié)構(gòu)分為施事+謂詞+受事(結(jié)構(gòu)好)、施事+謂詞或謂詞+受事(結(jié)構(gòu)中)、無謂詞(結(jié)構(gòu)差)三種分級。即在句子中,當(dāng)謂詞的平均實施與受事數(shù)量大于1.5時,句法結(jié)構(gòu)好,大于0.5小于等于1.5時,句法結(jié)構(gòu)中,其他情況句法結(jié)構(gòu)差。具體過程如算法1所示。

算法1句法結(jié)構(gòu)等級

輸入:單句列表S與相應(yīng)AMR字典Amr。

輸出:句子的句法結(jié)構(gòu)等級列表DS。

while i

ssi<--(Si,Amri);

for i in si.Amr

num_v<--句子ssi對應(yīng)謂詞數(shù);

num_rel<--查找arg0與arg1關(guān)系數(shù)量;

value=num_rel/num_v;

if value>1.5:D=g(好);

else if 1.5≥value>0.5:D=m(中);

else :D=p(差);

DS<--D加入列表;

end for

end while

return DS

2.3 句子序列緊密性

句子質(zhì)量不僅與句法結(jié)構(gòu)相關(guān),與句內(nèi)序列的緊密程度也相關(guān),即不同成分對句子的影響不同。句子緊密性越強(qiáng),平均句子序列值越大。AMR圖的PENMAN樹形式表示可以充分體現(xiàn)出句子片段的層級與序列關(guān)系。根據(jù)句子的不同層次結(jié)構(gòu)與節(jié)點(diǎn)關(guān)系,提出以下三個規(guī)則:

規(guī)則一:在AMR中,不同節(jié)點(diǎn)關(guān)系對句子緊密性影響不同。

將關(guān)系成分分為四種類別。第一類為AMR中主要關(guān)系表示節(jié)點(diǎn)與謂詞的關(guān)系,等級值為x;第二類為時間、地點(diǎn)和目的解釋說明關(guān)系,等級值為y;第三類為非重要關(guān)系表示句子修飾,等級值為z;第四類為并列或舉例關(guān)系,等級值為m。如圖2所示,x、y、z、m的具體值在實驗中通過優(yōu)化測試算法確定。

圖2 關(guān)系分類

規(guī)則二:若當(dāng)前節(jié)點(diǎn)關(guān)系的父節(jié)點(diǎn)非根,其父節(jié)點(diǎn)關(guān)系對句子緊密性影響力越高,該關(guān)系節(jié)點(diǎn)越重要。

規(guī)則三:在單句PENMAN樹形式中,概念節(jié)點(diǎn)所在層數(shù)越小,對句子緊密性影響越大,權(quán)重越大。

在上面兩個例子中,圖3為例句P4的AMR的PENMAN表示,圖4為例句P5的AMR的PENMAN表示??梢园l(fā)現(xiàn)相同節(jié)點(diǎn)關(guān)系在不同句中的功能相似,不同節(jié)點(diǎn)關(guān)系在同句中的影響不同。如以下兩個片段,在圖3中:mod()(x1/新)、:time()(x2/即將)與圖4中:mod()(x19/愛)、:arg2()(x20/你們),mod關(guān)系是對父節(jié)點(diǎn)的修飾,增加句子的連貫性;time關(guān)系表示父節(jié)點(diǎn)發(fā)生時間,對事件的詳細(xì)說明;arg2關(guān)系表示句子框架,為主要成份;op[1…n]為并列成分的表述,對緊密性無影響。在圖3中,x34節(jié)點(diǎn)為and,表明該AMR圖中,“來臨”與“祝愿”為兩個并列成分,其子節(jié)點(diǎn)對兩部分的緊密程度進(jìn)行詳細(xì)分析。根據(jù)四種關(guān)系的不同作用,對句子緊密性影響順序為op[1…n]

圖3 例句P4 PENMAN表示的AMR圖結(jié)構(gòu)

圖4 例句P5 PENMAN表示的AMR圖結(jié)構(gòu)

AMR圖結(jié)構(gòu)中,子節(jié)點(diǎn)是對父節(jié)點(diǎn)的詳細(xì)表達(dá)。在分析節(jié)點(diǎn)緊密性時,不僅要考慮當(dāng)前節(jié)點(diǎn)關(guān)系,還要考慮其父節(jié)點(diǎn)關(guān)系。圖4中(x16/雖)是(x17/遠(yuǎn))的子節(jié)點(diǎn),(x19/愛)是(x22/心)的子節(jié)點(diǎn);由節(jié)點(diǎn)關(guān)系可知(x22/心)節(jié)點(diǎn)的緊密性大于(x17/遠(yuǎn))節(jié)點(diǎn);(x16/雖)與(x19/愛)節(jié)點(diǎn)關(guān)系均是非重要節(jié)點(diǎn),前者是程度描述,對其他節(jié)點(diǎn)影響較??;后者修飾框架節(jié)點(diǎn),連接(x20/你們)節(jié)點(diǎn)與(x22/心)節(jié)點(diǎn)。因此,(x19/愛)節(jié)點(diǎn)對句子的緊密性大于(x16/雖)節(jié)點(diǎn)。根節(jié)點(diǎn)是每一個AMR圖的起始節(jié)點(diǎn),并沒有方法計算根節(jié)點(diǎn)計算對框架完備性的影響,令根節(jié)點(diǎn)的框架分?jǐn)?shù)為1。

相同節(jié)點(diǎn)關(guān)系作用相同,不同位置的相同節(jié)點(diǎn)關(guān)系對句子緊密性影響不同。如圖4中,(x9/你們)與(x12/我)節(jié)點(diǎn),前者為(x11/忘記-01)的施事節(jié)點(diǎn),后者為(x15/相隔-01)的施事節(jié)點(diǎn)出現(xiàn),兩次出現(xiàn)對父節(jié)點(diǎn)的作用相同,但(x15/相隔-01)是(x11/忘記-01)節(jié)點(diǎn)的詳細(xì)說明,前者句子緊密性更重要。

根據(jù)以上規(guī)則,總結(jié)出句子內(nèi)每一個節(jié)點(diǎn)框架值計算式(2),之后根據(jù)式(3)計算平均緊密性值。

(2)

式中:qr表示當(dāng)前節(jié)點(diǎn)關(guān)系的緊密性值;q表示當(dāng)前節(jié)點(diǎn)關(guān)系等級值;qf表示其父節(jié)點(diǎn)框架值;N為節(jié)點(diǎn)所在AMR圖中的最大層數(shù);n為當(dāng)前節(jié)點(diǎn)所在層數(shù)。

(3)

式中:q表示平均緊密性值;M為全部節(jié)點(diǎn)個數(shù);qr表示節(jié)點(diǎn)的緊密性值。

根據(jù)AMR圖中的關(guān)系分類與句子緊密性平均值得出當(dāng)q>y時,句子關(guān)系密緊密性高;當(dāng)y≥q>z時,句子關(guān)系密緊密性中;當(dāng)q≤z時,句子關(guān)系密緊密性低。具體過程如算法2所示。

算法2句子緊密性值

輸入:單句列表S與相應(yīng)AMR字典Amr。

輸出:句子緊密性列表ES。

while S

si<--(Si,Amri);

for i in si.Amr

qr<--計算每個節(jié)點(diǎn)質(zhì)量(式(2));

q<--計算平均節(jié)點(diǎn)質(zhì)量(式(3));

if q>y:E=g(高);

else if y≥q>z:E=m(中);

else y≥q>z:E=p(低);

ES<--E加入列表;

end for

end while

return ES

2.4 多句短文本質(zhì)量評估

在多句式短文本中,一種簡單的質(zhì)量評估方式就是將各句的質(zhì)量評估值簡單累加,這看起來也符合評估準(zhǔn)則中逐漸消除不確性的特性,但容易出現(xiàn)低質(zhì)量句子拼湊而致的評估錯誤;還有一種評估方式就是將各句的質(zhì)量評估值求平均,這種方式的缺點(diǎn)是可能拉低高質(zhì)量句子的影響力。在多句式短文本中,一些前提句或者輔助句質(zhì)量不高,但主題句的質(zhì)量很高,求均值會導(dǎo)致評估值不合理。

由于多句式短文本中并不是每個句子都結(jié)構(gòu)完整、語義等同。因此,一種合理的方式是選擇一個具有代表性的句子,即核心句,以該句的質(zhì)量作為判斷最終短文本質(zhì)量依據(jù)。在多句式短文本中,無論句子是否含有明確的主語,都會包含主要內(nèi)容。將短文本內(nèi)句子的關(guān)鍵詞進(jìn)行分析,就會明確該文本的主旨。給定短文本D所包含的句子為s1,s2,…,si,對句子sn使用TextRank算法提取關(guān)鍵詞W={wn1,wn2,…,wni}。式(4)計算當(dāng)前句子與其他句子中的關(guān)鍵詞的Word2Vec值(取自HanLP[18]),計算關(guān)鍵詞相似值矩陣,記錄對應(yīng)關(guān)鍵詞所在的句子,根據(jù)式(5)計算最大相似值,最大值對應(yīng)的句子為核心句子。具體過程如算法3所示。

(4)

式中:enm表示每個句子sn與其他句中關(guān)鍵詞的相似值矩陣,ni表示當(dāng)前句子sn中的第i個關(guān)鍵詞的向量值,mj表示其他句子sm中的第j個關(guān)鍵詞的向量值。

(5)

式中:s表示最大相似值,enmj表示第n句內(nèi)關(guān)鍵詞j與其他關(guān)鍵詞相似值。

算法3核心句選取

輸入:多句短文本列表D。

輸出:核心句列表Score。

while D

Si<--分句后字典;

k_word<--每句關(guān)鍵詞的詞向量值列表;

for i in k_word:

enm<--計算相似值矩陣;

end for

s<--根據(jù)式(5)查找最大相似值;

Sk<--最大值s對應(yīng)的句子;

Score<--Sk加入列表;

end while

return Score

以例句P6這條微博為例,先選擇各句關(guān)鍵詞如表1所示。

表1 各句子中的關(guān)鍵詞

依次假設(shè)每個句子為核心句,判斷各句關(guān)鍵詞間的相似值。分析表1中各關(guān)鍵詞發(fā)現(xiàn),禮花、炮竹與新年語義相似,夢想與寄托語義相似,記憶與回憶語義相似,由詞相似擴(kuò)到句子語義相似,選取S3為核心句。與用式(4)與式(5)計算結(jié)果相同。

3 實驗與結(jié)果分析

3.1 語料庫構(gòu)建

目前國內(nèi)外還沒有統(tǒng)一的短文本質(zhì)量計算標(biāo)準(zhǔn)和測試集。本文提出短文本質(zhì)量評估算法,首先需要將短文本解析為AMR的PENMAN樹表示,為了保證解析準(zhǔn)確,選用中文AMR語料庫[15]為數(shù)據(jù)集A,共包含7 000個句子,人工標(biāo)注該數(shù)據(jù)集中每個句子質(zhì)量等級類別。使用其中4 500條句子組成參數(shù)訓(xùn)練集計算關(guān)系等級系數(shù),用整體數(shù)據(jù)測試單句質(zhì)量評估的準(zhǔn)確性。具體數(shù)據(jù)比例如表2所示。

表2 數(shù)據(jù)集A具體分類(%)

另外爬取微博平臺中的多句微博文本,經(jīng)過預(yù)處理與篩選后組成數(shù)據(jù)集B,共包含1 500條微博,人工標(biāo)注多句文本的核心句與句子等級。其中低質(zhì)量、中質(zhì)量與高質(zhì)量短文本各500條。對所有文本分成單句并利用中文AMR解析器[16]將句子轉(zhuǎn)換為AMR。用該數(shù)據(jù)集驗證多句短文本中核心句選取與質(zhì)量評估結(jié)果的準(zhǔn)確性。

3.2 評估標(biāo)準(zhǔn)

(1) 質(zhì)量等級劃分。依據(jù)短文本質(zhì)量評估標(biāo)準(zhǔn)中句法結(jié)構(gòu)與句子序列緊密性兩個測量指標(biāo),將短文本質(zhì)量分為高、中、低三個等級,具體分類標(biāo)準(zhǔn)如表3所示。

表3 句子質(zhì)量分類標(biāo)準(zhǔn)

(2) 結(jié)果測評。句子質(zhì)量測試結(jié)果采用準(zhǔn)確率P(precision)評估。將測試集中的句子與人工標(biāo)注結(jié)果進(jìn)行比較。即測試集(句子數(shù)為N)中實驗預(yù)測正確質(zhì)量等級的句子數(shù)為n的數(shù)量,計算式為:

(6)

3.3 關(guān)系等級系數(shù)

本節(jié)通過參數(shù)訓(xùn)練集,確定各關(guān)系等級分值。等級四的值對序列緊密性無影響,故m=1,之后,將x值由0.5變化到10,間隔為0.5;以相同間隔與范圍變化y值與z值,且x+y+z=10。不同等級節(jié)點(diǎn)關(guān)系對最終的句子質(zhì)量影響不同。根據(jù)實驗結(jié)果與標(biāo)準(zhǔn)集內(nèi)的準(zhǔn)確率比較。圖5為參數(shù)值對緊密性的影響。

圖5 參數(shù)值對緊密性的影響

圖5體現(xiàn)了不同變量對匹配數(shù)量的影響。三個變量間存在固定關(guān)系,利用x與y控制z的變化。p表示匹配數(shù)量百分比??梢钥闯霎?dāng)x=5,y=3,z=2時,匹配成功率最高為75%。在所有句子中,z值對應(yīng)關(guān)系類出現(xiàn)的次數(shù)最多,當(dāng)z的值增大時低質(zhì)量評判標(biāo)準(zhǔn)提高,匹配成功的為低質(zhì)量與較少高質(zhì)量句子,隨著z值的減小,中質(zhì)量文本匹配成功數(shù)量逐漸增多。當(dāng)x值在(3,5)范圍時,隨著y值的增加,中與高質(zhì)量文本匹配成功數(shù)量增多,當(dāng)x值大于5時,隨著y值的增大,匹配數(shù)量減少,最后匹配數(shù)量再次趨于穩(wěn)定狀態(tài)。最終采用x=5,y=3,z=2,m=1的系數(shù)進(jìn)行實驗。

3.4 具體實驗

3.4.1單句質(zhì)量評估實驗

為對比單句文本質(zhì)量測評實驗效果,共設(shè)計五組對比實驗,實驗一為邱琳[1]提出長文本質(zhì)量評估的方法,實驗二為陳銘[3]提出的博文影響力與主題結(jié)合的方法,該實驗僅對文本質(zhì)量判斷,假設(shè)其他因素均相同,實驗三采用句法結(jié)構(gòu)完整性為評估標(biāo)準(zhǔn),實驗四采用句子序列緊密程度為評估標(biāo)準(zhǔn),實驗五將句法結(jié)構(gòu)完整性與句子序列緊密程度結(jié)合作為評估標(biāo)準(zhǔn)。實驗結(jié)果如表4所示。

表4 單句質(zhì)量實驗結(jié)果(%)

由表4實驗結(jié)果得出,句法結(jié)構(gòu)與句子序列緊密性結(jié)合的實驗結(jié)果準(zhǔn)確性明顯高于其他四組實驗,特別是低與中質(zhì)量評估。經(jīng)分析發(fā)現(xiàn)五組實驗的主要影響因素有主題相似值與AMR節(jié)點(diǎn)準(zhǔn)確性。主題相似值與前兩個實驗的準(zhǔn)確率密切相關(guān),AMR節(jié)點(diǎn)對實驗三(句子完整性)與實驗四(句子序列緊密性)影響較高。在實驗五中,通過句法結(jié)構(gòu)與句子緊密性相結(jié)合評估內(nèi)容質(zhì)量,文本主題對其影響較小,利用以上兩個標(biāo)準(zhǔn)對文本分析發(fā)現(xiàn):微博內(nèi)容的口語化較嚴(yán)重,含有大量的縮寫、簡寫以及網(wǎng)絡(luò)用語,影響文本內(nèi)容的主題判斷,降低句子分詞的準(zhǔn)確性。另外,低質(zhì)量數(shù)據(jù)中文本內(nèi)容主旨不明確(如例句P1)。實驗一中各評估標(biāo)準(zhǔn)主要適用于規(guī)范的長文本,在短文本中詞語一致性、文本重復(fù)率較低,主題含量少,故測試結(jié)果中高質(zhì)量文本準(zhǔn)確率較高。

實驗五的準(zhǔn)確率僅為80%。導(dǎo)致準(zhǔn)確率較低的主要原因有兩方面:原因一是復(fù)句的結(jié)構(gòu)分析錯誤,若父節(jié)點(diǎn)為謂詞,子節(jié)點(diǎn)為并列(或其他復(fù)合關(guān)系)時,分析時會認(rèn)為其結(jié)構(gòu)不完整。如在2.3節(jié)中的圖4,人工分析(x11/忘記)的受事節(jié)點(diǎn)為(x12/我),在AMR圖結(jié)構(gòu)中沒有表示。原因二是該方法對句法結(jié)構(gòu)與句子序列的緊密性簡單分析,如句法結(jié)構(gòu)中兼語等其他成分以及句子序列中詳細(xì)關(guān)系對短文本質(zhì)量的影響。

3.4.2多句質(zhì)量評估實驗

(1) 核心句選取。針對核心句的選取,本實驗選擇在數(shù)據(jù)集B中測試,使用2.4節(jié)的核心句選擇方法選取,在實驗數(shù)據(jù)中,正確率為80%,其選取錯誤的情況分為兩種:第一種,當(dāng)微博的各個句子間含有的關(guān)鍵詞較少,在計算詞向量結(jié)果時,出現(xiàn)兩句或者兩句以上的句子出現(xiàn)相同的最值,默認(rèn)選取其中第一次最值對應(yīng)的句子為核心句。第二種,在調(diào)用關(guān)鍵詞提取的工具時,關(guān)鍵詞選擇錯誤,導(dǎo)致最終核心句選取錯誤。

(2) 實驗結(jié)果。本節(jié)采用三組實驗評估多句短文質(zhì)量文本。實驗一為核心句法,實驗二為平均值法,選取所有句子質(zhì)量的平均值為短文質(zhì)量;實驗三為累加法,計算所有句子質(zhì)量之和對比結(jié)果如表5所示。

表5 核心句實驗對比結(jié)果(%)

通過表中數(shù)據(jù)可發(fā)現(xiàn),核心句法的準(zhǔn)確率為74.73%明顯高于其他兩組實驗。平均值法評估不準(zhǔn)確的原因是短文本句子數(shù)量與單句長度不均,平均值會低于某些句子結(jié)果;如例句“我非常感謝你們的新年祝福。我愛你們。開心。”短文本質(zhì)量高,其中,第一句質(zhì)量高,第二句質(zhì)量中,第三句質(zhì)量低。平均句子質(zhì)量為中,評估錯誤。累加法判斷句子質(zhì)量等級與單句數(shù)量密切相關(guān),句子數(shù)量越多,質(zhì)量越高。如將低質(zhì)量文本內(nèi)某句子重復(fù)多次后評估結(jié)果變?yōu)楦摺:诵木浞椒梢杂行П苊馍鲜鰡栴},更準(zhǔn)確地計算出短文本質(zhì)量。

4 結(jié) 語

本文依據(jù)信息熵理論提出一種以句子成分及其功能的短文本質(zhì)量的評估方法,通過分析句中簡單的謂詞結(jié)構(gòu),結(jié)合句子序列的緊密性,評估出短文本的質(zhì)量,實驗也驗證了方法的有效性。本文工作是從語法入手提出一種短文本質(zhì)量計算模型,屬于開放域短文本基礎(chǔ)性評估方法,可結(jié)合應(yīng)用領(lǐng)域拓展具體的評估應(yīng)用,如和主題語義結(jié)合的質(zhì)量評估模型使用;結(jié)合博主的微博質(zhì)量推斷其社交文化層次等,這些是進(jìn)一步的應(yīng)用研究方向。

猜你喜歡
句法結(jié)構(gòu)例句短文
KEYS
Keys
英聲細(xì)語
現(xiàn)代漢語句法結(jié)構(gòu)解讀
山西青年(2017年7期)2017-01-29 18:25:26
《基本句法結(jié)構(gòu):無特征句法》評介
好詞好句
好詞好句
好詞好句
短文改錯
短文改錯
科技| 仪陇县| 攀枝花市| 崇阳县| 民和| 福建省| 惠水县| 青海省| 岳池县| 抚顺县| 于田县| 年辖:市辖区| 同德县| 东海县| 台北县| 阳朔县| 绥芬河市| 习水县| 朔州市| 云霄县| 华容县| 五华县| 汨罗市| 聊城市| 周宁县| 个旧市| 阳西县| 正宁县| 剑阁县| 荣成市| 阜宁县| 咸丰县| 大安市| 潞城市| 吉首市| 双城市| 双流县| 巍山| 梅河口市| 义乌市| 济宁市|