国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于多屬性模糊決策的英文韻律短語邊界預測方法

2019-01-10 06:40:32汪丹丹
關(guān)鍵詞:詞類詞頻決策樹

汪丹丹

(安徽城市管理職業(yè)學院 信息工程系,合肥 230011)

語音合成技術(shù)作為人工智能技術(shù)的典型代表,現(xiàn)已廣泛應用于生活的各個領(lǐng)域.韻律短語邊界預測作為語音合成系統(tǒng)文本分析前端的核心模塊,關(guān)系著語音合成系統(tǒng)的效果和體驗.

現(xiàn)階段,英文韻律層次的劃分一般采用ToBI標準[1-2],分別記音素間的間隔為LP邊界、單字詞間的間隔為L0邊界、隱詞組間的間隔為L1邊界、次詞組間的間隔為L2邊界、主詞組間的間隔為L3邊界、子句間的間隔為L4邊界,以及句子間的間隔為L5邊界,共七個層次.超音段特征會隨著韻律層次的不同而有所區(qū)別,主要體現(xiàn)在三個方面:一是停頓時間;二是層次后邊界音節(jié)的時長變化;三是層次后邊界音節(jié)的調(diào)域和均值的變化.考慮到L2和L3在這三方面的表現(xiàn)比較相近,標注人員很難根據(jù)聽感人工精確標注出來,因此,在人工標注階段、訓練階段和預測階段,通常都將L2記為L3,不作區(qū)分.

L3邊界預測方法是以決策樹為基礎(chǔ)的預測方法,但這種方法有自身局限性,其訓練數(shù)據(jù)的均衡性以及決策算法本身無法達到全局最優(yōu).為了改善預測效果,本文在傳統(tǒng)的決策樹方法之上,將決策樹使用的聚類屬性與模糊決策相結(jié)合,提出通過多屬性模糊決策方法,來預測英文L3邊界.

模糊決策是以模糊集合論為基礎(chǔ),融合了決策理論,重點處理模糊現(xiàn)象[3].本文以模糊決策方法為基礎(chǔ),采用多屬性模糊決策方法成功地解決了L3邊界預測問題.實驗表明,使用這種方法的L3邊界預測效果比基于決策樹的預測方法的效果有較大提升,F(xiàn)-Score由64.4%提升到69.3%,不可接受率也從28.6%降低到21.4%.

1 傳統(tǒng)的基于C4.5決策樹的L3邊界預測方法

英文語音合成系統(tǒng)的文本分析前端一般包括詞典詞和非詞典詞的預處理、L1邊界劃分、L3邊界預測、L4語調(diào)預測等.L3邊界預測是在L1邊界劃分基礎(chǔ)上,通過判斷各個L1邊界是不是L3邊界來進行分類.這是比較典型的分類問題,所以通常L3邊界預測都是采用傳統(tǒng)而有效的決策樹的方法來實現(xiàn).

決策樹的具體實現(xiàn)方法有很多,其中C4.5決策樹采用ID3算法作為核心算法,通過數(shù)據(jù)屬性從大規(guī)模的數(shù)據(jù)中挖掘規(guī)律,規(guī)律則以C4.5決策樹的形式來表示.本文基線系統(tǒng)即是采用此方法搭建的[4],其輸出屬性為{PL1,PL3},輸入屬性為:

(1)前前詞的詞頻,前詞的詞頻,當前詞的詞頻,后詞的詞頻,后后詞的詞頻;

(2)前前詞的詞類,前詞的詞類,當前詞的詞類,后詞的詞類,后后詞的詞類;

(3)前前詞含有的L0數(shù)目,前詞含有的L0數(shù)目,當前詞含有的L0數(shù)目,后詞含有的L0數(shù)目,后后詞含有的L0數(shù)目;

(4)前前一個L1的長度(指L1中含有的單詞數(shù)),前一個L1的長度,當前L1的長度,后一個L1的長度,后后一個L1的長度.

根據(jù)PL1和PL3的大小即可判斷該L1邊界是不是L3邊界.

2 基于多屬性模糊決策的預測方法

傳統(tǒng)的基于決策樹的預測方法屬于數(shù)據(jù)驅(qū)動方法,人工只能在屬性篩選環(huán)節(jié)進行干預,難以使用專家經(jīng)驗.因此,本文在使用基線系統(tǒng)屬性的基礎(chǔ)上,提出多屬性模糊決策的方法,通過三角模糊數(shù)理論[5-6]對模糊語言型的屬性值賦值,決策者只需以模糊語言形式提供較少信息,系統(tǒng)就能輸出更為合理的結(jié)果.

2.1 三角模糊數(shù)

(1)

式中,μ(x)表示元素x屬于a∧的真實程度,當aL=aM=aU時,則三角模糊數(shù)a∧蛻化為一實數(shù).

2.2 多屬性決策

多屬性決策是在獲取到相關(guān)一組可能的決策結(jié)果后,對這組結(jié)果進行擇優(yōu)排序[7-8].多屬性決策可以使用不同的算子來實現(xiàn),本文使用了OWGA算子[9]:

(2)

(2)對各L1邊界的決策結(jié)果xi(i∈N)進行歸納匯總,并通過OWGA算子計算其多屬性決策值zi(w):

(3)

(4)對各L1邊界的多屬性決策值zi(w)進行排序,選出最優(yōu)解對應的L3邊界劃分結(jié)果.

3 實驗

3.1 標注數(shù)據(jù)庫

基于中國日報(China Daily)近三年的新聞?wù)Z料,本文建立了一個包含11 027句英文句子的L3標注數(shù)據(jù)庫.其中,L3邊界共有29 177個,L1邊界共有50 269個.

在此基礎(chǔ)上,本文將標注數(shù)據(jù)庫分為了兩部分,一部分用于訓練,占總數(shù)據(jù)的絕大部分,共10 027句;剩余部分用于測試,約占總數(shù)據(jù)的十分之一,共1 000句.測試數(shù)據(jù)又隨機地分為了兩半,一半用于客觀測試,另一半用于主觀測試,各500句.

針對客觀測試,本文選用了F-Score作為評價指標:

(4)

而針對主觀測試,本文選用不可接受率作為評價指標,即選取了三名英語專業(yè)八級水平的實驗員對L3邊界的預測結(jié)果進行判斷,確定可接受還是不可接受.

3.2 實驗結(jié)果

通過對比測試發(fā)現(xiàn),使用多屬性模糊決策的新系統(tǒng)相對基線系統(tǒng)而言,在500句客觀測試集上的F-Score由64.4%提升到69.3%,其中召回率得到了較為有效的提升,由63.6%提升到70.9%,由此可以判斷新系統(tǒng)預測出了更多的合理的L3邊界劃分結(jié)果.

另外,主觀測試方面,新系統(tǒng)與基線系統(tǒng)相比,不可接受率從28.6%降低到了21.4%(見表1).這也在一定程度上說明了多屬性模糊決策的L3邊界決策結(jié)果更為合理.

表1 實驗結(jié)果

4 結(jié)語

本文在英文L3邊界預測中,將決策樹使用的聚類屬性與模糊決策相結(jié)合,提出通過多屬性模糊決策方法來預測英文韻律短語邊界.與基于決策樹的預測方法相比,F(xiàn)-Score由64.4%提升到69.3%,不可接受率也從28.6%降低到21.4%,基于目前的標注集與測試集,該方法在一定程度上具有有效性.

但考慮到很多句子(特別是單詞數(shù)較大的句子)L3邊界的答案是多樣化的,因此F-Score不能完全客觀的體現(xiàn)不同方法的性能,重點還是要看主觀測試指標不可接受率,后續(xù)可以考慮一些工程化的手段來改善系統(tǒng)的不可接受率,比如適當降低常用短語內(nèi)部邊界是L3邊界的概率等.

猜你喜歡
詞類詞頻決策樹
基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
用詞類活用法擴充詞匯量
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
基于語料庫“隱秘”的詞類標注初步探究
從成語中學習詞類活用
決策樹和隨機森林方法在管理決策中的應用
電子制作(2018年16期)2018-09-26 03:27:06
基于決策樹的出租車乘客出行目的識別
基于“字本位”理論再談漢語詞類問題
詞頻,一部隱秘的歷史
云存儲中支持詞頻和用戶喜好的密文模糊檢索
垣曲县| 彭水| 贺兰县| 天柱县| 汕头市| 津南区| 江都市| 富民县| 伊宁市| 长宁区| 六枝特区| 津南区| 宜丰县| 鲁甸县| 汝南县| 获嘉县| 连江县| 东台市| 旅游| 富民县| 湖南省| 文登市| 襄垣县| 当雄县| 武宁县| 综艺| 菏泽市| 乡宁县| 新龙县| 邯郸县| 茂名市| 墨玉县| 阜阳市| 昭平县| 馆陶县| 肇州县| 茂名市| 长顺县| 丰顺县| 龙井市| 肇庆市|