李瑞 邢延超
摘要:對(duì)演示文稿布局的評(píng)價(jià)有助于篩選出好的布局。本文提出一種基于深度學(xué)習(xí)的演示文稿布局評(píng)價(jià)算法。首先對(duì)演示文稿內(nèi)容屬性分類,將樣本劃分成網(wǎng)格,并獲取網(wǎng)格的相應(yīng)屬性作為輸入數(shù)據(jù)集。將主觀評(píng)價(jià)得分作為主要參考,訓(xùn)練出自動(dòng)評(píng)價(jià)布局質(zhì)量的神經(jīng)網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果中網(wǎng)絡(luò)準(zhǔn)確率為0.551,加入容限后準(zhǔn)確率可進(jìn)一步提升。
關(guān)鍵詞:深度學(xué)習(xí);網(wǎng)格;演示文稿;布局質(zhì)量
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)33-0195-02
非專業(yè)人員制作的演示文稿普遍存在不美觀的問題,而對(duì)布局質(zhì)量的自動(dòng)評(píng)價(jià)限制了自動(dòng)布局工具的有效性。這方面已有部分相關(guān)研究。Harrington等通過結(jié)合屬性的啟發(fā)式算法來對(duì)自動(dòng)布局的美學(xué)進(jìn)行度量,主要包括設(shè)計(jì)規(guī)則及其線性組合。BuhrM等依據(jù)文章的大小及優(yōu)先級(jí)和重量分布兩項(xiàng)美學(xué)標(biāo)準(zhǔn)研究人工神經(jīng)網(wǎng)絡(luò)在報(bào)紙布局美學(xué)評(píng)價(jià)中的應(yīng)用。YangXuYong等設(shè)計(jì)一個(gè)與雜志主題相關(guān)的布局模板和繼承高層次美學(xué)原則和低級(jí)圖像特征的計(jì)算框架。這些工作對(duì)于演示文稿的質(zhì)量評(píng)價(jià)缺乏針對(duì)性,本文提出一種基于網(wǎng)格和深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)演示文稿布局質(zhì)量進(jìn)行評(píng)價(jià)的算法。
1深度學(xué)習(xí)數(shù)據(jù)集生成
利用Python凹中的Office文檔處理控件,分析訓(xùn)練幻燈片每一頁中的對(duì)象樹,提取包括對(duì)象形狀類型(如文本、圖片)、對(duì)象高度、對(duì)象寬度、對(duì)象位置等信息。
1.1正負(fù)樣本獲取
將專業(yè)網(wǎng)站下載頻率較高的演示文稿作為正樣本,將正樣本隨機(jī)打亂得到負(fù)樣本。隨機(jī)打亂的原則:對(duì)象不月越界;對(duì)象組整體移動(dòng);對(duì)象盡量避免重疊。正負(fù)樣本的比例為1:5。
1.2輸入數(shù)據(jù)集生成
卷積神經(jīng)網(wǎng)絡(luò)要求輸入節(jié)點(diǎn)數(shù)相同,無法直接將幻燈片元素信息作為輸入。本文將每張幻燈片劃分為網(wǎng)格,提取網(wǎng)格屬性,作為神經(jīng)網(wǎng)絡(luò)輸入。
1.2.1確定網(wǎng)格大小
本文演示文稿設(shè)為寬度960、高度540磅。網(wǎng)格數(shù)量會(huì)對(duì)訓(xùn)練樣本數(shù)、訓(xùn)練時(shí)間、訓(xùn)練精度等產(chǎn)生影響。需要在網(wǎng)格精度、準(zhǔn)確性、訓(xùn)練時(shí)長間折中。確定網(wǎng)格數(shù)目時(shí)應(yīng)權(quán)衡兩個(gè)因數(shù)。圖1中曲線1表示訓(xùn)練精度隨網(wǎng)格數(shù)目收斂的曲線,曲線2代表訓(xùn)練時(shí)間隨網(wǎng)格數(shù)目變化的曲線。最終,網(wǎng)格數(shù)量選擇76x100,在保持較高精度時(shí)減少訓(xùn)練時(shí)間。
1.2.2確定網(wǎng)格屬性
演示文稿元素包括文本、圖表以及一些形狀,文本又分為標(biāo)題、正文等類型等。將頁面劃分成網(wǎng)格時(shí),網(wǎng)格屬性包括背景、標(biāo)題、副標(biāo)題、文本、圖表、重疊、其他。確定網(wǎng)格屬性的過程:一、獲取元素位置,判斷與哪些網(wǎng)格相交,相交的占比超過50%認(rèn)為該網(wǎng)格處于形狀內(nèi)。二、確定當(dāng)前形狀所包含網(wǎng)格的屬性。三、將所有處于該形狀內(nèi)的網(wǎng)格的屬性添加到對(duì)應(yīng)的網(wǎng)格屬性列表中。四、遍歷所有元素,根據(jù)網(wǎng)格屬性列表確定最終網(wǎng)格屬性。五、頁面中所有的網(wǎng)格屬性寫入CSV文件中,每行保存一張頁面的所有網(wǎng)格屬性。
1.3輸出數(shù)據(jù)集生成
深度學(xué)習(xí)輸出為對(duì)演示文稿中幻燈片整體布局質(zhì)量的評(píng)價(jià)得分。本文通過普通用戶對(duì)正負(fù)樣本進(jìn)行打分形成輸出數(shù)據(jù)集的方法,打分區(qū)間為O到9分。用戶針對(duì)當(dāng)前顯示的頁面進(jìn)行打分,將分?jǐn)?shù)寫入CSV文件中。演示文稿與CSV文件對(duì)應(yīng)關(guān)系為一個(gè)CSV文件對(duì)應(yīng)一個(gè)演示文稿,CSV文件中每行數(shù)據(jù)對(duì)應(yīng)相應(yīng)的頁面得分。
2深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練
為了充分提取到特征,采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。卷積神經(jīng)網(wǎng)絡(luò)輸入為網(wǎng)格廚陸,輸出為布局質(zhì)量得分。訓(xùn)練樣本數(shù)為153962,輸人數(shù)據(jù)經(jīng)過MinMaxScaler歸一化。卷積層和隱藏層激活函數(shù)選ReLu,輸出層激活函數(shù)選softmax,損失函數(shù)選交叉熵函數(shù),優(yōu)化器選擇SGD隨機(jī)梯度下降法,學(xué)習(xí)率選擇0.1,卷積核大小為5×5,每批次項(xiàng)數(shù)128,訓(xùn)練周期200。
影響神經(jīng)網(wǎng)絡(luò)訓(xùn)練準(zhǔn)確性的因素主要有卷積層數(shù)、隱藏層的層數(shù)與節(jié)點(diǎn)數(shù)。卷積層的主要作用是使用卷積核進(jìn)行特征提取和特征映射,伴隨著卷積層數(shù)增加,特征提取更加充分,但是到達(dá)某一臨界點(diǎn)之后,繼續(xù)增加卷積層不但不會(huì)提取到更多的特征信息,反而會(huì)降低訓(xùn)練準(zhǔn)確度,增加訓(xùn)練時(shí)間。增加隱藏層數(shù)可以降低網(wǎng)絡(luò)誤差、提高精度,但增加了網(wǎng)絡(luò)的訓(xùn)練時(shí)間和出現(xiàn)“過擬合”的傾向,增加隱藏層的節(jié)點(diǎn)數(shù)來獲得較低的誤差,其訓(xùn)練效果要比增加隱藏層數(shù)更容易實(shí)現(xiàn)。
首先,確定神經(jīng)網(wǎng)絡(luò)卷積層數(shù)。隱藏層節(jié)點(diǎn)數(shù)為512時(shí),改變卷積層數(shù)分別進(jìn)行訓(xùn)練。經(jīng)過實(shí)驗(yàn)可得:當(dāng)卷積層層數(shù)為2層,卷積核個(gè)數(shù)為16/32時(shí),提取到的特征信息較少,準(zhǔn)確率比較低;當(dāng)卷積層層數(shù)為4層,卷積核個(gè)數(shù)為16/32/64/128時(shí),準(zhǔn)確率沒有卷積層為3層時(shí)準(zhǔn)確率高,而且訓(xùn)練時(shí)間長。因此,卷積層數(shù)選擇3層,每層卷積核個(gè)數(shù)為16/32/64。
其次,確定隱藏層層數(shù)及節(jié)點(diǎn)數(shù)。卷積層選擇3層,卷積核個(gè)數(shù)為16/32/64,分別改變隱藏層層數(shù)和節(jié)點(diǎn)數(shù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)表明,隱藏層層數(shù)為1節(jié)點(diǎn)數(shù)為896時(shí),測(cè)試準(zhǔn)確率最高,準(zhǔn)確率為0.551。因此,隱藏層的層數(shù)選擇1層,節(jié)點(diǎn)數(shù)選擇896。
最終確定的對(duì)PPT布局質(zhì)量進(jìn)行打分的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
在該卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)下,選擇153962個(gè)樣本進(jìn)入該網(wǎng)絡(luò)進(jìn)行訓(xùn)練,網(wǎng)絡(luò)在訓(xùn)練了大約150個(gè)epoch后,準(zhǔn)確率和損失率基本保持不變。
3深度神經(jīng)網(wǎng)絡(luò)測(cè)試
3.1網(wǎng)絡(luò)加入容限
由于不同的用戶對(duì)于完全相同布局的演示文稿也會(huì)有不同的得分,因此,卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)出的得分處于一定的容限內(nèi)也應(yīng)該認(rèn)為正確。容限是神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)值與真實(shí)值之間的差距。加入容限后,可以得到網(wǎng)絡(luò)的預(yù)測(cè)精度。準(zhǔn)確度容限為1、2、3時(shí)的訓(xùn)練結(jié)果如表3所示。準(zhǔn)確度容限為1時(shí),測(cè)試準(zhǔn)確率比不加容限時(shí)上升了0.258;準(zhǔn)確度容限為2時(shí),測(cè)試準(zhǔn)確率比容限為1時(shí)上升了0.072;準(zhǔn)確度容限為3時(shí),測(cè)試準(zhǔn)確率比容限為1時(shí)上升了0.039。隨著容限的增加,卷積神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率的上升速率明顯減緩。
4總結(jié)
本文采用網(wǎng)格和深度學(xué)習(xí)相結(jié)合的方法對(duì)演示文稿的布局質(zhì)量進(jìn)行評(píng)價(jià)得分,測(cè)試準(zhǔn)確率為0.551。加入容限為1后,準(zhǔn)確率上升為0.809;加入容限為2后,準(zhǔn)確率上升為0.881;加入容限為3后,準(zhǔn)確率上升為0.920。表明網(wǎng)絡(luò)預(yù)測(cè)方向是正確的,但是預(yù)測(cè)精度需要增加。本文只針對(duì)演示文稿的布局進(jìn)行評(píng)價(jià),沒有考慮顏色和諧。下一步工作是提升預(yù)測(cè)精度的同時(shí)將演示文稿顏色信息添加到輸人數(shù)據(jù)集中,對(duì)顏色和諧程度進(jìn)行評(píng)價(jià),形成一個(gè)完整的評(píng)價(jià)體系。