樊亮,戴永,覃冰梅
(湘潭大學智能計算與信息處理教育部重點實驗室,湖南湘潭411105)
利用觸摸屏代替紙張書寫文字已是大勢所趨。在紙上書寫漢字,國人對書寫筆力[1-2]的評價有“入木三分,力透紙背”一說,在觸摸屏上書寫與在紙上書寫的筆力效果存在明顯異同性。相同之處主要表現(xiàn)在兩個方面,一是當筆力均勻時,筆畫線條輪廓清晰,筆跡著色勻稱;二是筆力輕飄時,著色不均,筆徑飄忽,兩種材質(zhì)的書寫表象基本相似。不同之處為當筆力加重時,紙張上的筆跡線條會給人行筆厚重的感覺,而觸摸屏上的筆跡線條由于筆力加重導致書寫過慢,更由于觸摸屏書寫是硬碰硬,筆力加重會造成筆尖抖動與打滑,導致書寫效果面目全非,如黑塊、波浪、繩結等書寫效果。漢字為筆畫密集型文字,負面的筆力效果會使文字圖形美感缺失,即會嚴重影響漢字書寫質(zhì)量。開發(fā)以觸摸屏為書寫材質(zhì)的文字書寫指導系統(tǒng),書寫質(zhì)量的評價是不可或缺的內(nèi)容。樊建平[3]提出從書法美學角度來分析自動生成手寫體字的結體、架構、布白等;王耀等[4]提出采用幾何方法,計算待評價字與模板字之間幾何平行度;另外文獻[5]也報道了這方面的研究成果。文字書寫質(zhì)量除了與各相關文獻報道的原因聯(lián)系密切外,對于筆畫密集型漢字,影響書寫質(zhì)量的原因更多的來自于負面的筆力效果。本文提出了一種漢字書寫筆力的模糊分析方法,并通過筆力分析實現(xiàn)對漢字書寫質(zhì)量的評價。該方法以理想筆畫形狀中包含的特征點信息作為模糊子集,隸屬度采用高斯函數(shù)計算,模板手寫漢字各筆畫的關鍵點信息的隸屬度作為模板筆力分析數(shù)據(jù),對實寫漢字各筆畫抽取特征點信息計算隸屬度,計算實寫隸屬度與模板隸屬度的貼近度,綜合筆力貼近度及其他質(zhì)量表征參數(shù)對當前書寫的漢字質(zhì)量給出評價。以隸屬度作為模板數(shù)據(jù)存儲,避免了文獻[4]中存儲模板文字的筆畫實寫筆跡數(shù)據(jù)帶來的數(shù)據(jù)臃腫的弊端。實驗表明該分析方法不但提升了評價漢字書寫質(zhì)量的水平,還可對書寫者的用筆力度進行具體指導[6-7],并能推廣到其他文種。
學習漢字書寫的人群主要有兩類,一類是中國的低齡人群,如學前班與小學學生;一類是他國或他民族人群,如孔子學院的學生等。對于低齡人群,由于其正處于發(fā)育期,心理和身體狀況都不夠成熟,寫字時難免會出現(xiàn)握筆不規(guī)范,馭筆能力差,坐姿不正確、行筆時用力不均衡、行筆速度不合理,抖動比較厲害等影響寫字效果的狀況,他國他民族學習漢字人群和本國低齡人群書寫漢字面臨的共同難點是漢字字型生疏,書寫過程復雜,筆畫類型較多等。圖1是一位六歲兒童的部分觸摸屏漢字書寫實例。
圖1 觸摸屏上手寫樣本
圖1.(a)第二筆和圖1.(b)中的最后一筆筆跡中出現(xiàn)了跳躍線段,說明書寫的過程中速度過快,觸摸筆飄了,出現(xiàn)沒有掌控好觸摸筆的現(xiàn)象。圖1.(a)中的橫畫和圖1.(b)的橫折,圖1.(d)中的橫折,筆跡有明顯抖動,說明書寫時用筆力度不均衡,使得筆尖出現(xiàn)不可預測的滑動。圖1.(c)中第二橫和第三劃撇,筆跡中出現(xiàn)了黑塊,“繩結”現(xiàn)象,采集的信息點在局部聚集,說明書寫時筆力過重導致行筆過慢,筆尖在一個較小區(qū)段內(nèi)上下抖動,即在一個小范圍反復走筆。圖1(a)由于文字筆畫少,結構寬松,雖然個別地方出現(xiàn)“輕飄”現(xiàn)象但并沒有對整個文字產(chǎn)生大的視覺影響,如果加大筆畫密度,則文字的書寫質(zhì)量會因此大打折扣。圖1.(b)所示書寫文字,無論是整體結構還是筆畫的書寫表象都是差質(zhì)的。圖1(c)、(d)文字架構較端正,但由于抖動和黑塊的出現(xiàn),而難說該文字書寫質(zhì)量好。
綜析上述書寫現(xiàn)象,筆力狀況分為三類。第一類是筆力過輕,產(chǎn)生的原因按兩種情況分類,即書寫速度過快和筆尖觸力過小;第二類是筆力均勻,即行筆時筆尖在經(jīng)過之處不因接觸滑動而產(chǎn)生多余圖素信號;第三類是筆力過重,表現(xiàn)為行筆速度過慢,筆尖抖動,行筆方向紊亂。體現(xiàn)三類狀況的書寫特點主要表現(xiàn)在關鍵點的數(shù)量與分布上,如筆力過輕過快,因為觸摸筆飄忽而不好掌控,在一條筆畫中會出現(xiàn)莫名的多余跳躍線段,過重則會無規(guī)則地出現(xiàn)數(shù)量不等的各類關鍵點等。筆力分析是評價漢字書寫質(zhì)量的重要內(nèi)容,但進行完整考量還需綜合其他因素,例如,書寫的正確性、大小、比例、偏斜等形態(tài)評價項目,這類評價實現(xiàn)可參閱相關文獻。
筆跡點信息包括實時采集獲取的所有筆跡點的有序二維坐標序列向量,筆跡點序列分別在X、Y方向的單調(diào)分析結果標注向量,關鍵點描述向量等。
1)筆跡點二維坐標向量
用P表示實時采集到的筆跡點二維坐標向量,P=[p1,p2,…pn]=[(x1,y1),(x2,y2),…(xn,yn)],X、Y方向的坐標序列向量分別表示為Px=[x1,x2,…xn],Py=[y1,y2,…yn]。
2)X、Y方向單調(diào)標注向量
設用數(shù)值1,0,-1分別表示單調(diào)遞增,單調(diào)不變,單調(diào)遞減,即一條筆畫某方向的單調(diào)標注向量為n-1個由-1,0,1元素組成的向量。令u為筆跡點某方向坐標值,φ為該方向的單調(diào)標注值,X方向和Y方向的單調(diào)標注向量的計算方法為
其中f(u)=ui-ui-1。
3)關鍵點向量
根據(jù)所分析的觸摸屏書寫特點建立8種關鍵點類型:
由筆畫關鍵點構成的集合用κ表示,κ={κlt,κrt,κrd,κld,κl,κr,κt,κd},關鍵點數(shù)目向量用N表示,N=[nlt,nrt,nrd,nld,nl,nr,nt,nd]。
圖2 關鍵點的集合特征
為進行書寫筆力分析與書寫質(zhì)量的評價,設置兩類模糊[8-10]子集。筆力分析,以筆畫中的關鍵點數(shù)目為模糊子集,論域為關鍵點數(shù),即依次出現(xiàn)κlt,κrt,κrd,κld,κl,κr,κt,κd的個數(shù),如橫對應的理想模糊子集集合為{0,0,0,0,0,0,0,0},即橫的理想幾何形狀不會出現(xiàn)任何關鍵點;橫折對應的理想模糊子集集合為{0,1,0,0,0,0,0,0},即橫折的理想集合形狀只會在折處出現(xiàn)一個右上拐點。書寫質(zhì)量評價設置優(yōu)秀、良好、中等、合格,差。論域為通過分析整個漢字所得到的模糊隸屬度,通過所得到的隸屬度的分析,可以得到書寫質(zhì)量評價的等級。
設一個漢字由K條筆畫組成,第i(i=1,2,…K)條筆畫所對應的N由如下算法獲得。
用μη表示K 條漢字筆畫關鍵點模糊模板矩陣,其中η表示文字,如式(2)所示。
μic采用高斯解析式,即
其中(i=1,2,…,K,c∈{lt,rt,rd,ld,l,r,t,d},參數(shù)a為理想筆畫的特征點個數(shù),nic為所求取的模板筆畫特征點個數(shù),取自Ni。K條筆畫對應的糊模模板矩陣μη由以下算法獲得。
評價依據(jù)為實寫文字的筆力與模板文字的筆力的貼近度。因為參與評價的不同書寫練習者的書寫基礎不同,所以采用嚴格度不同的多個評價標準來評價不同的練習者。評價標準分別為學前班,1~6年級七個標準。每個標準貼近等級設為優(yōu)秀、良好、中等、合格及差五個,各等級的書寫表象根據(jù)人們的感官效果來確定,感官效果范疇對應的模糊參數(shù)范圍,即為評價標準參數(shù)依據(jù),經(jīng)試驗確定的等級與評價參數(shù)對應關系如表1所示。
表1 評價等級與貼近度范圍對應表
其中wi(i=1,2,…,K)為基于筆畫長度的權值,通常情況下長筆畫書寫比短筆畫書寫出現(xiàn)的筆力不均現(xiàn)象要多。設l為筆畫長度,li為第i條筆畫的長度,則
因筆力過輕導致筆畫出現(xiàn)多余“跳躍線段”現(xiàn)象作為比較嚴重的筆力問題,單獨賦予較高權值,例如0.5,剩下的再按長短比例計算。模板為筆畫一條一條地寫出,系統(tǒng)有序產(chǎn)生μi(i=1,2,…,K)。每產(chǎn)生一條筆畫求一次條筆畫寫完,求wi,進而求將與等級劃分參數(shù)比較給出筆力評價。具體過程如算法3所示。
實驗平臺主要硬件模塊包括7英寸觸摸屏及S3C2440A,32bit ARM920T內(nèi)核及其控制器,標準配置64MB NAND_FLASH,標準配置64MB SDRAM等。軟件開發(fā)環(huán)境為VS2005,操作系統(tǒng)為wince 5.0,開發(fā)語言為C++。以米字格為例,書寫區(qū)域是N×M=80×80點陣。實驗字范圍為一年級上下兩冊生字,共350個,邀請了5位同學,1位小學語文老師,實驗書寫500字。每寫一個字先請老師給出評價分,然后由系統(tǒng)打分和等級評價。圖3為部分系統(tǒng)實驗結果分析圖。圖3.(a)為12歲小朋友所寫,通過式(5),將評判標準設置為一年級,得到的“大”字筆力結果為“優(yōu)秀”。圖3.(b)為一名東勝小學一年級的學生所寫,將評判標準設置為一年級,“大”字的筆力成績?yōu)椤傲己谩?,還需繼續(xù)加油練習。圖3.(c)采集于學前班5歲用戶,評判標準設置為學前班,“陽”字的筆力成績?yōu)椤皟?yōu)秀”,然后將評判標準設置為六年級,分析結果為“差”,如圖3.(d)所示。表2為圖3.(a)中“大”字的原始坐標信息,表3為“大”字的模糊模板矩陣,左邊為模板字的每條筆畫中8種關鍵點出現(xiàn)個數(shù),右邊為計算出來的模糊模板矩陣。表4為表2坐標信息經(jīng)過算法1計算之后所得到的每條筆畫中8種關鍵點出現(xiàn)的次數(shù)和經(jīng)過算法2計算后得到的模糊矩陣。
圖3 實驗效果圖
表2 圖3.(a)中“大”字的原始筆跡點數(shù)據(jù)
表2中每兩個數(shù)字為一組,分別代表x方向和y方向的坐標值,即筆跡的一個像素坐標點。P1, P2,P3分別代表“大”字的第一、二,三筆原始筆跡點數(shù)據(jù)。
表3 “大”字模板字筆畫中出現(xiàn)的關鍵點個數(shù)和模板模糊矩陣
表4 圖3.(a)中“大”字筆畫中出現(xiàn)的關鍵點個數(shù)和實寫模糊矩陣
從表1可以得知,既使評價標準設置為六年級,0.909也是屬于優(yōu)秀的范疇?!按蟆弊謱儆谝荒昙売脩羲毩暤膬?nèi)容,12歲用戶書寫較為簡單的一年級內(nèi)容,成績得優(yōu)秀也為意料之中。
表5為圖3(a)、(b)中所寫字的主觀評價分和本系統(tǒng)評價分比較。
表5 主觀與本系統(tǒng)評分比較表
表5表明,本系統(tǒng)評分和老師評分結果基本吻合,特別是圖3(a)中“生”字和圖3(b)中“羊”字,圖3(b)中“學”字,老師評分和本系統(tǒng)評分,兩個評分結果特別接近。
文獻[3]中雖然是從書法美學角度出發(fā),但只考慮了其構字的幾何屬性,沒從點信息的角度出發(fā)來評價其筆力美感。文獻[4]中的方法需存儲大量的模板字點信息,然后計算實寫字與模板字的幾何平行度,也沒涉及到質(zhì)量分析中重要的筆力分析一環(huán)。與文獻[4]相比較,除了不用存儲大量的模板信息點,從而節(jié)省了大量的存儲空間之外,也使系統(tǒng)計算量減少,從而使系統(tǒng)更加快速穩(wěn)定的運行。重要的是,所列文獻采用的評判標準都是統(tǒng)一的,而本文根據(jù)實際情況,針對不同水平的練習者,來客觀判斷其在同類人群中的成績。
在觸摸屏上書寫漢字,用筆力度直接影響漢字書寫質(zhì)量。主觀評價手寫漢字的質(zhì)量問題[11-13],受個人的教育背景,成長環(huán)境,生活閱歷等等因素影響,會導致評價結果大相徑庭,很難達到近乎一致的意見。本文介紹的手寫漢字筆畫筆力的方法具有較強的客觀性,通過該方法,可以將所有練習者的書寫結果用一個標準進行統(tǒng)一的客觀評價,這樣既避免了個人審美偏好的弊端,也達到了公平的效果。實驗表明,該方法與傳統(tǒng)主流的主觀評價結果基本相符。將該方法應用于多功能規(guī)定格式習字系統(tǒng)[12]中,起到了激發(fā)同學們在觸摸屏上練習文字書寫興趣的作用,有助于無紙化文字書寫學習方法及技術的推廣。需要說明的是,筆力分析只是評價漢字書寫質(zhì)量的一個重要組成部分,要對漢字書寫質(zhì)量全面評價,還有大小、比例、偏轉等指標,盡管如此,筆力分析的應占有較高的權值。
[1] 陳龍海.線條之美:中國書法線條語言的審美解讀[J].語文教學通訊,2011,618(2):1-4.
[2] 張燕.漢字形體美的探討和漢字教學[D].武漢:華中科技大學,2004:3-12.
[3] 樊建平.基于漢字結構碼量化傳統(tǒng)書法規(guī)則知識方法的實現(xiàn)[J].中文信息學報,1990,4(4):43-52.
[4] 王耀,戴永.規(guī)定格式文字書寫練習質(zhì)量普適評價[J].計算機工程與應用,2010,46(29):69-72.
[5] 金連文,高巖.一種基于置信度的漢字書寫質(zhì)量評價方法[P].中國,CN101630362,2009.
[6] 宋曉雷,王素格,李紅霞.面向特定領域的產(chǎn)品評價對象自動識別研究[J].中文信息學報,2010,24(1):89-93.
[7] 郭巧,陸際聯(lián).計算機輔助漢語教學系統(tǒng)中語音評價體系初探[J].中文信息學報,1998,13(3):48-53.
[8] Zadeh LA.fuzzy logic=computing with words[J].IEEE Transactions on Fuzzy Systems,1996,4(1):103-111
[9] Zadeh LA.Towards a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic[J].Fuzzy Sets and Systems,1997,19(1):111-127.
[10] Richard Cook.A Specification for CDL(Character Description Language):an extract of[PhD Dissertation][C]//UC Berkeley,Dept.of Linguistics,2003.
[11] 孔維澤,劉奕群,張敏,等.問答社區(qū)中回答質(zhì)量的評價方法研究[J].中文信息學報,2011,25(1):3-8.
[12] 戴永,劉任任,等.可聯(lián)網(wǎng)交互的多功能規(guī)定格式習字系統(tǒng)及方法[P].中國,發(fā)明專利:ZL 201010149767.2,2011.8.25
[13] 蔡黎,彭星源,趙軍.少數(shù)民族漢語考試的作文輔導評分系統(tǒng)研究[J].中文信息學報,2011,25(5):120-126.