朱淑琴,沈雨辰
(北京聯(lián)合大學(xué)師范學(xué)院,北京 100011)
新聞漢語句式系統(tǒng)
朱淑琴,沈雨辰
(北京聯(lián)合大學(xué)師范學(xué)院,北京 100011)
新聞漢語是國際漢語教學(xué)中一門重要課程,新聞中有一些固定句式和常用句型,掌握這些句式能有效提高新聞文本的閱讀能力。從現(xiàn)有新聞漢語教材中進(jìn)行整理收集,構(gòu)建新聞漢語句式庫,基于自然語言處理技術(shù)實現(xiàn)對這些句式的自動識別,為了方便用戶查詢搜索以及句式管理,設(shè)計開發(fā)可視化的框架句式管理平臺。
新聞漢語;句式;自然語言處理;可視化管理平臺
近年來,中國的快速發(fā)展吸引了全球目光,各國與中國的經(jīng)濟(jì)往來越來越頻繁,出現(xiàn)越來越多漢語學(xué)習(xí)者。而新聞漢語學(xué)習(xí)能夠讓漢語學(xué)習(xí)者接觸到最新、最流行的漢語,通過閱讀新聞漢語也能夠很好地了解中國文化。新聞漢語是適應(yīng)新聞交際需要而形成的特殊漢語體式,它跟日??谡Z交際的日常漢語不太一樣,它是漢語書面語的一種特殊表現(xiàn)形式。新聞有一些固定句式和常用句型,如“以……為指導(dǎo),深入貫徹……觀,總結(jié)……經(jīng)驗,提出……要求,做出……部署”等政論文最常見的套話,掌握這些套話能有效提高新聞的閱讀能力。
句式結(jié)構(gòu)對于外國留學(xué)生語漢語學(xué)習(xí)者理解句義、培養(yǎng)語感,具有事半功倍的作用,也能夠間接提高學(xué)生的應(yīng)試能力[1-3]。中文書籍的特點是“兩多”,即框架結(jié)構(gòu)多,長句多。而框架結(jié)構(gòu)相對于長句來說,無論是在本體方面的研究,還是在對外漢語教學(xué)方面的研究仍存在著欠缺之處,因而也有待于我們在句式框架結(jié)構(gòu)的研究進(jìn)一步深入探索。
本文從現(xiàn)有新聞漢語教材課后習(xí)題或者語言點中進(jìn)行整理收集,構(gòu)建框架句式庫,在此基礎(chǔ)上采用自然語言處理技術(shù)進(jìn)行框架句式的自動識別和獲取,并開發(fā)可視化的框架句式管理平臺,方便用戶查詢搜索以及句式管理。
本文搜集了大量的新聞漢語教材,并將教材課后習(xí)題或者語言點中句式進(jìn)行整理,創(chuàng)建句式表,將句式相關(guān)信息填入表中,句式信息如表1所示:
表1 句式信息表
每項信息都是依照參考書目中的句式提取下來的,數(shù)據(jù)信息按照書名進(jìn)行排序,最終概覽如圖1所示。
在句式庫的基礎(chǔ)上采用自然語言處理技術(shù)進(jìn)行句式的自動識別,利用正則表達(dá)式為句式逐一編寫規(guī)則,并且逐條驗證。正則表達(dá)式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符,及這些特定字符的組合,組成一個“規(guī)則字符串”,這個“規(guī)則字符串”用來表達(dá)對字符串的一種過濾邏輯[4]。
本文將句式表中的句式表達(dá)式分為三類:短句、詞組、漢字。短句的結(jié)構(gòu),類似“令人擔(dān)憂的是……”字?jǐn)?shù)稍多,并且在句式中間不能加入別的任何字;詞組的結(jié)構(gòu)與短句相似,例如“一旦……”但是為了結(jié)果的準(zhǔn)確,會在這種句式的前(或后)加上一些限制;最后一種漢字,是編寫時最為困難的,要一步步的剔除與這個字能組成詞語的其他字,一般情況下,漢字不單獨組成句式,可以與漢字、詞組或者短句組成類似“像……一樣”這種結(jié)構(gòu)的句式。
圖1 句式庫信息概覽圖
表2 句式分類
從表2可以看出短句類常用句式的正則表達(dá)式就是其自身,因為字?jǐn)?shù)多,所以不會產(chǎn)生其他相似的匹配結(jié)果。相比于短句而言,詞組類句式表達(dá)式就復(fù)雜一些了,要將詞語作為成語或常用短語中的情況排除,以防匹配出的信息不準(zhǔn)確。很明顯地可以感覺到漢字類句式表達(dá)式比之前兩種的都長了很多,這是因為單個漢字可以組成大量的詞語,在匹配時會出現(xiàn)搜尋到包含這個漢字的詞組,所以要將這些情況一一清除,所以漢字類的表達(dá)式才會這么多。與漢字或詞組相關(guān)聯(lián)的單詞都是從專業(yè)的詞典中查詢得到的。
在前面新聞漢語句式數(shù)據(jù)庫的基礎(chǔ)上,本文開發(fā)可視化的句式管理平臺,將數(shù)據(jù)庫信息可視化,實現(xiàn)框架句式搜索功能,方便用戶查詢搜索以及管理員后臺管理句式[5]。
3.1 角色定義
管理員是指對網(wǎng)站進(jìn)行開發(fā)和維護(hù)的人員,這個角色可以在后臺執(zhí)行登錄,當(dāng)管理員進(jìn)行登錄操作后,可以進(jìn)行用戶管理、句式管理和網(wǎng)站管理。在對用戶進(jìn)行管理的時候可以執(zhí)行修改信息和刪除用戶信息;可以對已有句式進(jìn)行查找或修改不正確內(nèi)容,刪除重復(fù)句式,添加句式(不可重復(fù)添加);隨時發(fā)布系統(tǒng)公告或維護(hù)信息,查看用戶反饋信息,完善網(wǎng)站。管理員信息存在數(shù)據(jù)庫中,在網(wǎng)頁上不能直接注冊。管理員功能用例如圖2所示:
圖2 管理員功能例圖描述
圖3 用戶功能例圖描述
用戶是指網(wǎng)站的主要面向?qū)ο?,也就是網(wǎng)站的使用者,在執(zhí)行完登錄之后,可以對自己查看的句式信息進(jìn)行意見反饋,一般的游客可以瀏覽網(wǎng)站,查看已有句式的信息,但不能對句式進(jìn)行意見反饋,其他部分都可以進(jìn)行操作。信息檢索部分,可以輸入想要查找的句式的關(guān)鍵字進(jìn)行模糊查詢。句式識別時,可以輸入一句話或者一段文字。用戶功能用例如圖3所示。
3.2 具體實現(xiàn)及效果
(1)句式管理:管理員登錄后臺系統(tǒng)之后,可以對查看所有句式,對句式進(jìn)行修改,刪除所選句式,并且可以添加新的句式。句式信息表分為:常用句式、句式釋義、作者、頁碼、出處、發(fā)布時間等相關(guān)信息字段。句式管理界面如圖4所示:
圖4 句式管理
(2)句式搜索:網(wǎng)站的搜索功能主要是面向用戶,打開搜索界面后能夠能夠看到所有的句式,當(dāng)用戶想要查找某個特定句式時,就可以利用模糊搜索功能找到需要的句式。具體界面如圖5所示:
圖5 句式搜索
(3)句式識別:用戶提供需要檢測的短文,可以在短文中識別出常用句式,如圖6所示:
圖6 句式識別界面
句式識別核心實現(xiàn)代碼如下:
本文從現(xiàn)有國際漢語教材課后習(xí)題或者語言點中進(jìn)行整理,收集大量句式信息,構(gòu)建框架句式庫;在此基礎(chǔ)上采用自然語言處理技術(shù)進(jìn)行句式的自動識別和獲取,利用正則表達(dá)式為句式逐一編寫規(guī)則;并開發(fā)可視化的框架句式管理平臺,方便用戶查詢搜索以及句式管理。
[1]張娟.國內(nèi)漢語構(gòu)式語法研究十年[J].漢語學(xué)習(xí),2013(02):65-77.
[2]Jing He,Weiming Peng,Jihua Song,and Hongzhang Liu.Annotation Schema for Contemporary Chinese Based on JinXi Li’s Grammar System[A].Proceedings of The 14th Chinese Lexical Semantics Workshop.CLSW2013[C].Beijing:Springer,2013,668-681.
[3]彭煒明,何靜,宋繼華.句本位語法圖解析句系統(tǒng)的設(shè)計與實現(xiàn)[A].項潔.數(shù)位人文研究叢書5——數(shù)位人文研究與技藝[C].臺灣:國立臺灣大學(xué)出版中心,2014,195-210.
[4]Yan Zhang,Jihua Song,Xue Zhu,Weiming Peng.The identification of Grammar Points in International Language Teaching Materials Based on Sentence-based Annotation[A].Proceedings of 2014 International Conference of Educational Innovation through Technology. EITT 2014[C].CPS,2014,29-36.
[5]梅峻韜,宋麗紅,董靜.面向移動終端和Web的智能自習(xí)室管理系統(tǒng)[J].現(xiàn)代計算機(jī)(專業(yè)版),2015(21).
News Chinese Sentence Pattern System
ZHU Shu-qin,SHEN Yu-chen
(Teachers'College of Beijing Union University,Beijing 100011)
News Chinese is an important course in the international Chinese teaching.There are some fixed sentence patterns in the news text.Mastering these sentence patterns can effectively improve the reading ability of the news text.Collects fixed sentence patterns from the existing Chinese teaching textbooks,constructs the database of news Chinese sentence pattern,and realizes the automatic recognition of these sentence patterns based on natural language processing technology.In order to facilitate the user to search and manage the sentence patterns,designs and develops a visual management platform for the sentence patterns.
New Chinese;Sentence Pattern;Natural Language Processing;Visual Management Platform
1007-1423(2016)33-0073-04
10.3969/j.issn.1007-1423.2016.33.017
朱淑琴(1978-),女,碩士,研究方向為中文信息處理
2016-09-20
2016-11-18