饒 琪,王厚峰,汪夢翔,李 慧
(1. 北京大學 計算語言學教育部重點實驗室,北京 100871;2. 北京大學 計算語言學研究所,北京 100871; 3. 教育部語言文字應用研究所,北京100010)
知識庫構建在自然語言處理研究諸多分支領域中具有基石意義,是整個自然語言處理研究系統(tǒng)架構中不可或缺的組成部分。知識庫的規(guī)模與質(zhì)量很大程度上決定了自然語言處理系統(tǒng)的成敗[1],這已成為自然語言處理技術研究者和系統(tǒng)開發(fā)者的共識。但語言資源建設的核心問題:構建一個什么樣的知識庫以及怎樣構建?對此不同的語言知識工程存在顯著分歧,這可以從“WordNet、FrameNet、ConceptNet”等最具有代表性的英語知識工程的構建理念和細節(jié)方面清晰看出。漢語資源建設情況具有相似性,近年來面向中文信息處理的大型知識庫構建工作不斷得到推進,先后形成了若干具有代表性的大型知識工程:如知網(wǎng)(HowNet)、同義詞詞林(擴展版)、北京大學綜合型語言知識庫(GLKB)等,但它們卻有各自的構建側重點:1)HowNet以“義原”為基礎全局刻畫人類的概念體系;2)同義詞詞林(擴展版)以“語義”為視角實現(xiàn)漢語詞匯的同義匯集;3)GLKB則以“詞類”為綱描述詞的各種語法信息。盡管存在理念差異,但這三大漢語知識庫都是以詞為基礎構建對象的。
以詞為基礎表示單元,構建一個覆蓋面大、加工精良的漢語知識庫,能夠有效推動面向漢語的文本理解、文本生成以及自動問答等多方面研究的深入。詞是語言的基本單位,也是短語、小句、篇章等更大語言單位衍生的基礎。認知神經(jīng)研究也表明了詞在心理詞庫的表征與長時記憶存儲、提取中的基礎地位[2],事件電位相關技術(ERP)的實證調(diào)查也表現(xiàn)了對這一觀點的支持[3]。虛詞與實詞是漢語詞類的基礎兩分體系。鄭州大學構建了一個涵蓋副詞、介詞、連詞、助詞、語氣詞、方位詞,包括詞典、虛詞用法規(guī)則庫、虛詞語料庫的“三位一體”漢語虛詞知識庫[4]。實詞知識庫方面,名詞、動詞是漢語知識庫構建的重點,形容詞的關注顯得還不夠,同義詞詞林(擴展版)和北大綜合型知識庫(GLKB)雖然也對形容詞有所涉及,但前者主要從“語義”角度揭示形容詞是如何組織的,后者的形容詞部分更多追求是對“詞例”各種語法功能信息的展示,還缺乏對形容詞全景知識圖景的展示。更為遺憾的是,截止目前還未見到專門的形容詞知識庫構建情況的報道。本文主要討論與現(xiàn)代漢語形容詞知識庫(以下簡稱PAKB)構建相關的問題。
從已有的漢語大規(guī)模知識庫來看,它們出發(fā)點與落腳點多是適用于中文信息處理的,在語言學本體研究領域中難以得到充分應用。需要看到的是,漢語形容詞研究積攢了豐富的學術成果,如果這些研究構建在一個公共的、方便用來比較的資源平臺之上無疑會顯得更加客觀。例如,形容詞的重疊是漢語本體研究中的一個重要問題,重疊的類型有AA、ABB、A里AB、AABB、BBAA等,以ABB型形容詞為例,《現(xiàn)代漢語八百詞》附錄《形容詞生動形式表》、《現(xiàn)代漢語詞典》(第7版)(以下簡稱《現(xiàn)漢》)、《現(xiàn)代漢語重疊形容詞用法例釋》[5]在收錄ABB型形容詞方面就存在差異,具體情況可見表1。
表1 三種辭書ABB型形容詞的收詞情況
從表1可以清晰看出,這三種辭書在收錄ABB型形容詞數(shù)量方面存在較大的差異。無論以何種視角來介入漢語ABB形容詞重疊問題研究,對重疊現(xiàn)象層面上的觀察與把握都是首要的問題,如果每一位研究者都從調(diào)查、構建詞表開始入手,不僅費時費力,研究結論也缺乏相互的可比性。在PAKB構建目標上,我們不僅追求知識庫對中文信息處理的推動作用,也在意知識庫在漢語本體研究中的基礎平臺意義,希望構建的形容詞知識庫能夠成為漢語本體研究領域中可供比較的基礎資源數(shù)據(jù)集。
在開始討論如何構建漢語形容詞知識庫之前,有個問題需要首先予以回答: 現(xiàn)代漢語中到底有哪些形容詞?一個對現(xiàn)代漢語語料高覆蓋率、完善的形容詞詞集是構建漢語形容詞資源庫的重要前提。為了回答這一問題,我們進行了分“兩步走”的工作。
第一步是“求全”。上述問題的答案顯然來源于各類辭書,首先調(diào)查了目前出版的兩部形容詞詞典: 鄭懷德、孟慶海編撰的《漢語形容詞用法詞典》收形容詞1 067條[6];安汝磐、趙玉玲編撰的《新編漢語形容詞詞典》收詞2 268條[7],整體收詞規(guī)模較小。其次利用《現(xiàn)漢》帶詞性標注的特征,以第7版為藍本,對詞典中所收錄的形容詞進行了人工整理,共得到形容詞5 069條;同時也考察了《現(xiàn)代漢語語法信息詞典詳解》對形容詞的收錄情況,在該書中形容詞被細分為形容詞、狀態(tài)詞和區(qū)別詞三個子類,分別收有形容詞1 473個、狀態(tài)詞203個;區(qū)別詞194個。綜合這四種工具書對“形容詞”收詞情況,取它們的合集作為構建PAKB的詞條基礎。
第二步是“補全”。任何一種漢語工具書囿于其自身的局限,在事實上難以窮盡枚舉日常語言生活中所有的詞。同時行進中的語言演變也會造成“詞匯總藏”中新成員的涌現(xiàn),其中的一部分留存到語言中來,這就是得到語言的過程[8]。就形容詞來說,其中的一個子類“區(qū)別詞”(也稱之為“非謂形容詞”或《現(xiàn)漢》詞性標注體系中的“屬性詞”),如“大型、中型、小型、大中型、中小型”等是漢語新詞的一個重要“出生地”,其繁殖率僅次于名詞[9]。新的形容詞與已有的它類詞擴張出形容詞用法是現(xiàn)代漢語形容詞詞集版圖擴大的兩條最主要途徑。下面各舉一例略加說明。
先說新的形容詞,如: 【結構化】:
在《現(xiàn)漢》的“結”字頭下共收錄有53個詞,未收錄“結構化”一詞。“結構化”一詞指的是在思考、分析、解決問題時,以一定的范式或者流程順序進行,以假設為先導,對問題進行正確的界定,假設并羅列問題構成的要素,其次對要素進行合理分類,排除非關鍵分類,對重點分類進行分析,尋找對策,制訂行動計劃。如下面幾例:
例1廣東教師招聘結構化面試模擬題(29): 如何遏制幼兒園暴力事件。(http://gd.offcn.com)
例2目前各種類型的結構化金融產(chǎn)品的規(guī)模已經(jīng)達到了十多萬億元,并且這種結構化產(chǎn)品的設計思路,在鼓勵民間資金進入基礎設施領域的PPP投融資模式中得到了進一步推廣。(http://opinion.jrj.com.cn)
例3人行長春支行舉辦“我與行長面對面”結構化研討活動。(http://finance.jrj.com.cn/)
在以上三例中,“結構化”均是屬性形容詞,使用在“面試”“產(chǎn)品”“研討”等名詞前頭,對這些名詞進行次范疇的分類,用來凸顯與強調(diào)這三個名詞具有按照一定的范式、流程進行的特征。
再說已有詞形容詞用法的涌現(xiàn),如【旗艦】
例4第一個屏幕下指紋識別?三星新旗艦機Galaxy Note 8。(新浪手機,2017-6-8)
例5吉利新款旗艦轎車最新諜照,年內(nèi)將上市。(新浪汽車,2017-6-8)
例6首家全系列、全品類穗寶旗艦店國慶節(jié)盛大開業(yè)。(房天下,2016-12-1)
例7CCL是國內(nèi)最大的自然語言處理專家學者的社團組織——中國中文信息學會(CIPS)的旗艦會議……已形成了十分廣泛的學術影響,成為國內(nèi)自然語言處理領域權威性最高、口碑最好、規(guī)模最大的學術會議。(http://www.scholat.com/vpost.)
在過去,“旗艦”是一個名詞,指的是海軍艦隊司令、編隊司令所在的軍艦。艦隊一般是由多艘軍艦構成的集合,“旗艦”的名詞語義體現(xiàn)的是該軍艦在整個艦艇集中的重要性。近年來,“旗艦”可以與部分名詞組配,如以上幾例中的“~機”、“~轎車”、“~店”、“~會議”。對于生產(chǎn)廠商來說,生產(chǎn)的“手機”“轎車”也是一個集合,通常是多種多款,但它們在這個集合中的地位并不一致,“旗艦”與“手機”“轎車”等名詞組配,實際上是對這款“手機”“轎車”在整個產(chǎn)品集中重要性的一種評價,這也是人類類比認知能力對[旗艦: 軍艦]關系在不同名詞域的映射擴展,這個步驟如下:
(1) 具體: [旗艦: 軍艦]刻畫了旗艦在{ 軍艦1軍艦2, 軍艦W,……}中的重要性;
(2) 類比關系的轉域: [旗艦: 軍艦]的關系類比映射CCL在中文信息處理學會舉辦的會議集中地位、價值中來;
(3) 域的擴張: 專賣店、手機、轎車、會議;
(4) 用法的習得: 評價X在{X1,X2,XW,…}中的重要性。
從旗艦店到旗艦會議,“旗艦”的形容詞用法在廣泛使用的過程中得到不斷的強化,從而沉淀于漢語之中。最近十幾年來,漢語的載體形式發(fā)生了顛覆性的改變,網(wǎng)絡媒體正在日益成為漢語的一種重要載體形式,中國互聯(lián)網(wǎng)信息中心2017年發(fā)布的《中國互聯(lián)網(wǎng)發(fā)展狀況統(tǒng)計報告》(第39次)顯示,截止2016年12月,中國網(wǎng)民規(guī)模已達7.31億,互聯(lián)網(wǎng)普及率為53.2%。黏性極高的交互性互聯(lián)網(wǎng)應用為互聯(lián)網(wǎng)用戶提供了高強化的漢語閱讀機會與規(guī)約度降低的表達空間?;钴S于互聯(lián)網(wǎng)空間的“新詞”與“舊詞新用”給中文信息處理帶來了新的挑戰(zhàn),這意味著我們需要在知識庫構建上能夠有效對這些嶄新的語言事實予以追蹤。我們對最近十年來的新詞年度報道類工具書《漢語新詞語》(2006—2015)進行了全面的考察[10-11],手工遴選出了近年來產(chǎn)生的形容詞98個,如表2所示。
表2 新出現(xiàn)的漢語形容詞(2006—2015)
結合這兩個步驟的工作,得到了一個含有5 671個詞條的形容詞詞集。為了進一步驗證這一詞匯集的規(guī)模,我們使用了清華大學研發(fā)的中文詞法分析工具包THULAC,該分詞包具有分詞、詞性標注一體化特征。在出版物和互聯(lián)網(wǎng)兩類載體形式語料上進行了覆蓋率的考察,情況如表3所示。
表3 三類語料中形容詞詞表覆蓋情況
嚴格意義上來講,我們構建的形容詞詞庫也沒有做到完全的覆蓋,但已經(jīng)在不同類型的語料上跨越了90%的覆蓋率閾值,表現(xiàn)出了針對不同語料的一定的適用性。進一步分析原因,主要是沒有收錄若干強勢方言中典型常用的形容詞,如“苕、二、尖貨”等。
名詞、動詞、形容詞是漢語的三大類實詞,同時也是漢語從“詞庫”到“句法”得以實現(xiàn)的骨架力量。需要指出的是,部分形容詞存在兼類現(xiàn)象,與形容詞發(fā)生兼類現(xiàn)象的主要是名詞、動詞。例如,“超前”在現(xiàn)代漢語中就兼有形、動兩類詞的特征: 動詞性的如“~絕后”等,形容詞性的如“~消費、~意識、~教育”;“綠色”有名、形兩類詞的標簽,作為名詞的“綠色”指的是“綠的顏色”;而作為形容詞的“綠色”,通常指的是符合環(huán)保要求,無公害,無污染或簡便、安全、快捷的途徑或渠道,如“~食品、~經(jīng)濟、~通道”等。這在另一個側面也說明了形容詞與名詞、動詞之間的天然聯(lián)系。這一點能夠得到人類語言中詞類演化的證據(jù)支持,Heine and kuteva對跨語言中詞類的演化進行了模擬[12],如圖1所示。
圖1 詞類范疇演化圖
圖1中,可以清晰看出,作為詞類的形容詞處于名詞的下級節(jié)點中。換句話說,從歷史來源的角度上來講,語言中形容詞的涌現(xiàn)是早期名詞分化的后果。有研究者注意到“端正、豐富、密切、孤立、健全、狀大”等詞在20世紀40年代的漢語中只有形容詞義項,但從20世紀五六十年代開始起就常用作動詞[13]。我們也注意到,20世紀80年代以來,“瀟灑、清潔、方便、規(guī)范、完善、突出”等詞具有了動詞用法?,F(xiàn)代漢語中到底有哪些形容詞存在兼類現(xiàn)象,是和名詞發(fā)生兼類、還是和動詞發(fā)生兼類,或者是與名詞、動詞均發(fā)生兼類?厘清這些語言事實,對漢語本體研究以及詞性自動標注問題都具有十分重要的意義。因此在構建漢語形容詞知識庫過程中,PAKB極其注重形容詞的兼類現(xiàn)象信息的揭示。
詞類子類的出現(xiàn)反映了研究者對該詞類認識的深入。在漢語研究文獻中,存在不少術語來表征形容詞的子類體系,如簡單形容詞、復雜形容詞的兩分[9];一般形容詞、非謂形容詞的兩分[14];性質(zhì)形容詞與狀態(tài)形容詞的兩分[15]。盡管這些術語在表述上有參差,但都清晰地指出了形容詞內(nèi)部存在差異,并且這種差異可以得到真實文本里句法上的驗證。比如非謂形容詞(區(qū)別詞)在句法層面上一般只能做定語,如“活期存款”中的“活期”,在句法上如果要進入謂語的位置,是需要存在于“是……的”構式之中的,并且在句法上有一個重要的約束條件,就是它前頭出現(xiàn)的否定詞只能是“非”,不能是“不”。這些充分說明在PAKB知識庫構建的過程中需要對具體個案詞條的子類打上標簽。
長久以來,在詞類本質(zhì)問題認識上,學者們考慮較多的是句法的分布式特征,對同類詞在語義層面的共性缺乏足夠的討論。事實上,詞類一方面與句法分布表征有著密切關聯(lián),另一方面也與語義類存在對應關系,這種對應背后體現(xiàn)并反映了人類對不同語義類語法編碼的共性認知基礎。Dixon提出了鑒定形容詞的三條標準: (1)與動詞和名詞有語法上的區(qū)別;(2)語義上包括部分或全部典型形容詞的語義類型,如“維度、年齡、價值、顏色”等[16]; (3)具有充當不及物謂語和/或充任系詞補語、名詞短語的修飾語的功能。Croft在此基礎上將句法范疇、語義和語用功能結合起來,提出了句法范疇的原型關聯(lián)[17],如表4所示。
表4 句法范疇的原型關聯(lián)(引自Croft,1991)
在漢語形容詞的本質(zhì)認識問題上,我們在部分承認Croft觀點的基礎上,對漢語形容詞提出了如下的主張性認識。
(1) 句法上,漢語的形容詞與名詞具有天然的聯(lián)系。在句法層面上,形容詞幾乎離不開名詞,單獨的形容詞不具備成句的功能,除非出現(xiàn)在問答對子中。
(2) 語義上,形容詞是對名詞多維屬性中的一個側面的刻畫,對名詞多維側面中的某一維進行評價,如“大房子”中的“大”就是對具有多維屬性的“房子”在空間維度上進行評價,這是形容詞的核心本質(zhì)。
(3) 語用上,形容詞多具有情感性。正面、負面兩分并不能很好地傳導出形容詞的情感,部分形容詞的情感體現(xiàn)的是話語的態(tài)度,如“A里AB”類形容詞多體現(xiàn)話語的言說者埋怨、責怪的語氣。
(4) 非謂形容詞是以團簇的方式存在的,在語用上主要是實現(xiàn)對名詞的再分類,起到次范疇化的效果,如“男、女”永遠是相對存在。
詞具有多種信息標簽。以往研究主要關注詞的形式和意義兩端,這種觀察無疑生發(fā)在靜態(tài)層面,而動態(tài)的語用通常會賦予詞幾何維度上的信息,從而建構起詞的整體知識圖景。詞的信息標簽以外顯和內(nèi)隱的方式存在: 外顯是能夠被直接感知的,如韻律、結構、高熟悉度的語義等信息;內(nèi)隱是需要進一步挖掘才能獲得的信息,如頻率、情感、語體、極性等信息。這也是我們所需要知道和最大程度上試圖表示出來的信息,同時也是計算機所需要配備用來學習的知識庫。PAKB試圖從多個層面來展示漢語形容詞的知識全景。
PAKB對現(xiàn)代漢語形容詞形式層面特征的刻畫主要包括語音、音節(jié)數(shù)、重疊形式、語義、重疊情感、語體表現(xiàn)等六個方面。在漢語的形容詞詞匯集中,不少的形容詞存在“語體”使用偏置現(xiàn)象,胡明揚從語體風格方面區(qū)分了形容詞在口語和書面語中功能上的差異[18]。比如“哀戚”,就是一個典型的只使用于漢語書面語的形容詞,但更多的形容詞表現(xiàn)出書面語、口語兩可的分布,如“哀傷”。有關形容詞“語體”信息的標簽是已有的漢語大規(guī)模知識庫所未有刻畫過的,同時也可以為自動問答研究提供有效的口語形容詞匯集。綜合起來,漢語形容詞知識庫的形式特征集刻畫示例如圖2所示。
上文中,我們提出了形容詞的核心本質(zhì)是對名詞的某一側面維度進行評價。進一步從跨語言的角度來觀察,不同語言里形容詞數(shù)量上存在多寡的差異。尼日利亞的伊博語是已報道出來的形容詞數(shù)量最少的語言,只有八個,分別是“大”“小”“黑(暗)”“白(明)”“新”“老”“好”“壞”。據(jù)Bhat考察顯示,在形容詞數(shù)量較少的語言中,如Supyire語10個,Bamha語約20個,Luganda語約30個,Acoli語約40個,Kilivila語約50個,Sange語約60個[19]。盡管這些語言形容詞數(shù)量較少,但仍然對名詞評價、刻畫了如下的屬性:
圖2 漢語形容詞知識庫形式特征示例(前20)
(1) 維度: 大、??;高、低;寬、窄;深、淺;長、短;粗、細;厚、?。?/p>
(2) 價值: 好、壞、純潔、好吃;
(3) 年紀: 新、老( 舊) 、小( 年輕);
(4) 物理屬性: 硬、重、光滑;
(5) 顏色: 紅、白、黑;
(6) 速度: 快、慢、迅速。
這說明了這些抽象概念的表征具有跨語言的共性,這些有限的抽象概念可能是詞匯組織與表征的重要指針。大腦究竟如何安置詞匯和概念? 最近的一項研究利用985個英語常用詞匯來繪制大腦的“語義地圖”[20],這項研究表明,并不存在一個單獨的大腦區(qū)域來儲存一個詞匯或者概念與許多相關詞匯存在聯(lián)系,而是每一個單獨詞匯會點亮許多不同的大腦位置,形成了一張詞匯匯聚網(wǎng)絡。研究結果一共識別出12個簇群(clusters),其中每個簇群均保存著與特定概念相對應的詞語,這些詞語以相關的方式存在。比如,大腦左邊,耳朵小面積區(qū)域代表著單詞“受害人(victim)”,同時這塊區(qū)域會對諸如“殺害(killed)”“宣告有罪(convicted)”“謀殺(murdered)”“認罪(confessed)”有反應。
從早期漢語的“幽、黃、黑、白、赤、大、小、多、少、新、舊、高”等12個單音形容詞到今天漢語里面數(shù)量幾千的形容詞[21],書面語的高度發(fā)達催生了漢語中形容詞數(shù)量幾何級數(shù)的增長。在PAKB的形容詞如何分類組織的問題上,我們是以名詞為觀察視點,將表征與共享了相同“概念空間”的形容詞看成是“自組織”性的簇。舉個例子,漢語里面存在數(shù)量眾多的形容女性外貌的詞,如單音節(jié)的“美”;雙音節(jié)的“美麗,好看,漂亮”;四音節(jié)的“楚楚動人、閉月羞花、沉魚落雁、冰清玉潔、粉妝玉琢、國色天香、國色天姿、驚鴻一瞥、明眸皓齒、明眸善睞”等(限于篇幅,不能夠列舉出所有的詞)。這些形容女子外貌的詞構成一個自組織的集,“美”在這個集合中是最常用的代表者。與形容女子外貌的集相比較,漢語里面用來形容男子外貌的詞在數(shù)量上就要少得多,如單音節(jié)的“帥”;雙音節(jié)的“英俊、瀟灑”,以及通用性的“好看”;四音節(jié)的“一表人才、眉清目秀、氣宇軒昂、風流倜儻、高大威猛 、溫文爾雅”等 ,在這些詞語中,“帥”是該集合的代表。
我們以常用的現(xiàn)代漢語單音節(jié)形容詞,以及PAKB中形容詞解釋的元語言作為指針。同時也結合了認知中注意力機制(attention mechanism),需要指出的是,這里的注意力機制與通常意義上“深度學習”中的注意力機制不同,事實上,機器學習中的這一術語也借用自視覺圖像認知領域。在這里引入“注意力機制”是想說明: “名詞”通常具有不同的側面維度,但漢語的使用者在觀察、刻畫名詞的這些不同側面的時候,總會將注意力聚焦在幾個有限的維度之上。比如“房子”,人們注意的焦點一般都是“空間的大小、價格、地段價值、舒適程度”等幾個維度。這幾種維度的注意力將名詞映射到形容詞之中,就會構成“大房子、豪宅、交通方便、空氣好”等“形+名”或“名+形”組配上。因此,我們在構建PAKB的過程中,以“名詞”為觀察視點,構建了一個形容詞所表征的抽象概念體系:
(1) 人: 外貌、性格、氣質(zhì)、品德、情緒、態(tài)度、關系、年紀;
(2) 物: 價值、作用、評價、水平、垂直;
(3) 事: 性質(zhì)、狀態(tài)、結果;
(4) 時間: 長短、快慢、性質(zhì);
(5) 空間: 大小、長短、寬窄、高底、遠近、深淺、厚?。?/p>
(6) 感官: 視覺、味覺、嗅覺、聽覺、觸覺;
(7) 心理: 哀、愁、煩、恨、羞、愧、驚、慌、驕。
在上面這個分類體系下,我們對PAKB中所有的形容詞進行了人工的分類與聚類。
詞匯通常會在更加抽象的語言能力層面上構建起一個涵蓋范圍極廣的知識庫,主要包括語音知識、詞義知識、詞類范疇知識、句法知識、形態(tài)知識以及與論元組配的可能與限制等方面。語言使用者通過基于概率的統(tǒng)計學習來學得這一知識庫,因此這一知識庫兼具有公共性和個體性: 公共性指的是對于某一語言來說,這個詞匯的知識庫的構成是基于所有語言使用者的經(jīng)驗浮現(xiàn),對單一的語言使用者來說具有不可逆轉性;與此同時,個體對于知識庫學得的情況又不盡相同,有程度的深淺和范圍寬窄的區(qū)分。但個體的詞匯知識庫源自并服從于集體的詞匯知識庫。一項來自英語個人詞匯知識庫如何構建的研究表明: 在隨機游走學習過程中,詞能和什么樣的論元,以及與不同類型論元分布式搭配情形,在長期記憶中會以概率框架的抽象形式留下痕跡,并且與單詞的頻率水平呈現(xiàn)出正相關,在高頻效應的催化下這種記憶痕跡會得到加強[22]。沿著這一思路來理解漢語形容詞劃分,會看到不一樣的風景,形容詞及其毗鄰成分的共現(xiàn)刻畫是漢語形容詞資源庫構建中重點關注的問題,具體包括兩看: 一看給定的形容詞能夠和什么名詞組配;二看給定的名詞能夠與什么形容詞組配,如圖3、圖4所示。
圖3 漢語形容詞知識庫搭配特征示例(前20)
圖4 漢語名詞聯(lián)想示例(前20)
從業(yè)已構建的現(xiàn)代漢語形容詞知識庫來看,并非所有的形容詞都能夠重疊。在整個形容詞知識庫中,觀察到1 212個形容詞是可以重疊的: 在227個單音節(jié)形容詞中, 可以重疊的有114個,約占50%;在985個雙音節(jié)形容詞中,309個是可以重疊的,約占31%。由于雙音節(jié)形容詞遠遠多于單音節(jié)形容詞,所以總的來看, 可以重疊的形容詞約占形容詞總數(shù)的35%。形容詞重疊問題是面向本體的漢語形容詞研究中的一個重要問題,全面調(diào)查清楚漢語形容詞中到底哪些是可以重疊的,哪些是不能夠重疊的,不僅是觀察漢語形容詞重疊式語法意義的一個基本點,也可以為后續(xù)的有關形容詞研究提供可以用來比較的基礎資源平臺。表5是結合北京大學的《人民日報》標注語料中230個形容詞重疊的頻率,取其中的前十位示例。
表5 漢語形容詞重疊使用情況表
近年來,智能問答已成為自然語言處理中的一個熱門研究領域。在如何讓計算機模擬人進行對話的問題上,已經(jīng)有多種方法、手段介入。但由于現(xiàn)代漢語口語資源的相對稀缺,還未見到有報道針對性地使用自然口語中的對話語料作為訓練集。在構建PAKB知識庫的過程中,我們采樣了20MB的自然口語對話語料,用來對知識庫中形容詞的語體性質(zhì)進行輔助判斷,在這個過程中,我們發(fā)現(xiàn)漢語的書面語形容詞與口語形容詞存在著交集,也存在著差異。但與漢語書面語相比較,自然口語對話中,形容詞主要存在于:(1)說A不A,說B不B; (2)那叫一個A;(3)要多A有多A;(4)還能再A點嗎;(5)要不這么A;(6)是有多A等六種類型的構式之中,在20M自然口語語料中的分布情形如圖5所示。
圖5 形容詞在自然口語構式中的分布情況
語言是一個精密的邏輯自洽系統(tǒng),蘊涵其間的“經(jīng)濟原則”提醒了這個系統(tǒng)不會有一個多余的詞,因此嚴格意義上的“等價詞”是不存在的。Schmitt(1998) 將詞匯知識定義為六個方面: (1)形式;(2)詞義(包括同義、反義、上下義);(3)語法圖景;(4)搭配信息;(5)使用;(6)語體風格與語域限制[23]。對應的認為,語言使用者的詞匯能力分為感知能力與產(chǎn)出性能力,前者對應了語言理解,后者對應了語言表達。在詞匯感知上包括詞匯的深度和詞匯量,詞匯的產(chǎn)出則包括詞匯的寬度和質(zhì)量,體現(xiàn)了構成語篇的能力。PAKB能夠在最大程度上顯示某一抽象概念空間下漢語形容詞集,這對于基礎教育領域中作文教學具有參考價值。
過去這些年的自然語言處理研究每一次大的進展與飛躍,都再一次強調(diào)了通過人工構建的方式為計算機提供有效的語言知識庫的重要性。但是,從中文信息處理的終極目標——計算機能夠“理解漢語”與“表達漢語”來看,讓計算機初步具有類人的語言使用能力現(xiàn)在看來仍是一件具有非常挑戰(zhàn)性的事情。目前計算機處理自然語言的能力僅僅停留在“處理”層面,還遠不能達到“理解”的水平,未來的任務艱巨且充滿挑戰(zhàn)。這在一個側面說明了,有必要對已有的漢語資源構建的理念、方式、規(guī)模與手段進行檢討。從這個意義上來說,本文的工作可以看成是一種初步的嘗試,試圖在局部層面上模擬人類是如何使用語言的,為計算機構建一個與人腦更接近的可以用來增強學習、預測學習的漢語形容詞資源庫。
[1] 俞士汶,段慧明,朱學峰,等. 綜合型語言知識庫的建設與利用[J].中文信息學報,2004,18(5): 1-10.
[2] 楊亦鳴,張珊珊,劉濤等. 綜合型語言知識庫的建設與利用[J].語言科學,2006, 5(3): 3-13.
[3] 張珊珊,楊亦鳴. 從記憶編碼加工看人腦中的基本語言單位-一項基于單音節(jié)語言單位的ERPs研究[J].外語與外語教學,2012,11(2): 1-6.
[4] 昝紅英,張坤麗,柴玉梅,等.現(xiàn)代漢語虛詞知識庫的研究[J].中文信息學報,2004, 21(5): 107-111.
[5] 王國璋,等.現(xiàn)代漢語重疊形容詞用法例釋[M].北京: 商務印書館,1996.
[6] 鄭懷德,孟慶海.漢語形容詞用法詞典[M].北京: 商務印書館,2003.
[7] 安汝磐,趙玉玲.新編漢語形容詞詞典[M].北京: 經(jīng)濟科學出版社,2004.
[8] Pinker S. Language Instinct: How the Mind Creates Language[M]. New York, NY: Harper Perennial Modern Classics, 2007.
[9] 呂叔湘,饒長溶.試論非謂形容詞[J].中國語文,1981,10(2): 81-85.
[10] 周薦.2006漢語新詞語[M].北京: 商務印書館,2007.
[11] 侯敏,周薦.2007漢語新詞語[M].北京: 商務印書館,2008.
[12] B Heine,T Kuteva.The genesis of grammar: A Reconstruction [M]. Oxford: Oxford University Press, 2007.
[13] 郭伏良.新中國成立以來漢語詞匯發(fā)展變化研究[M].保定: 河北大學出版社 ,2001.
[14] 朱德熙.現(xiàn)代漢語形容詞研究[J]. 語言研究,1956,1(1): 1-37.
[15] 朱德熙.語法講義[M].北京: 商務印書館,1982.
[16] R Dixon. Adjective classes in typological perspective[M]. R Dixon & A. Aikhenvald (Eds. )Adjective Classes.Oxford University Press,2004: 1 - 49.
[17] W Croft. Syntactic Categories and Grammatical Relations: The Cognitive Organization of Information [M]. Chicago, The University of Chicago Press, 1991.
[18] 胡明揚.語體與語法[J].漢語學習,1993, 10(2): 1-4.
[19] Bhat D N S, Word classes and sentential functions[M]. Comrie, B. (Eds.), Approaches to the Typology of Word Classes. Berlin, Mouton de Gruyter, 2000: 47-63.
[20] Alexander G Huth, et al,Semantic information in natural narrative speech is represented in complex maps that tile human cerebral cortex[J]. Nature. 2016,532(7600): 453-458.
[21] 楊逢彬.關于殷墟甲骨刻辭的形容詞[J].古漢語研究,2001,13(2): 63-69.
[22] D Kemmerer,et.al. Behavioral patterns and lesion sites associated with impaired processing of lexical and conceptual knowledge of actions[J]. Cortex. 2012,48(7): 826-848.
[23] Schmitt. N. Tracking the incremental acquisition of second language vocabulary: A longitudinal study [J]. Language Learning, 1998, 48(2): 281-317.
E-mail:wanghf@pku.edu.cn