北京大學計算語言學研究所研制的綜合型語言知識庫(Comprehensive Language Knowledge Base,簡稱:CLKB)繼近幾年連續(xù)獲得政府部門和全國性學術團體的獎勵之后,更上一層樓,又獲得2011年度國家科學技術進步獎二等獎(證書號:2011-J-220-2-02)。第一完成人俞士汶教授參加了今年2月14日在北京舉行的國家科學技術獎勵大會。
始于1986年歷時26年CLKB 的研發(fā)歷程大致可劃分為3個階段。第一階段前10年(1986-1995)的任務是探索奠基,標志是其第一塊基石《現(xiàn)代漢語語法信息詞典》1998年獲教育部科技進步二等獎。第二階段的中間11年(1996-2006)為構建落成階段,CLKB于2007年通過教育部組織的技術鑒定并獲教育部科技進步一等獎。第三階段(2007至今)則進一步拓展、深化。在此期間CLKB 于2008年獲北京技術市場金橋獎二等獎,于2010年又獲中國電子學會電子信息科學技術獎一等獎。
獲得國家獎的CLKB包括6個語言知識庫、10項規(guī)范與標準、4個核心基礎軟件和4個應用系統(tǒng),它們相互支撐,形成一個緊密聯(lián)系的有機整體。語言知識庫是CLKB的主體,主要有:(1)現(xiàn)代漢語語法信息詞典,(2)漢語短語結構規(guī)則庫,(3)現(xiàn)代漢語多級加工語料庫, (4)多語言概念詞典, (5)平行語料庫, (6)多領域術語庫。CLKB的系列化語言知識庫涵蓋詞、詞組、句子、篇章各個語言單位和詞法、句法、語義各個知識層面,從漢語向多語言輻射,從通用領域深入到專業(yè)領域。
CLKB中的規(guī)范和論著被廣泛引用,數(shù)據(jù)資源的免費用戶數(shù)以萬計。自1996年以來的簽約用戶遍布美、日、德、法、俄、英、韓、瑞典、新加坡和中國大陸、臺灣、香港,包括從事相關研究的著名企業(yè)、大學和研究所。最近的一項技術轉讓協(xié)議于2012年2月簽訂。CLKB生命期之長在IT領域實屬罕見,而且仍在發(fā)展中。
感謝業(yè)界先進、同仁和用戶長期以來對CLKB的支持和關愛,衷心期望大家繼續(xù)關注和扶植“綜合型語言知識庫”?!秶抑虚L期科學和技術發(fā)展規(guī)劃綱要(2006-2020)》將基于自然語言理解的中文信息處理列為前沿技術,昭示了語言信息處理有廣闊的發(fā)展空間。期望“綜合型語言知識庫”在以漢語為中心的語言信息處理技術的發(fā)展歷程中發(fā)揮更多、更有效的作用。特別感謝中國中文信息學會和《中文信息學報》對CLKB的支持?!吨形男畔W報》這塊園地為“綜合型語言知識庫”的成長提供了沃土,有關“綜合型語言知識庫”的很多論文都在《中文信息學報》上發(fā)表。擇其要者,介紹CLKB的最新論文《綜合型語言知識庫及其前景》作為特邀文章發(fā)表于《學報》為慶祝中文信息學會成立30周年而組織的???2011年第25卷第6期)上?!冬F(xiàn)代漢語語法信息詞典規(guī)格說明書》最先發(fā)表于《學報》1996年第2期,為“綜合型語言知識庫”的問世發(fā)出了第一聲吶喊。“北京大學現(xiàn)代漢語語料庫基本加工規(guī)范”在《學報》2002年第5期和第6期上連載,該文又經(jīng)《學報》推薦,獲中國科學技術協(xié)會第四屆中國科協(xié)期刊優(yōu)秀學術論文獎。此外,十分榮幸,俞士汶教授榮獲中國中文信息學會于2011年底頒發(fā)的 “終身成就獎”。