張國強
辭書編纂需要處理的信息量大,故而對善于數(shù)據(jù)處理的計算機技術有著迫切需求。
目前,計算機技術處理數(shù)據(jù)的能力和表現(xiàn)形式,已經(jīng)從依靠“蠻力”發(fā)展到了智能時代。這里所謂的“蠻力”,指的是計算機能以極快的計算速度作檢索、比對、處理等,但這種檢索、比對、處理尚處于一種初級階段,僅是作“機械”處理,而基本不涉及“智能”的范疇;而所謂的“智能”,則是指計算機利用高速的運算能力,具有初步的理解、分析、判斷、推理等能力,即計算機能夠“模擬類似于人類的某些智能活動和功能”[1]1558。
相應地,計算機技術在辭書編纂中的運用,也應當從借助于“蠻力”的階段進入依賴于智能的階段。
回顧一下不太久遠的歷史,我們可以清楚地了解到,借助于計算機的“蠻力”,我們利用計算機技術尤其是數(shù)據(jù)庫技術,使辭書編纂的效率得到了前所未有的提高。筆者十幾年前曾寫《數(shù)據(jù)庫化的辭書編纂》一文,提到利用數(shù)據(jù)庫技術來提高辭書編纂效率的設想,包括“在辭書編纂中充分運用數(shù)據(jù)庫技術,根據(jù)辭書的性質(zhì)和辭書編纂工藝的特點,將詞目、對應外文、注音、釋文、作者、資料來源等有關信息有組織地存入數(shù)據(jù)庫內(nèi),利用數(shù)據(jù)庫技術檢索信息快捷、數(shù)據(jù)冗余度低、可避免數(shù)據(jù)的不一致性等特點,對諸如內(nèi)容編寫、匯總合并、參見核查、交叉處理、數(shù)據(jù)檢索、瀏覽修訂、條目編排、索引制作等辭書編纂、出版中的有關信息進行處理,目的是縮短辭書編纂周期,提高編纂效率,提升辭書質(zhì)量,減輕工作強度”[2]。
經(jīng)過努力,上述設想在辭書編纂實踐中不僅均已得到體現(xiàn),并且還有進一步的發(fā)展。例如,目前正在使用的“《辭?!肪幾胂到y(tǒng)”,除了可以實現(xiàn)上述應用外,還在專項檢查等方面細化需求,提供了更多的功能,如“歷史紀年檢查”“參見落實檢查”“古今地名檢查”“成套詞檢查”“書證檢查”等。這些具體應用或功能,不僅在目前《辭?!罚ǖ谄甙妫┮约捌渌麑?圃~典的編纂過程中取得了很好的效果,而且在可預見的未來,還將對辭書編纂效率的提高繼續(xù)起到積極而明顯的作用。
“人工智能”也稱“計算機智能技術”,其定義目前尚有很多種,而據(jù)《辭海》“人工智能”條,這是指“研究用機器(主要指計算機)模擬類似于人類的某些智能活動和功能的學科?!饕芯浚簡栴}解決和演繹推理、學習和歸納過程、知識表征、語言處理、專家系統(tǒng)、智能機器人、自然程序編制等”[1]1558。通俗地說,人工智能“就是要讓機器的行為看起來就像是人所表現(xiàn)出的智能行為一樣”[3]。
智能時代的計算機技術能給辭書編纂帶來什么樣的變化呢?從辭書編纂的角度來講,哪些智能化應用是應當留意或加以實現(xiàn)的呢?關注這些問題,對辭書編纂有十分重要的意義。
就“智能”而言,涉及的范圍非常廣,包括思維、意識、規(guī)劃等諸多艱深的領域。目前,人工智能技術主要體現(xiàn)在智能模擬以及視覺識別、語音識別、運動控制等幾個方面,而與辭書編纂有比較密切關系的大致是智能模擬,包括自然語言處理、大數(shù)據(jù)處理、文本挖掘、知識發(fā)現(xiàn)、智能問答、自動推理(包括規(guī)劃和決策)以及深度學習、神經(jīng)網(wǎng)絡等。
所謂“自然語言處理技術”,是指通過計算機技術來實現(xiàn)自然語言的理解和自然語言生成,以及大數(shù)據(jù)處理和文本挖掘。自然語言的理解包括內(nèi)容提?。ê谋痉诸惡途垲悾┑?;自然語言生成包括內(nèi)容概括、自動文摘等;大數(shù)據(jù)處理和文本挖掘則指利用合適的工具,對廣泛的異構(gòu)數(shù)據(jù)源進行抽取與集成,進而進行技術分析,提取、推測出有價值的信息或知識。例如,利用自然語言處理技術,我們可以在辭書編纂中的詞目選收、機器人撰稿、機器人問答等方面得到人工智能的幫助,取得單純依靠人力所不能獲得的信息、文本和速度等,從而在“獲得知識、使用知識、表示知識”(這也正是辭書應該為讀者提供的功能)方面做出一番前人囿于技術而無法做到的事情。通過人工智能的運用,我們可以使計算機技術在辭書編纂中的運用進入到一個更高的層面,展現(xiàn)出看似具有智能的行為。
通過基于自然語言處理的文本分析技術等手段,人工智能技術可以在辭書編纂中實現(xiàn)如下應用目標。
“詞目”是一部辭書的綱目。詞目選收是否合理,是決定辭書質(zhì)量的關鍵因素之一。從古至今,大概沒有一部辭書可以做到收詞不精而全書質(zhì)量較高的。辭書收詞是否精到,很重要的一點就是要把那些在特定收詞范圍之內(nèi)(如某種??圃~典所應反映的某一學科范圍之內(nèi))的,并且使用頻度高(基本上也就是查閱頻度高,兩者間有著很大程度上的正相關關系)的詞語全部網(wǎng)羅。那么,如何做到這一點?傳統(tǒng)的做法是依靠人的經(jīng)驗進行人工判斷、選擇,但單純依靠人工難免有遺珠之憾,如一部著名的大型百科詞典就漏收了“出版社”“電視臺”“硬盤”“芯片”“論文”等重要詞目。
自然語言處理所用到的分詞技術,可以較好地解決這一問題。
所謂“分詞技術”,就是利用計算機將句子“拆分”為“詞”的技術。由于中文不像西文那樣詞與詞之間有空格,因此中文的分詞是自然語言處理中的難點之一。然而,目前各種中文分詞技術取得了長足的進步,已進入到可以實際應用的階段。利用日臻完善的分詞技術,我們就可以進行高頻詞語的統(tǒng)計,從而在選取辭書詞目時做到對高頻詞語不遺漏。這在目前的辭書編纂中可以說是提高收詞質(zhì)量最有效的方法之一。
另外,通過對數(shù)據(jù)采集的范圍、時間等參數(shù)的設置,我們可對不同的情況進行分析。如縮小采集數(shù)據(jù)的時間范圍,我們就可以收集到該段時間的“熱詞”,進行甄別、分析后,決定是否要作為詞目收入。
在內(nèi)容快速迭代的互聯(lián)網(wǎng)時代,加快詞條編纂的速度,對辭書的競爭力有著舉足輕重的作用。要加快詞條編纂的速度,利用“撰稿機器人”來編纂某些類型的辭書條目,是一個有效的途徑。所謂“撰稿機器人”,就是根據(jù)一定的算法自動生成稿件的計算機程序。目前,“撰稿機器人”已經(jīng)在財經(jīng)、體育方面的一些分支領域開始應用,主要是完成相關新聞稿的寫作。如2015年9月,騰訊財經(jīng)就發(fā)布了由“新聞寫作機器人”在一分鐘內(nèi)生成的《8月CPI同比上漲2.0% 創(chuàng)12個月新高》新聞稿。類似的情況在國外發(fā)生得更早些,2014年就有報道宣稱“美聯(lián)社開始使用一種新聞書寫軟件代替人力,自動撰寫有關公司財報的新聞”[4]。當然,“撰稿機器人”目前還僅運用于一些消息類的新聞稿寫作,在其他類型的新聞稿件(如人物專訪、事件背景深度挖掘報道等)寫作中尚不能作為主力擔綱。
辭書條目的體裁具有“格型性”特點,恰恰與消息類新聞稿具有很多抽象意義上的相似性,如都具有一定的層次模式,都采用類似“倒金字塔”的結(jié)構(gòu),都有一定的必備元素及其表述格式,都采用注重客觀描述事實、很少帶有主觀評價和個人情感色彩的“政論語體”等。因此,利用自然語言處理中的自動文摘系統(tǒng),研制、訓練出符合辭書編纂基本要求的“撰稿機器人”來撰寫事實類條目(如事件條目、人物條目、機構(gòu)條目、天文地理客體條目、物件條目等)是完全可能的。目前在高校的碩士、博士論文中,有這方面的大量研究。如有的研究課題,就是主要針對互聯(lián)網(wǎng)上的事件網(wǎng)頁信息,開發(fā)一個完整的基于事件的多文檔自動文摘系統(tǒng),該系統(tǒng)能夠自動獲取事件內(nèi)容,并從互聯(lián)網(wǎng)上選取相關的事件信息,壓縮成事件的自動文摘,提交給用戶。[5]自動文摘通常具有的特點是:第一,能將原文的主題思想或中心內(nèi)容自動提取出來。第二,自動提取出來的文本具有概括性、客觀性、可理解性和可讀性。第三,可適用于多個領域。這與我們編寫事實類辭書條目的做法是多么相近。因此,假以時日,專門用于辭書編纂的“撰稿機器人”一定會面世。
辭書本身就是一類專供查閱、釋疑解惑的工具圖書,其基本特點之一就是提供知識服務。與傳統(tǒng)的紙質(zhì)辭書相比,數(shù)據(jù)庫時代的數(shù)字化辭書所提供的這種知識服務,借助數(shù)據(jù)庫、計算機等軟硬件,在知識檢索速度上有了飛速的提高,在檢索的便利性方面也有了極大的發(fā)展,尤其是支持通配符的組合查詢,使得基于結(jié)構(gòu)化查詢語言(SQL)的各種檢索條件幾乎都可得到滿足。
到智能時代,數(shù)字化辭書的知識服務又將有本質(zhì)性的拓展,知識服務的價值鏈可以延伸,形成“知識服務系統(tǒng)”。所謂“知識服務系統(tǒng)”,是指在某一知識領域,圍繞某一專題或知識點,聚集相關知識,形成知識節(jié)點,為用戶提供較為系統(tǒng)、全面的知識。實際上,在“提供知識”這一點上,“知識服務系統(tǒng)”與傳統(tǒng)的辭書有著天然的一致性,只是在提供的方式、效率、范圍、深度等方面有差別?!爸R服務系統(tǒng)”能夠提供的內(nèi)容更為豐富,提供的知識更為全面、系統(tǒng),呈現(xiàn)的方式更為靈活。比如,以“知識圖譜”的呈現(xiàn)方式可以描述各種概念、知識之間的語義關系。又如,與“語音識別系統(tǒng)”結(jié)合,則可開發(fā)出類似IOS系統(tǒng)中Siri這樣的智能問答機器人,能即時分析問題,并自動匹配到最佳答案后反饋給用戶。
另外,結(jié)合自然語言處理技術,開發(fā)精準的搜索引擎也是題中應有之意。例如,當我們搜尋作為一個作家的“魯迅”時,諸如“魯迅路儲蓄所”之類的弱相關信息就應該放在搜索結(jié)果的末尾或直接屏蔽掉。采用“內(nèi)容動態(tài)重組”技術,則又可以根據(jù)用戶需要,將數(shù)據(jù)庫中的有關知識臨時組合,系統(tǒng)、全面、有層次地向用戶展示。
如前所述,我們在“《辭?!肪幾胂到y(tǒng)”中已經(jīng)能夠完成諸如“歷史紀年檢查”“參見落實檢查”“古今地名檢查”“成套詞檢查”“書證檢查”等編校功能。但這些功能還是基于計算機的“蠻力”做簡單機械的匹配,尚未達到智能化階段。目前一些通用的校對軟件,“雖然可以通過采用大規(guī)模詞庫和重點詞監(jiān)控等技術對漢語文本中的常見錯誤進行審校,對文本審校起到較大的助益,在一定程度上降低了人工審校的工作量,但仍存在一些不足與局限性,集中表現(xiàn)在以下方面:(1)算法的局限性;(2)詞庫更新機制的局限性;(3)產(chǎn)品架構(gòu)的局限性”[6]。從人工智能的角度而言,未來的“智能輔助編校系統(tǒng)”應該具備如下功能:在運用大數(shù)據(jù)分析和自然語言處理、神經(jīng)網(wǎng)絡、深度學習等技術的基礎上,不僅通過比對,也模仿人的推理邏輯,自動發(fā)現(xiàn)文稿中字詞、語法、語義、常用數(shù)據(jù)、知識性甚至引文、格式、遵循相關技術標準方面的錯誤,并提出修改建議。這從表現(xiàn)形式來看,與現(xiàn)在通用的校對軟件略有相似,但其背后是人工智能技術的支撐,因而功能應當更為強大、靈活(超越字詞校對的層次),效率更高,適應性更強。
以上所述,主要是著眼人工智能技術運用于辭書編纂的外部表現(xiàn)。還有一些人工智能技術的運用將主要與辭書編纂內(nèi)在的(即后臺的)數(shù)據(jù)處理有關,如非結(jié)構(gòu)化文本的動態(tài)標注、圖像識別等,因其對辭書編纂的影響不是那么顯性地面向編輯或用戶,此處姑且從略。
辭書編纂需處理的信息繁復,因而對以數(shù)據(jù)處理見長的計算機技術有著天然的需求。借助自然語言處理、大數(shù)據(jù)處理、文本挖掘以及深度學習、神經(jīng)網(wǎng)絡等人工智能技術,可以使計算機技術在辭書編纂中的運用進入到一個更高的層面,實現(xiàn)提高辭書詞目選收質(zhì)量、加快辭書編纂速度、豐富辭書服務手段、形成更多編纂工具等應用目標。這對辭書編纂的實踐、理論、產(chǎn)品乃至用戶都會產(chǎn)生深遠的影響。
當然,與數(shù)據(jù)庫技術不同,人工智能技術目前仍處于起步階段,其發(fā)展路徑、技術突破、影響的范圍及深度目前還難以預測或精確把握。因此,其對辭書編纂的影響也存在著很大的有待于進一步探索的空間,需要有志于此的相關各方持續(xù)關注,使這一議題得到更具實效的討論,并在辭書編纂的具體應用上開展更為有效的工作。