文/趙建平 陳建新 穆杰 李永虎
因為對新技術的一知半解,無形中強化了屏幕取詞的難度,很多人對屏幕取詞和翻譯技術望而卻步。但是隨著互聯(lián)網(wǎng)信息技術的發(fā)展普及,各種藏文網(wǎng)站、軟件產(chǎn)品和網(wǎng)頁等不斷涌現(xiàn),在網(wǎng)絡信息的獲取中,我們隨時隨地都會瀏覽搜索到各種各樣的藏文網(wǎng)絡資源,在應用這些資源時,很可能遇到一些生僻的藏文詞語,因此藏文屏幕取詞和翻譯技術已成為近些年軟件開發(fā)的熱門項目。目前日臻成熟的中英文屏幕取詞和翻譯技術已經(jīng)在生活中逐漸普及,給我們的生活帶來了實質性的幫助,以此為鑒開發(fā)藏文屏幕取詞和翻譯軟件技術,能優(yōu)化用戶的閱讀效率,促進文化的發(fā)展與傳播。
屏幕取詞與翻譯是基于Windows系統(tǒng),而Windows的所有應用程序都是通過應用程序編程接口進行系統(tǒng)功能調用的,屏幕取詞相關的字符顯示程序也不例外。在Windows系統(tǒng)中,能通過Win32子系統(tǒng)中的gdi32.dll來截取系統(tǒng)對四個API函數(shù)的調用以進行屏幕取詞。所以,要實現(xiàn)屏幕取詞必須要注重兩個方面,其一是要截獲某個系統(tǒng)對Text等API函數(shù)的調用,通過自定義函數(shù)對目標函數(shù)進行內部調用,并將目標函數(shù)的結果作為自定義函數(shù)結果返還給目標進程。其二是需要分析截獲函數(shù)的入口參數(shù)等,得到要截取的詞。一般來說,為了截獲到目標函數(shù),Win32操作系統(tǒng)都會保留2-4GB的地址空間由Win32的所有進程共享。
截獲系統(tǒng)要對API函數(shù)進行調用有兩種方式:
(1)直接改寫API函數(shù)的內存映像,在其中嵌入?yún)R編代碼,使其調用時能調到指定的地址運用以便截獲;
(2)改寫輸入地址表(IAT),通過重新定向API函數(shù)的調用來截獲信息。總的來說只有打破進程邊界,在目標進程中輸入需截獲的API代碼,才能截獲API函數(shù)調用。
從屏幕取詞與翻譯的性能來看,其關鍵技術的核心內容包括兩個部分,即藏漢文詞典庫與藏文分詞信息。要對屏幕上選擇和截獲的詞語進行翻譯就需要查詢多語種詞典庫,經(jīng)過查詢后的結果就是翻譯的最終結果。所以,為了實現(xiàn)多語種、多內容的翻譯,詞典庫的數(shù)據(jù)必須要包含學科術語、語言種類、語法詞匯信息、例句、讀音、詞性等基本需求,這些信息是否完善直接關系到屏幕取詞和翻譯系統(tǒng)的適用范圍和使用價值。因為是藏文屏幕取詞,所以相關詞典庫至少需要具備藏漢英三種語言,除了基本的詞匯表達外,還需要包括特殊詞匯、人名地名等相關信息。
在不同的上下文組合中,同一個詞匯會有不同的詞性和詞意,此時即便是通過屏幕截取了詞語,也不一定能準確判斷詞匯的詞性詞意。為了掌握詞匯的組合性與交集性,減少詞匯歧義的出現(xiàn),就需要利用藏文自動分詞的方法對捕獲截取的文本做分詞,以確定目前截取詞匯的真實意義。一般來說,藏語詞匯由一個或多個音節(jié)組成,其詞語的序列構成了藏文的句子和語塊,但由于藏文格助詞的連續(xù)特征,如主格、屬格、于格通常與前詞緊密黏結,因此所有音節(jié)在按字預切分之時,還需對黏結詞的音節(jié)進行預切分。
要完成對目標函數(shù)的尋找和修改,從而實現(xiàn)屏幕取詞與翻譯,就必須依賴于以下兩種技術的應用:
Win32進程的私有空間地址只有0-2GB,且所有進程的地址空間都是相對獨立的,要實現(xiàn)屏幕取詞,就要利用鉤子技術打破進程邊界,突破空間獨立性。鉤子技術的本質是Win32系統(tǒng)中用于處理系統(tǒng)消息或者特定程序的函數(shù),它能通過系統(tǒng)調用掛入到系統(tǒng)中。根據(jù)消息監(jiān)管范圍的不同,鉤子技術能分為線程局部與系統(tǒng)全局鉤子兩類,線程局部只能監(jiān)視本進程中的指定線程,全局鉤子的監(jiān)視范圍可以擴展到當前系統(tǒng)運行的所有線程,而在藏文屏幕取詞中所用到的是系統(tǒng)鼠標鉤子。相比其他鉤子技術而言,鼠標鉤子需要提供一個位于動態(tài)鏈接庫中的鼠標鉤子回調函數(shù),系統(tǒng)會在安裝完成后將這個動態(tài)鏈接庫加載到進程的私有空間內,這樣在每次移動鼠標的時候,系統(tǒng)就會調動輸?shù)翥^子來回調函數(shù),當鼠標停留在屏幕某一處一定時間,就會自動截取鼠標所處位置的藏文。
利用PE文件來截獲目標函數(shù)是常見的屏幕取詞技術之一,其主要內容包括Win32中的EXE和DLL文件。PE文件格式定義了多個數(shù)據(jù)結構,其應用范圍十分廣泛,包括文件保存代碼、數(shù)據(jù)、輸入輸出的函數(shù)等相關信息,而利用這些結構也能便于操作PE文件。前文提到截獲API函數(shù)調用的關鍵是修改輸入地址表,而PE文件中的.idata節(jié)就包含了相關的DLL數(shù)據(jù)及函數(shù)信息。利用PE文件修改輸入地址表以截獲API函數(shù)需要涉及進程私有地址空間中的DLL板塊,包括NT攝像頭、定位輸入表等相關內容,通過改變進程中私有空間的目標函數(shù)調用,以實現(xiàn)目標函數(shù)調用的截獲。
綜上可知,目前藏文屏幕取詞課翻譯關鍵技術已經(jīng)得到了一定的開發(fā),基于C/S模式的Win32操作系統(tǒng)中藏文屏幕自動取詞與翻譯的核心技術,能有效實現(xiàn)屏幕文本獲取。在Win32操作系統(tǒng)中通過攔截API函數(shù)調用來進行屏幕取詞,需要充分考慮程序系統(tǒng)的穩(wěn)定性和兼容性。利用鉤子技術和PE格式技術,通過加載動態(tài)鏈接庫和修改輸入地址等方式,結合藏文自動分詞和詞典庫,在最新的互聯(lián)平臺上進行詞典編撰、信息抽取和語料庫建設等相關工作,能有效實現(xiàn)藏文資源的屏幕取詞與翻譯工作,對用戶學習和掌握藏文資源的相關內容具有重要的實用價值。