孫茂松
(清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,清華大學(xué) 智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100084)
自然語(yǔ)言處理自誕生之日起已先后發(fā)展出兩種影響全局的主流研究方法(methodology): 理性主義方法和經(jīng)驗(yàn)主義方法??偟膩碚f,目前學(xué)術(shù)界應(yīng)該形成了如下兩點(diǎn)基本認(rèn)識(shí): 第一,比較少地依賴統(tǒng)計(jì)的理性主義方法以及停留在N-gram之類比較表層語(yǔ)言單元的經(jīng)驗(yàn)主義方法在全世界同行們的共同努力下,已經(jīng)差不多做到了極致,需要謀求新的突破;第二,近中期的發(fā)展趨勢(shì)是兩種方法的融合,即多一點(diǎn)理性主義的經(jīng)驗(yàn)主義,也就是說,研究超越了N-gram的、基于相對(duì)深層語(yǔ)言單元的經(jīng)驗(yàn)主義方法。各種半監(jiān)督的機(jī)器學(xué)習(xí)算法和基于結(jié)構(gòu)的機(jī)器學(xué)習(xí)算法在其中發(fā)揮著越來越重要的作用[1-2]。
“行到水窮處,坐看云起時(shí)”。在這種大的態(tài)勢(shì)下,自然語(yǔ)言處理研究下一步應(yīng)該怎么走?這是每一位長(zhǎng)期在這個(gè)領(lǐng)域辛勤耕耘的學(xué)者都不能不有所思考的問題。鑒于互聯(lián)網(wǎng)上各類資源空前豐富的基本格局,本人不揣淺薄,于2010年3月29日在日本京都大學(xué)舉行的“第二屆清華—京都大學(xué)面向知識(shí)社會(huì)的智能技術(shù)與信息管理研討會(huì)”(The Second Tsinghua University-Kyoto University Symposium on Intelligent Technologies and Information Management for Knowledge Society)上,首次給出了“基于極大規(guī)模自然標(biāo)注語(yǔ)料庫(kù)的自然語(yǔ)言處理”(Na-tural Language Processing Based on Huge-scale Naturally Annotated Corpora”的提法,并于2011年5月6-8日在香港教育學(xué)院舉行的“語(yǔ)言語(yǔ)料庫(kù)和語(yǔ)料庫(kù)語(yǔ)言學(xué)圓桌會(huì)議”(Round-table Conference on Linguistic Corpus and Corpus Linguistics)上,再一次做了“基于大規(guī)模自然標(biāo)注Web資源的自然語(yǔ)言處理: 一種可能的新的研究范式”(Natural Language Processing Based on Huge-scale Naturally Annotated Web Resource)的學(xué)術(shù)報(bào)告,進(jìn)一步闡發(fā)了這一學(xué)術(shù)理念。
本文將圍繞“基于互聯(lián)網(wǎng)自然標(biāo)注資源的自然語(yǔ)言處理”中的若干基本問題展開討論,粗淺乃至不當(dāng)之處,懇請(qǐng)同行們批評(píng)指正。
什么是“自然標(biāo)注資源”?其實(shí),這個(gè)術(shù)語(yǔ)與“用戶產(chǎn)生的數(shù)據(jù)”(user generated data)基本上是同義語(yǔ),指互聯(lián)網(wǎng)上各種用戶出于各種交際目的而“制作”出來的各種資源,如網(wǎng)頁(yè)、論壇、博客、微博、維基百科、社交網(wǎng)絡(luò)、用戶日志等等。如果我們從自然語(yǔ)言處理的角度而非從用戶的角度以專業(yè)的眼光來看待這些數(shù)據(jù),或者這些數(shù)據(jù)的某些部分,則它們實(shí)際上可以被視作已經(jīng)加上了某些人工標(biāo)注,而這些標(biāo)注是可以為語(yǔ)言信息處理所利用的,雖然用戶本人并沒有意識(shí)到這一點(diǎn)(顯然也沒有必要意識(shí)到這一點(diǎn))。換句話說,用戶在無意中為自然語(yǔ)言處理研究的各種資源作了一定程度的義務(wù)“標(biāo)注”——這正是“自然標(biāo)注”的含義(說明性定義)。
我們舉個(gè)例子說明一下。圖1是2011年10月7日“百度新聞”中“財(cái)經(jīng)新聞”的首頁(yè)。在這個(gè)再普通不過的網(wǎng)頁(yè)上,“空格”、“標(biāo)點(diǎn)符號(hào)”和“句子開頭或結(jié)尾”就是所謂的“自然標(biāo)注”,能“透露”給我們不少關(guān)于詞匯的信息。如: 導(dǎo)航條中被空格兩兩隔開的“新聞 網(wǎng)頁(yè) 貼吧 知道 MP3 圖片 視頻 地圖”、“股票 大盤 新股 權(quán)證 板塊 理財(cái) 基金 銀行 黃金 保險(xiǎn) 外匯 期貨 案例 經(jīng)濟(jì) 民生 國(guó)內(nèi) 國(guó)際 產(chǎn)經(jīng) 公司 人物 消費(fèi) 評(píng)論”等,都是詞或短語(yǔ)很好的候選;雙引號(hào)提示“開門紅”也很可能是一個(gè)詞或短語(yǔ);標(biāo)題“穆迪下調(diào)英國(guó)12家金融機(jī)構(gòu)評(píng)級(jí)”顯示“穆”可作為以“穆”開頭的某個(gè)詞或短語(yǔ)的左邊界,“級(jí)”可作為以“級(jí)”結(jié)尾的某個(gè)詞或短語(yǔ)的右邊界,等等。我們不妨設(shè)想,如果把互聯(lián)網(wǎng)上所有網(wǎng)頁(yè)的相關(guān)信息都系統(tǒng)地匯集起來,將可能出現(xiàn)怎樣的圖景?!
圖1 網(wǎng)頁(yè)中的“自然標(biāo)注”——“空格”、“標(biāo)點(diǎn)符號(hào)”和“句子的開頭或結(jié)尾”
“空格”、“標(biāo)點(diǎn)符號(hào)”和“句子開頭或結(jié)尾”屬于“顯式自然標(biāo)注”(explicit naturalannotation)。與之對(duì)應(yīng)的,是所謂的“隱式自然標(biāo)注”(implicit natural annotation)。“隱式自然標(biāo)注”需要借助某些知識(shí)予以揭示。如字符串“是一種”有助于在兩個(gè)概念之間建立本體聯(lián)系,可被視作一種“隱式自然標(biāo)注”。在谷歌搜索引擎中鍵入“iPad是一種”,會(huì)得到如下一些句子:
喬布斯本人宣稱iPad是一種全新種類的產(chǎn)品
iPad是一種娛樂加辦公的時(shí)尚潮流產(chǎn)品
iPad是一種簡(jiǎn)易的手持設(shè)備
iPad是一種更浸入式的設(shè)備
iPad是一種混合設(shè)備
iPad是一種全新類型的電腦
iPad是一種觸摸屏平板電腦
……
對(duì)這些句子進(jìn)行適當(dāng)?shù)淖詣?dòng)分析,不難得出如下AKO(A Kind Of)關(guān)系:
iPad AKO 產(chǎn)品
iPad AKO 設(shè)備
iPad AKO 手持設(shè)備
iPad AKO 混合設(shè)備
iPad AKO 電腦
iPad AKO 觸摸屏平板電腦
……
這些斷言無疑有助于新詞“iPad”在一個(gè)已有的本體體系內(nèi)找到合適的位置。
自然標(biāo)注資源可以遠(yuǎn)遠(yuǎn)超越網(wǎng)頁(yè)這種基本形式,如博客作者可以自由地為自己寫作的博文添加任意的“標(biāo)簽”,以表達(dá)作者的意圖或者心情。標(biāo)簽是另一種典型的“顯式自然標(biāo)注”。圖2給出“搜狐博客”上某位作者發(fā)表的一篇博文“喝什么溫度的水最健康”:
圖2 博客文章中的“自然標(biāo)注”——標(biāo)簽
注意左上角的“標(biāo)簽: 營(yíng)養(yǎng)師 喝水 溫度 淡鹽水 誤區(qū)”。標(biāo)簽顯然是高度個(gè)性化的,為個(gè)性化搜索創(chuàng)造的條件。網(wǎng)上龐大作者群標(biāo)簽的集合形成了所謂的folksonomy(大眾分類體系),又呈現(xiàn)出了很大程度的一般性。與通常主要依賴專家構(gòu)造的taxonomy(分類體系)相比,folksonomy的“草根性”更能及時(shí)地抓住網(wǎng)民的網(wǎng)上生活“脈搏”(眾所周知,大眾分類體系在YouTube、 Facebook等著名社交網(wǎng)站的圖像和視頻搜索中也扮演著十分關(guān)鍵的角色)。
Wikipedia是無數(shù)作者智慧的結(jié)晶,代表了“顯式自然標(biāo)注”資源的一個(gè)極致。觀察中文維基百科中關(guān)于“喬布斯”條目的一個(gè)片段,見圖3。
圖3 中文維基百科中的“自然標(biāo)注”——字體加重與變色
顯然,其中的加重字體、藍(lán)色字體(由于顯示原因,此處為黑色字體)可被視作某種“顯式自然標(biāo)注”: 一則為語(yǔ)言信息處理提供了大量有用的詞語(yǔ)(把這些詞語(yǔ)系統(tǒng)地收集起來,將會(huì)形成一個(gè)詞語(yǔ)的寶庫(kù)),二則這些詞語(yǔ)本身刻畫了“喬布斯”的基本面貌,可作為特征用于詞語(yǔ)語(yǔ)義相似度計(jì)算、命名實(shí)體排歧等任務(wù)中。從這個(gè)片段中,還可以很容易地得到“喬布斯”的中英文全名、簡(jiǎn)稱等信息。
維基百科關(guān)于條目的分類體系是“顯式自然標(biāo)注”的一種“高級(jí)”形式(圖4)。納入這個(gè)分類體系的條目正文可被直接用于文本自動(dòng)分類的訓(xùn)練和測(cè)試。
自然標(biāo)注并不限于上述種種。當(dāng)我們從搜索的前臺(tái)——網(wǎng)頁(yè)走到搜索的后臺(tái)“用戶查詢?nèi)罩尽保銜?huì)體會(huì)到這種日志達(dá)到了“自然標(biāo)注”的一個(gè)新的“形態(tài)”。自然標(biāo)注也可以超越文本,如網(wǎng)頁(yè)之間的鏈接,微博的“粉絲”關(guān)系和“關(guān)注”關(guān)系等。
圖4 中文維基百科中的另一種“自然標(biāo)注”——分類體系
近年來,國(guó)內(nèi)外已經(jīng)陸續(xù)有不少相關(guān)的研究工作,只不過研究者并沒有意識(shí)到自己實(shí)際上是在“基于自然標(biāo)注資源的自然語(yǔ)言處理”的框架下開展研究工作的。篇幅關(guān)系,這里不打算對(duì)這些工作做系統(tǒng)性的評(píng)介,而只是信手拈來幾個(gè)例子,能夠說明問題即可,點(diǎn)到為止。
文獻(xiàn)[3]注意到了標(biāo)點(diǎn)符號(hào)和句首、句尾等“顯式自然標(biāo)注”對(duì)中文自動(dòng)分詞可能的影響,基于超大規(guī)模中文Web語(yǔ)料庫(kù)(目前是千億字規(guī)模),利用最大熵模型,對(duì)任意漢字位置建立了關(guān)于此類“顯式自然標(biāo)注”的概率分布模型。實(shí)驗(yàn)結(jié)果初步驗(yàn)證了這個(gè)想法的可行性。
文獻(xiàn)[4]利用引號(hào)從互聯(lián)網(wǎng)新聞文本中自動(dòng)抽取作者稱之為meme的流行語(yǔ)句,通過對(duì)這些meme的追蹤來定量、及時(shí)地把握美國(guó)政治、經(jīng)濟(jì)、文化等生活。“Lipstick on a pig”(豬的口紅)即是一個(gè)典型meme, 反映了美國(guó)總統(tǒng)選戰(zhàn)中得一個(gè)有趣的側(cè)面。這個(gè)思路簡(jiǎn)單而巧妙: 一方面妙在以“流行語(yǔ)句”作為各種社會(huì)熱點(diǎn)問題的指標(biāo),另一方面使得計(jì)算變得簡(jiǎn)單??梢栽O(shè)想,如果不借助引號(hào)這個(gè)“顯式自然標(biāo)注”,要在海量文本中自動(dòng)發(fā)現(xiàn)長(zhǎng)度可變的流行語(yǔ)句,將是一件多么困難的事情!
文獻(xiàn)[5]通過“We feel”“I feel”之類的“隱式自然標(biāo)注”從互聯(lián)網(wǎng)文本中抽取Feeling句子集合(如“We feel happy”),然后根據(jù)happy之類的情感詞,運(yùn)用情感分析技術(shù)來把脈用戶的情緒。由于所設(shè)計(jì)的系統(tǒng)涵蓋了實(shí)時(shí)社交網(wǎng)絡(luò),所以相關(guān)的時(shí)間信息、位置信息基本上都可以獲得。以不斷實(shí)時(shí)抽取的大規(guī)模Feeling句子集合為基礎(chǔ),系統(tǒng)做到了可在全球范圍內(nèi)從不同的角度動(dòng)態(tài)地了解形形色色網(wǎng)民的情緒變化,建立起作者所謂的“情緒互聯(lián)網(wǎng)”。配以生動(dòng)的可視化技術(shù),這個(gè)工作在WSDM2011國(guó)際會(huì)議上引起與會(huì)者的普遍興趣。
學(xué)術(shù)界還有若干利用“A is a B”“A, such as B”“A and B”等“隱式自然標(biāo)注”的有趣研究工作,這里不一一贅述。
文獻(xiàn)[6]利用機(jī)器學(xué)習(xí)的算法,從大規(guī)模帶有社會(huì)標(biāo)簽的文本中自動(dòng)學(xué)習(xí)文本中詞語(yǔ)與社會(huì)標(biāo)簽集合之間的統(tǒng)計(jì)關(guān)聯(lián),然后對(duì)任意輸入的沒有標(biāo)簽的文本,自動(dòng)打上若干標(biāo)簽。例如,輸入一句短文本:
我真的很喜歡你
機(jī)器會(huì)自動(dòng)賦予如下標(biāo)簽(注意: 文字長(zhǎng)度甚至超過了輸入):
希望、情感、日記、對(duì)不起、心情、眼淚、我、勇氣、答案、分手
看到這個(gè)結(jié)果時(shí),我曾質(zhì)疑其是否有道理。學(xué)生們則會(huì)心一笑,答曰非常符合現(xiàn)在的年輕人傳達(dá)相關(guān)情感時(shí)的表達(dá)方式,捕捉到了言外之意。這個(gè)例子生動(dòng)地顯示了規(guī)?;说摹帮@式自然標(biāo)注”folksonomy所內(nèi)斂的力量。
文獻(xiàn)[7]則是應(yīng)用來自搜索后臺(tái)的“自然標(biāo)注”——用戶查詢?nèi)罩镜囊粋€(gè)經(jīng)典案例。作者根據(jù)2003年至2008年谷歌公司在美國(guó)本土的5 000萬(wàn)個(gè)高頻用戶查詢記錄,自動(dòng)挖掘出某些詞語(yǔ)與流行性感冒的對(duì)應(yīng)關(guān)系,并據(jù)此發(fā)出警告。與美國(guó)疾病控制和預(yù)防中心(CDC)以及歐洲流行性感冒檢測(cè)計(jì)劃(EISS)所采取的傳統(tǒng)方法相比,這個(gè)工作在精度沒有差別的條件下,將警告延遲從1~2周大大縮短到了1~2天。
以上給出了若干個(gè)從不同側(cè)面(列舉的側(cè)面很不完全)利用“自然標(biāo)注”進(jìn)行計(jì)算的案例??梢钥闯觯F在“思路”,即如何巧施妙手,使自然標(biāo)注能夠?yàn)槲宜?。需要?qiáng)調(diào)一點(diǎn): “自然標(biāo)注”貌似簡(jiǎn)單,但真正要把它挖掘出來、用起來,相關(guān)專業(yè)知識(shí)的指導(dǎo),或者說從相關(guān)專家的研究成果中汲取養(yǎng)分,是極其重要的。舉個(gè)例子: 眾所周知,漢語(yǔ)中雙音節(jié)動(dòng)補(bǔ)結(jié)構(gòu)的緊密程度存在很大的差異,有些傾向于復(fù)合詞,有些傾向于短語(yǔ)。一個(gè)極端是結(jié)合非常緊密者,如“擴(kuò)大”“延長(zhǎng)”,不能插入中綴“得”“不”;結(jié)合中間狀態(tài)是結(jié)合比較緊密者,如“打碎”“殺死”,能加入中綴“得”“不”而有限制地?cái)U(kuò)展;另一個(gè)極端是結(jié)合非常松散者,“挖淺”“買長(zhǎng)”,能比較自由地?cái)U(kuò)展[8]?!爸芯Y”可被視作一種“隱式自然標(biāo)注”,靠能否插入中綴能夠輕易地將“結(jié)合非常緊密”這一極端與其他兩種情況區(qū)別開來,但要區(qū)別后兩種情況,僅靠中綴有時(shí)可能并不足夠。文獻(xiàn)[9]提供了另一個(gè)鑒別依據(jù): 結(jié)合緊密的雙音節(jié)動(dòng)補(bǔ)結(jié)構(gòu)一般可以在后面帶賓語(yǔ),也可將賓語(yǔ)移至動(dòng)詞前,如“打碎”,可以說“打碎了玻璃”,也可以說“玻璃打碎了”;與此形成對(duì)照的是,結(jié)合松散的雙音節(jié)動(dòng)補(bǔ)結(jié)構(gòu)在后面帶賓語(yǔ)就十分勉強(qiáng),一般只能擺在動(dòng)詞前,如“挖淺”,說“坑挖淺了”而幾乎不說“挖淺了坑”。來自搜索引擎的檢索結(jié)果驗(yàn)證了這個(gè)鑒別依據(jù)的有效性,如圖5所示(注意兩對(duì)檢索結(jié)果次數(shù)的對(duì)比)。這個(gè)變換式的模板是一種“隱式自然標(biāo)注”,直接得益于語(yǔ)言學(xué)家研究成果的啟發(fā)(當(dāng)然,這需要你具備從成果寶庫(kù)中挖掘出可用“線索”的敏銳力和眼光)。
圖5 挖掘“隱式自然標(biāo)注”: “打碎”與“挖淺”后帶賓語(yǔ)與前置賓語(yǔ)的量化對(duì)比
有了思路,大路數(shù)就對(duì)了,但在具體計(jì)算時(shí),還是要有很多因具體任務(wù)而異的技術(shù)細(xì)節(jié)需要認(rèn)真處理。如文獻(xiàn)[4]指出: “Lipstick on a pig”在所考察的語(yǔ)料庫(kù)中具有較為復(fù)雜的61種變形,需要進(jìn)行normalization的處理,才能更為有效地追蹤其軌跡,見表1[4]。
表1 “Lipstick on a pig”的各種變形
關(guān)于自然標(biāo)注資源用于自然語(yǔ)言處理,在大的層面上,我想至少可以設(shè)想出以下幾點(diǎn):
(1) 極大規(guī)模(massive scale)是一個(gè)資源能夠成為可利用的“自然標(biāo)注資源”的重要條件
由于“自然標(biāo)注”具有“攻其一點(diǎn),不及其余”的特點(diǎn),所以如果規(guī)模上不去,往往會(huì)因存在嚴(yán)重的數(shù)據(jù)不足而遺漏一些本應(yīng)出現(xiàn)的現(xiàn)象。在極大規(guī)模資源上(極大規(guī)模資源,舍互聯(lián)網(wǎng)其誰(shuí)也),“東方不亮西方亮”,對(duì)某種現(xiàn)象的觀察總有希望能夠做得盡量全面。
(2) 計(jì)算的基本基調(diào): 極大規(guī)模資源上的淺層處理(shallow processing)
顯而易見,大多數(shù)“自然標(biāo)注”(尤其是顯式自然標(biāo)注)本身就是“淺層”的。利用其的技術(shù)手段往往也是比較“淺層”的(如引號(hào)及“是一種”之類的模板,依賴的手段多是字符串匹配),這樣易于保證相關(guān)信息獲取的可行性。我們知道,任何深層語(yǔ)言自動(dòng)分析方法,到了互聯(lián)網(wǎng)上,其可行性基本都不成立。這也是我們不得不更多地依賴淺層處理的一個(gè)原因。
(3) “能夠幫助人的電腦,需要人的更多幫助”
這是錢鐘書先生對(duì)“電腦”一句鞭辟入里的斷言。在利用“自然標(biāo)注資源”時(shí),這句斷言仍然適用,必須融入人的智慧。雖然計(jì)算多在“淺層”進(jìn)行,但為了充分揭示所關(guān)注的問題,一般需要精心設(shè)計(jì)多個(gè)可相互印證的觀察角度(如設(shè)計(jì)多個(gè)不同的模板),并且進(jìn)一步整合諸多角度,這無疑需要仰仗人的專業(yè)知識(shí),正如圖5所示的情形一樣。
(4) 對(duì)根據(jù)“自然標(biāo)注”所獲取數(shù)據(jù)應(yīng)進(jìn)行“去粗取精”“去偽存真”的處理
這是由基于“自然標(biāo)注”的計(jì)算的基本基調(diào)所決定的。如基于字符串匹配查到的相關(guān)句子會(huì)由于層次不分而產(chǎn)生“噪音”,干擾判斷。需要設(shè)計(jì)合理的過程最大限度地抑制此類干擾。
(5) 對(duì)一個(gè)語(yǔ)言資源盡可能進(jìn)行多個(gè)不同角度的“自然標(biāo)注”分析及整合
這種分析和整合有可能使從單一角度看或?qū)儆凇叭蹩捎谩钡馁Y源升華為整體上看的“可用資源”。每一個(gè)“自然標(biāo)注”的角度都似乎在織一張網(wǎng)的某個(gè)局部,有無可能把這些局部合理地拼裝起來,以產(chǎn)生某種全局的效果?
當(dāng)然,這些思考還很不成熟,有待于更多實(shí)驗(yàn)的檢驗(yàn)或驗(yàn)證。
本文冒昧提出了“基于互聯(lián)網(wǎng)自然標(biāo)注資源的自然語(yǔ)言處理”的學(xué)術(shù)思想。聽起來有點(diǎn)像一種研究范式(paradigm),其實(shí)無非是每天忙碌于“低頭拉車”之余,偶爾“抬頭看路”的某種思索而已,或許不是沒有一點(diǎn)道理,希望能起到拋磚引玉之效。這里面存在一個(gè)現(xiàn)在我們并不清楚的基礎(chǔ)問題(fundamental problem): 如果我們把全部自然標(biāo)注資源所能提供的全部信息或知識(shí)都以一種系統(tǒng)的方式用到了極致,并且最大限度地有機(jī)集成起來,能否最終如愿以償?shù)厥箼C(jī)器獲得對(duì)自然語(yǔ)言一定深度的理解呢?或者說能否真的對(duì)自然語(yǔ)言處理產(chǎn)生某種實(shí)質(zhì)性的幫助和影響呢?如果達(dá)不到這個(gè)境界,退而求其次,窮能力之所及,沿著這條路我們又能走多遠(yuǎn)呢?要把這個(gè)“終極”問題弄個(gè)“水落石出”,必須付出不懈且有新意的探究。
[1] Steven Abney. Semisupervised Learning for Computational Linguistics [M].2007. Chapman and Hall/CRC.
[2] Noah Smith. Structured Prediction for Natural Language Processing [C]//A Tutorial Presented at ICML, Montr al, Qu bec. 2009.
[3] Zhongguo Li andMaosong Sun. Punctuation as Implicit Annotations for Chinese Word Segmentation[J].Computational Linguistics,2009, 35(4): 505-512.
[4] Jure Leskovec,Lars Backstrom and Jon Kleinberg.Meme-tracking and the Dynamics of the News Cycle [C]//Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2009.
[5] Sepandar D. Kamvar and Jonathan Harris. We Feel Fine and Searching the Emotional Web [C]//Proceedings of the Fourth ACM International Conference on Web Search and Data Mining. 2011.
[6] Xiance Si, Zhiyuan Liu andMaosong Sun. Modeling Social Annotations via Latent Reason Identification[J]. IEEE Intelligent Systems, 2010, 25(6): 42-49.
[7] Jeremy Ginsberg, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, Mark S. Smolinski and Larry Brilliant.Detecting Influenza Epidemics Using Search Engine UueryData [J].Nature, 2009, 457(19).
[8] 梁銀峰.漢語(yǔ)動(dòng)補(bǔ)結(jié)構(gòu)的產(chǎn)生與演變[M]. 2006. 上海學(xué)林出版社.
[9] 陸儉明.“VA了”敘補(bǔ)結(jié)構(gòu)語(yǔ)義分析[M]//陸儉明自選集. 1993. 河南教育出版社.