檀亞寧 陳輝 邱毅斌
摘 要 語(yǔ)言能力(包括口語(yǔ)能力和書(shū)面語(yǔ)言能力)是人的首要能力,是其綜合能力的重要組成部分。而計(jì)算機(jī)科學(xué)領(lǐng)域也有語(yǔ)言處理,即計(jì)算機(jī)理解和運(yùn)用人類(lèi)語(yǔ)言的能力,也就是自然語(yǔ)言處理技術(shù)。自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。本文簡(jiǎn)要分析了自然語(yǔ)言處理學(xué)習(xí)中的重點(diǎn),并對(duì)其處理過(guò)程和技術(shù)方面進(jìn)行了主要探究,旨在從更多更深入的自然語(yǔ)言處理的方法和技術(shù)層面推動(dòng)人工智能及計(jì)算機(jī)的發(fā)展。
關(guān)鍵詞 自然語(yǔ)言處理;人工智能計(jì)算機(jī)
1引言
機(jī)器翻譯是最早的自然語(yǔ)言理解方面的研究,但人們當(dāng)時(shí)低估了自然語(yǔ)言的復(fù)雜性,而且語(yǔ)言處理的理論和技術(shù)均不成熱,所以相關(guān)方面的研究進(jìn)展不大[1]。隨著計(jì)算機(jī)與互聯(lián)網(wǎng)的迅速發(fā)展,現(xiàn)在的自然語(yǔ)言處理技術(shù)可以做到信息提取,語(yǔ)音輸入,輿論分析,情感分析,智能問(wèn)答甚至語(yǔ)言生成等一系列較為先進(jìn)的功能。隨著深度學(xué)習(xí)在圖像識(shí)別、語(yǔ)音識(shí)別領(lǐng)域的大放異彩,人們對(duì)深度學(xué)習(xí)在NLP的價(jià)值也寄予厚望。自然語(yǔ)言處理作為人工智能領(lǐng)域的認(rèn)知智能,成為目前大家關(guān)注的焦點(diǎn)。自然語(yǔ)言處理這一研究方向主要解決的是使得計(jì)算機(jī)能夠理解人類(lèi)的自然語(yǔ)言的問(wèn)題。自然語(yǔ)言理解完成了人類(lèi)與機(jī)器的交互,并且做出人類(lèi)要求的相應(yīng)的命令控制處理工作。
2自然語(yǔ)言處理研究要點(diǎn)
2.1自然語(yǔ)言處理的基本問(wèn)題
(1)語(yǔ)音學(xué)問(wèn)題:研究詞語(yǔ)及其語(yǔ)音之間的關(guān)聯(lián)。這是語(yǔ)音識(shí)別方面研究的主要問(wèn)題,機(jī)器通過(guò)對(duì)語(yǔ)音信號(hào)進(jìn)行處理、分析并識(shí)別從而判斷語(yǔ)音的意思。此方面的應(yīng)用主要有:輸入法的語(yǔ)音識(shí)別、同聲傳譯等等[2]。
(2)語(yǔ)法學(xué)問(wèn)題:研究其句子結(jié)構(gòu)成分之間的相互關(guān)系和組成句子的序列的規(guī)則。如英語(yǔ)中的語(yǔ)法眾多,漢語(yǔ)中也有很多的語(yǔ)法,這些語(yǔ)法也同樣是自然語(yǔ)言處理中的難題。
(3)語(yǔ)義學(xué)問(wèn)題:研究如何從一個(gè)語(yǔ)句中得到一個(gè)詞的本質(zhì)意思,以及這些詞在該句子中的句法結(jié)構(gòu)的作用來(lái)推導(dǎo)語(yǔ)句的意義。這其中的主要問(wèn)題是語(yǔ)言文字的歧義現(xiàn)象。歧義現(xiàn)象包括結(jié)構(gòu)歧義和語(yǔ)義歧義。如何正確理解歧義也是一個(gè)重點(diǎn)。
(4)語(yǔ)用學(xué)問(wèn)題:研究在不同語(yǔ)境中語(yǔ)句的應(yīng)用,以及上下文對(duì)句子理解所產(chǎn)生的影響。自然語(yǔ)言的處理大部分情況下離不開(kāi)語(yǔ)境,在不同的語(yǔ)境下不同的句子會(huì)有不同的含義。因此語(yǔ)境的學(xué)習(xí)同樣為語(yǔ)言識(shí)別的要點(diǎn)。
3自然語(yǔ)言處理過(guò)程
自然語(yǔ)言理解的研究分為兩個(gè)方面,一方面是書(shū)面理解,另一方面是口語(yǔ)理解,其中計(jì)算機(jī)處理更容易處理書(shū)面理解。計(jì)算機(jī)對(duì)于語(yǔ)言的分析與理解通常是一個(gè)層次化過(guò)程,語(yǔ)言學(xué)家將這一過(guò)程分為語(yǔ)用分析、語(yǔ)音分析、語(yǔ)義分析四種。
自然語(yǔ)言處理主要步驟包括:
(1)分詞處理:將一篇文章按詞組依次分開(kāi)。
(2)詞法分析:將分詞處理后的詞匯類(lèi)型進(jìn)行分詞,標(biāo)明詞匯的詞性也就是確定詞的類(lèi)
型,包括名詞、動(dòng)詞、形容詞、副詞、介詞等。
(3)語(yǔ)法分析:分析出句子的語(yǔ)法成分。
(4)語(yǔ)義分析:指的是讓計(jì)算機(jī)能夠理解自然語(yǔ)言。
4自然語(yǔ)言處理技術(shù)
4.1語(yǔ)料庫(kù)
語(yǔ)料庫(kù)是為一個(gè)或者多個(gè)應(yīng)用目標(biāo)而專(zhuān)門(mén)收集的,有一定結(jié)構(gòu)的、有代表的、可被計(jì)算機(jī)程序檢索的、具有一定規(guī)模的語(yǔ)料集合。語(yǔ)料是翻譯和做語(yǔ)言研究的基礎(chǔ),同樣是我們自然語(yǔ)言處理的一個(gè)重要的數(shù)據(jù)庫(kù)。21世紀(jì)是大數(shù)據(jù)的時(shí)代,語(yǔ)料庫(kù)中豐富的語(yǔ)言數(shù)據(jù),對(duì)于自然語(yǔ)言處理這一工作是重中之重。
4.2 word2vec
該技術(shù)通過(guò)一個(gè)句子中的周邊詞語(yǔ)預(yù)測(cè)中心詞語(yǔ)或通過(guò)中心詞語(yǔ)預(yù)測(cè)周邊詞語(yǔ)來(lái)構(gòu)建模型,并將句子中所有的詞都轉(zhuǎn)換為詞向量的形式。中心詞距離周邊詞較其他詞語(yǔ)更近。該方法借助于神經(jīng)網(wǎng)絡(luò)進(jìn)行自然語(yǔ)言的處理。
4.3 長(zhǎng)短期記憶LSTM
普通的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在進(jìn)行語(yǔ)言處理時(shí)候,對(duì)距離近的詞記憶較好,而對(duì)于距離較遠(yuǎn)的詞記憶較差,所以在實(shí)際中通常使用LSTM即長(zhǎng)短期記憶的方法,其優(yōu)勢(shì)在于可以避免長(zhǎng)距離的失憶問(wèn)題。
5總結(jié)與展望
當(dāng)前人工智能正從感知智能向認(rèn)知智能升級(jí),自然語(yǔ)言處理的重要性日益凸顯。一方面,自然語(yǔ)言處理受到大數(shù)據(jù)和深度學(xué)習(xí)的雙輪驅(qū)動(dòng),在各項(xiàng)關(guān)鍵技術(shù)方面都有不同程度的進(jìn)步;另一方面,自然語(yǔ)言處理滲透到各個(gè)領(lǐng)域,與教育、醫(yī)療、法律等知識(shí)服務(wù)型行業(yè)深度整合,同時(shí)虛擬/實(shí)體機(jī)器人等新型應(yīng)用模式與線下服務(wù)對(duì)接。人類(lèi)對(duì)智能的需要隨著社會(huì)科技的進(jìn)步已經(jīng)越來(lái)越必須,要求也越來(lái)越高。目前計(jì)算機(jī)還遠(yuǎn)遠(yuǎn)沒(méi)有的達(dá)到人一樣的理解水平,相信將來(lái)也不會(huì)達(dá)到這樣的水平,所以應(yīng)該從實(shí)用的角度去判斷計(jì)算機(jī)對(duì)自然語(yǔ)言的理解,只要計(jì)算機(jī)能夠?qū)崿F(xiàn)人機(jī)會(huì)話,或者能夠自動(dòng)摘錄一些語(yǔ)言信息,那么我們就可以說(shuō)計(jì)算機(jī)已經(jīng)具有了自然語(yǔ)言的能力。
參考文獻(xiàn):
[1]張靜. 基于自然語(yǔ)言處理的智能識(shí)別和智能控制應(yīng)用[D].南京郵電大學(xué),2017.
[2]孫茂松,周建設(shè).從機(jī)器翻譯歷程看自然語(yǔ)言處理研究的發(fā)展策略[J].語(yǔ)言戰(zhàn)略研究,2016,1(06):12-18.