国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“互聯(lián)網(wǎng)+”背景下語言文字信息處理技術(shù)與應(yīng)用發(fā)展現(xiàn)狀研究

2020-12-29 11:56:42黎謙
電腦知識與技術(shù) 2020年30期
關(guān)鍵詞:機器翻譯信息檢索互聯(lián)網(wǎng)

黎謙

摘要:語言文字信息處理技術(shù)奠定了人機交互的技術(shù)基礎(chǔ),成為人工智能的熱門領(lǐng)域。該項技術(shù)既是實現(xiàn)人機交流的突破點,也是當(dāng)下衡量國家現(xiàn)代化水平的一項重要指標(biāo)。該文闡述了語言文字信息處理的技術(shù),并探究了該技術(shù)在“互聯(lián)網(wǎng)+”背景下的應(yīng)用發(fā)展現(xiàn)狀。

關(guān)鍵詞:“互聯(lián)網(wǎng)+” 語言信息處理;機器翻譯;信息檢索

中圖分類號:TP3? ? ? ? 文獻標(biāo)識碼:A

文章編號:1009-3044(2020)30-0194-02

語言文字信息處理技術(shù)是將人類在互動交流時所使用的語言處理轉(zhuǎn)化為計算機可以理解的機器語言的一種技術(shù),它是以語言能力為研究對象的模型和算法框架,是涉及語言學(xué)、計算機科學(xué)的交叉研究領(lǐng)域[1]。在“互聯(lián)網(wǎng)+”時代,該技術(shù)的創(chuàng)新和突破既能夠推動人機智能的發(fā)展,帶來計算技術(shù)的革命,又能讓人類進一步認識自身的思維和語言文字,更加重視對語言的教學(xué)和學(xué)習(xí)。

1 語言文字信息處理的技術(shù)分析

1.1 語言文字信息處理基礎(chǔ)技術(shù)

1)詞法分析

組成句子的基本單元是詞。詞法分析具體指的是先把句子中的字符串轉(zhuǎn)變?yōu)樵~串,之后給句中所有詞加句法范疇標(biāo)記的過程。漢語是一種表意文字,它是以漢字作為單位的。對漢字的處理技術(shù)包括三步:一是漢字編碼,二是漢字輸入,三是漢字輸出。在處理具體的漢語句子之前要做的就是先將句中的單詞切分出來。目前機器自動分詞的方法有兩種,一是最大匹配法,二是最大概率法。而對屈折性語言(如英語)進行詞法分析時,需要適當(dāng)處理其詞尾、前綴、后綴等,將詞形還原。

詞性即詞匯所具有的基本語法屬性。詞性標(biāo)注即判斷句中詞的語法范疇,明確其詞性并標(biāo)注出來的過程。標(biāo)注的關(guān)鍵和難題在于消除歧義。一般詞性標(biāo)注所采用的方法有基于統(tǒng)計和基于規(guī)則兩種。詞法分析的另一個主要任務(wù)就是詞義標(biāo)注,重點問題在于怎樣在具體句子中確定多義詞的義項。在標(biāo)注詞義時,往往先明確語境,再標(biāo)注詞義。其方法也有基于統(tǒng)計和基于規(guī)則兩種。

2)句法分析

句法分析的目的在于識別句中成分及它們的相互關(guān)系,明確該句的句法結(jié)構(gòu)。判斷單詞序列是否符合給定語法,并對符合的句子進行句法結(jié)構(gòu)分析。一般用來完成此種分析任務(wù)的程序模塊被稱作句法分析器。句法分析分淺層句法分析和完全句法分析兩種。前者用來對句中結(jié)構(gòu)簡單的成分進行識別,后者則更為復(fù)雜,要通過句法分析得出句子的完整的句法樹。

3)語義分析

語義分析即計算機在分析某個文檔語義內(nèi)容的基礎(chǔ)上對其進行學(xué)習(xí)和理解。語義分析根據(jù)語言單位不同可分成篇章級、句子級和詞匯級三個級別。詞匯級的任務(wù)在于獲得詞語的具體意義,句子級的任務(wù)則在于分析句子的整體語義,篇章級的任務(wù)則在于提取文本結(jié)構(gòu),闡明文本單元彼此間所具有的語義關(guān)系。

4)篇章分析

篇章分析的目的在于明確篇章的結(jié)構(gòu),并概括提煉篇章的特征。通常篇章的基本結(jié)構(gòu)分析,往往意味著對文本內(nèi)部關(guān)系結(jié)構(gòu)進行探究,即邏輯、指代、功能、事件或者話題等結(jié)構(gòu)。

5)生成自然語言

生成自然語言指的是計算機在關(guān)鍵信息基礎(chǔ)上加之機器表達形式,模擬人類寫作并最終生成質(zhì)量較高的自然語言文本內(nèi)容的一種技術(shù)?;谏疃葘W(xué)習(xí)的方法、基于知識檢索的方法和基于規(guī)則的方法都是較為常用的生成方法。

1.2 語言文字信息處理的應(yīng)用技術(shù)

語言文字信息處理除了能夠處理文本,為大數(shù)據(jù)應(yīng)用提供服務(wù),它自身也有一些應(yīng)用技術(shù),比如機器寫作、信息抽取、閱讀理解、對話等,能夠應(yīng)用在科技服務(wù)、在線教育、信息檢索等社會的各個方面。

1)信息抽取和構(gòu)建知識圖譜

信息抽取的含義是計算機識別某個文檔的結(jié)構(gòu)化信息并最終生成。之后再將這些從文檔中抽取出來的結(jié)構(gòu)化信息按特定形式集中起來。應(yīng)注意的是,信息抽取只分析文檔的部分信息。在語言文字信息處理領(lǐng)域,知識圖譜構(gòu)建是熱點,它包括事件抽取、實體識別、關(guān)系抽取、實體屬性識別等。其任務(wù)為知識的建模、融合、賦能、圖譜構(gòu)建、推理計算等[2]。

2)智能寫作和智能問答

智能寫作的含義是計算機將自然語言生成器和算法作為自己的工具去“書寫”文本。智能問答則更復(fù)雜,需要把握問答的目的、正確理解語言的深層意思、搜索符合問答主題的知識,問答系統(tǒng)的功能往往有分析、分類、理解和答案的檢索、匹配、生成等。

2 語言文字信息處理技術(shù)的應(yīng)用發(fā)展研究

2.1 信息檢索

信息檢索系統(tǒng)的工作通常包括四部分:一是處理文獻信息,通過分析提取關(guān)鍵信息后,建立數(shù)據(jù)庫或者轉(zhuǎn)換文檔;二是提問處理,對用戶輸入的查詢詞進行解釋;三是匹配問題,即匹配查詢提問和數(shù)據(jù)庫及轉(zhuǎn)換文檔之中的內(nèi)容;四是按照特定順序?qū)⒉樵兘Y(jié)果顯示出來。信息檢索需要利用自然語言檢索和標(biāo)引,它的每個階段都離不開語言文字信息處理技術(shù)的應(yīng)用。

1)處理文獻信息

第一,自然語言標(biāo)引,即計算機提取能夠表征文檔內(nèi)容的信息或特征詞加以標(biāo)引。計算機自動標(biāo)引是常用標(biāo)引方式,其目的在于讓文獻擁有標(biāo)引詞,以便在具體檢索過程中直接匹配檢索詞匯。自然語言標(biāo)引包括字索引、詞索引和短語索引三種索引方式。第二,自動抽取主題詞,即按照文獻所闡述的問題和對象提煉出主題詞,并將其存入文獻庫和檢索系統(tǒng)。當(dāng)前自動抽取主題所采用的算法,是指對綜合位置、詞頻等因素進行統(tǒng)計的一種方法。信息提取運用算法能夠得到文檔中重要性較強的句子,這就是主題句。之后還要對主題句進行語義分析以及句法分析,明確句子內(nèi)部各部分的語義關(guān)系。第三,自動生成文摘,即對文檔內(nèi)容進行語義分析和邏輯分析之后生成具有可讀性的摘要,介紹主體內(nèi)容,便于用戶判斷文章是否符合自己的需要。第四,文本自動分類,即計算機系統(tǒng)以文檔的屬性或內(nèi)容為根據(jù)將語言文本歸為某個主題類別的過程,這樣便于用戶精確查找。文本分類可分為兩類,一是自動聚類,二是自動歸類。這兩種分類方法都需要充分運用語言文字信息處理技術(shù),比如詞頻統(tǒng)一、相似度計算、漢語自動分詞、分類算法、特征提取等。

2)自然語言檢索接口

檢索系統(tǒng)通過檢索接口和用戶相連接,如果沒有用戶接口,那么系統(tǒng)功能就會被閑置。在“互聯(lián)網(wǎng)+”時代,人們有了愈來愈高的檢索要求。所以怎樣讓計算機更準(zhǔn)確地理解用戶意圖、讓用戶更方便快捷地查詢信息就成了一個重要課題。自然語言檢索接口應(yīng)運而生。作為人性化的智能接口,其功能在于接受用戶輸入的信息,讓系統(tǒng)對用戶提問進行語言分析,并通過人機交互判斷出用戶需求,從而得出更準(zhǔn)確、全面的檢索結(jié)果。

3)匹配控制

匹配控制包括自由詞匹配和概念匹配。自由詞匹配是按照特定的檢索模型對用戶提問和索引項進行匹配,并將包含自由詞的摘要和URL反饋給用戶。而概念匹配又被稱為語義檢索,它分析用戶檢索詞的概念意義,并為其匹配出具有相近或相同意思的詞語,這一功能對語言檢索的多義和同義問題進行了解決。語義檢索有兩項基本功能,一是相關(guān)概念聯(lián)想,二是同義擴展檢索,而這無疑和語言文字信息處理技術(shù)密切相關(guān),即該技術(shù)能夠抽取文檔概念,并對概念進行聚類,由此生成一定的概念空間。當(dāng)用戶輸入文字后,檢索系統(tǒng)會迅速匹配出在概念語義空間方面最為相似的概念,并按照相似性遞減規(guī)律將檢索結(jié)果呈現(xiàn)給用戶[3]。

4)查詢結(jié)果處理

查詢結(jié)果處理指的是計算機用算法計算出相關(guān)度并以此為依據(jù)對檢索結(jié)果進行排序,將和用戶需求關(guān)系最為密切的結(jié)果排列在前。為了使服務(wù)更加個性化,還需要對用戶檢索行為進行追蹤,并運用語義\語境對用戶需求進行分析,將用戶需求和文檔進行概念匹配,使查詢結(jié)果更符合用戶興趣。語言文字信息處理技術(shù)的提升能夠提高查詢結(jié)果的排序質(zhì)量,因為它能夠更準(zhǔn)確地把握用戶意圖,更精準(zhǔn)地匹配文獻[4]。

2.2 機器翻譯

1)機器學(xué)習(xí)

語言文字信息處理技術(shù)的一個主要特點就是更加依賴于機器學(xué)習(xí)的方法實現(xiàn)語言知識的獲取。機器學(xué)習(xí)是主要研究怎樣在經(jīng)驗的基礎(chǔ)上通過計算對系統(tǒng)自身的性能進行改善的一門學(xué)科。機器學(xué)習(xí)的工作方式如下:首先,把大量訓(xùn)練數(shù)據(jù)輸入計算機,從而構(gòu)建出初始模型;之后運用測試數(shù)據(jù)來檢查初始模型,使之不斷完善,并最終生成一個訓(xùn)練完好的模型;最后,如果再接收到新數(shù)據(jù),那么人類就能夠運用計算機和新模型進行預(yù)測或者判斷。此后的新數(shù)據(jù)、調(diào)整的參數(shù)、各異的特征等,都能夠用來對算法的性能進行提升,使算法更加完善。

2)機器翻譯

機器翻譯是指計算機具有自動轉(zhuǎn)換語言文字的功能。這里的語言文字等同于自然語言,要將它和人工語言區(qū)別開來,比如計算機編程語言即為人工語言。有專家學(xué)者指出,機器翻譯實際上是語言文字信息處理技術(shù)的一個重要分支,它在具體的翻譯過程中會遇到很多語言文字信息處理的一些經(jīng)典問題,比如詞性標(biāo)引、字詞切分、句法分析等。機器翻譯的方法分為基于規(guī)則和基于語料庫的機器翻譯方法兩種。

在機器翻譯之中,數(shù)據(jù)即語料被當(dāng)作訓(xùn)練數(shù)據(jù),并被用于模型的訓(xùn)練。語料被劃分成各種類型,分別用于不同模型的訓(xùn)練。

下面以語言模型為例具體說明該過程對語言文字信息處理技術(shù)的應(yīng)用。首先,選取目標(biāo)語言中的大量語料,并讓其成為訓(xùn)練數(shù)據(jù),計算機運用此數(shù)據(jù)得到知識,并建構(gòu)起一定的語言模型。但訓(xùn)練數(shù)據(jù)并不涵蓋所有語料,所以計算機無法實現(xiàn)對所有樣例數(shù)據(jù)的覆蓋,這時一般就會用數(shù)據(jù)平滑算法來完善語言模型。很多語言文字信息處理的應(yīng)用都運用語言模型來生成文本,這些模型以之前出現(xiàn)過的語境和單詞為基礎(chǔ),通過接受相應(yīng)的訓(xùn)練來讓自身具備能夠預(yù)測接下來出現(xiàn)的單詞的功能。最終建好的語言模型具有預(yù)算句子出現(xiàn)可能性的重要功能,也是在此基礎(chǔ)上譯文才更加接近人類優(yōu)秀的翻譯文章。

不管是建立概率模型的過程,還是模型訓(xùn)練過程,都需要機器學(xué)習(xí)算法的支持。在模型建立的具體過程中,機器翻譯也會應(yīng)用參數(shù)特征來改進和完善自身的算法[5]。所以說機器翻譯是語言文字信息處理技術(shù)的一個較為重要的研究方向,并且通過上述分析可知,語言文字信息處理技術(shù)在機器翻譯中有著極為重要的地位。

2.3 社會計算

社會計算又稱作社會計算學(xué),指的是在“互聯(lián)網(wǎng)+”背景下,將社會科學(xué)理論作為指導(dǎo),運用現(xiàn)代信息技術(shù)為人類社會提供知識、探求規(guī)律、分析關(guān)系、推進交流、解決社會難題的一門學(xué)科。

社會媒體實際上是社會計算的重要工具和手段,社會媒體有海量用戶,它允許用戶在線上進行發(fā)布、交流、傳遞和分享,并最終形成一個虛擬的網(wǎng)絡(luò)社區(qū)[6]。在“互聯(lián)網(wǎng)+”背景下,社會媒體變得更加多樣化,從最初的博客、論壇到如今的微信、社交網(wǎng)站等,由此它也成為網(wǎng)絡(luò)技術(shù)發(fā)展的趨勢和焦點。運用語言文字信息處理技術(shù)可以闡明社會媒體中的文本屬性,社會媒體中出現(xiàn)的文本具有較強的實時性、字?jǐn)?shù)不多、淺顯易讀,同時它具有較強的交互性、社交性。社會媒體使每個用戶都擁有了創(chuàng)造和傳播內(nèi)容的權(quán)利,他們能夠發(fā)布個性內(nèi)容,進行社會化傳播,這些網(wǎng)絡(luò)用戶也能夠形成社會化網(wǎng)絡(luò)。

社會網(wǎng)絡(luò)類屬于關(guān)系網(wǎng)絡(luò),以網(wǎng)絡(luò)為媒介實現(xiàn)了個人之間以及群體之間的互通。運用語言文字信息處理技術(shù)提取社會網(wǎng)絡(luò)中的關(guān)鍵字和高頻詞等,分析“互聯(lián)網(wǎng)+”時代人類語言文字信息中所蘊含的新內(nèi)涵,能夠更加清晰地了解當(dāng)下人類社會的行為方式和組織特點等,從而為人群的社會結(jié)構(gòu)研究奠定基礎(chǔ)。

3 結(jié)語

“互聯(lián)網(wǎng)+”時代的語言文字信息處理技術(shù)具有非常廣闊的應(yīng)用領(lǐng)域和樂觀的應(yīng)用前景。作為涉及多學(xué)科領(lǐng)域的一種處理技術(shù),其發(fā)展和繁榮必將極大促進相關(guān)學(xué)科的發(fā)展。各種語料庫數(shù)據(jù)資源的不斷豐富、新理論的不斷出現(xiàn)、分析技術(shù)的迅捷發(fā)展、研究模型的逐漸完善,都為理論研究打下了堅實基礎(chǔ),語言文字信息處理技術(shù)的迅速發(fā)展也將使其在計算機科學(xué)研究中的重要地位得到進一步的鞏固。

參考文獻:

[1] 李生.自然語言處理的研究與發(fā)展[J].燕山大學(xué)學(xué)報,2013,37(5):377-384.

[2] 林奕歐,雷航,李曉瑜,等.自然語言處理中的深度學(xué)習(xí):方法及應(yīng)用[J].電子科技大學(xué)學(xué)報,2017,46(6):913-919.

[3] 史兆鵬,鄒徐熹,向潤昭.基于依存句法分析的多特征詞義消歧[J].計算機工程,2017,43(9):210-213.

[4] 殷淑娥,田偉,于泳海.自然語言處理技術(shù)在搜索引擎中的應(yīng)用[J].電子商務(wù),2012(5):67,69.

[5] 馮志偉.機器翻譯與人工智能的平行發(fā)展[J].外國語(上海外國語大學(xué)學(xué)報),2018,41(6):35-48.

[6] 方明之.自然語言處理技術(shù)發(fā)展與未來[J].科技傳播,2019,11(6):143-144.

【通聯(lián)編輯:代影】

猜你喜歡
機器翻譯信息檢索互聯(lián)網(wǎng)
互聯(lián)網(wǎng)+新時代下人機翻譯模式研究
考試周刊(2017年2期)2017-01-19 09:13:50
“語聯(lián)網(wǎng)+行業(yè)” 助力中國偉大復(fù)興
考試周刊(2017年2期)2017-01-19 09:12:54
大數(shù)據(jù)背景下石油科技翻譯
智富時代(2016年12期)2016-12-01 17:03:10
機器翻譯不可盲取
從“數(shù)據(jù)新聞”看當(dāng)前互聯(lián)網(wǎng)新聞信息傳播生態(tài)
今傳媒(2016年9期)2016-10-15 22:06:04
互聯(lián)網(wǎng)背景下大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項目的實施
考試周刊(2016年79期)2016-10-13 23:23:28
以高品質(zhì)對農(nóng)節(jié)目助力打贏脫貧攻堅戰(zhàn)
中國記者(2016年6期)2016-08-26 12:52:41
醫(yī)學(xué)期刊編輯中文獻信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經(jīng)網(wǎng)絡(luò)的個性化信息檢索模型研究
教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計與實施
河南科技(2014年11期)2014-02-27 14:10:19
阳西县| 绥芬河市| 马鞍山市| 葵青区| 大理市| 准格尔旗| 临城县| 库伦旗| 会理县| 麻江县| 邓州市| 广安市| 石狮市| 云梦县| 彭阳县| 襄樊市| 长沙县| 旬邑县| 房产| 荣成市| 宁远县| 措勤县| 武功县| 芜湖市| 曲阳县| 运城市| 彭阳县| 吉水县| 大安市| 二连浩特市| 福清市| 米脂县| 商都县| 新宁县| 孟村| 阿荣旗| 桑植县| 扎囊县| 中卫市| 贵州省| 石首市|