国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能專(zhuān)業(yè)自然語(yǔ)言處理課程建設(shè)的實(shí)踐與探索

2023-01-02 17:12:28
科教導(dǎo)刊·電子版 2022年29期
關(guān)鍵詞:語(yǔ)料庫(kù)人工智能文本

趙 莉

(上海工程技術(shù)大學(xué)電子電氣工程學(xué)院,上海 201620)

0 引言

在人工智能走向2.0的發(fā)展過(guò)程中,數(shù)據(jù)和知識(shí)是兩個(gè)最重要的關(guān)鍵元素[1-3]。處理大數(shù)據(jù)和處理多重知識(shí),形成了AI發(fā)展的兩類(lèi)核心技術(shù)。自然語(yǔ)言處理的核心驅(qū)動(dòng)力來(lái)自數(shù)據(jù)驅(qū)動(dòng),在文本處理、信息抽取、情感分析、話題推薦、機(jī)器翻譯、專(zhuān)家系統(tǒng)、語(yǔ)音識(shí)別與合成等領(lǐng)域,取得了較好的應(yīng)用成效。

人工智能上升到國(guó)家戰(zhàn)略,正在邁入“創(chuàng)新驅(qū)動(dòng)、應(yīng)用深化、規(guī)范發(fā)展”的新階段。人工智能作為一項(xiàng)戰(zhàn)略性技術(shù),不僅標(biāo)志著人類(lèi)第三次認(rèn)知革命,還成為世界多國(guó)政府科技投入的聚焦點(diǎn)和產(chǎn)業(yè)政策的發(fā)力點(diǎn)。2017年全國(guó)兩會(huì),政府工作報(bào)告首次提及人工智能。同年7月,《新一代人工智能發(fā)展規(guī)劃》由國(guó)務(wù)院印發(fā),提出人工智能的三個(gè)發(fā)展新方向,包括計(jì)算機(jī)視覺(jué),語(yǔ)音處理和自然語(yǔ)言處理,拉開(kāi)了我國(guó)人工智能高速發(fā)展的序幕。

然而,自然語(yǔ)言處理的技術(shù)難度高,技術(shù)成熟度較低。NLP是一門(mén)集心理學(xué)、計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、數(shù)學(xué)于一體的科學(xué)。在人工智能所覆蓋的六大核心領(lǐng)域──視覺(jué)、語(yǔ)言、認(rèn)知、機(jī)器人、機(jī)器學(xué)習(xí)、多智能體,自然語(yǔ)言處理技術(shù)被比爾·蓋茨譽(yù)為人工智能皇冠上的“明珠”,其研究是極富挑戰(zhàn)性的。人類(lèi)語(yǔ)言中的一些不規(guī)則現(xiàn)象。因?yàn)檎Z(yǔ)義,即語(yǔ)言所蘊(yùn)含的意義,復(fù)雜度較高,僅靠目前基于大數(shù)據(jù)、并行計(jì)算的深度學(xué)習(xí),很難達(dá)到人類(lèi)的理解層次。

該課程建設(shè),提出順應(yīng)潮流,與時(shí)俱進(jìn),為培養(yǎng)人工智能一流人才,促進(jìn)中國(guó)人工智能生態(tài)建設(shè)服務(wù)。從更新課程內(nèi)容,豐富教學(xué)手段,完善評(píng)價(jià)體系等方面著手,實(shí)施教學(xué)改革,快速、有效地彌補(bǔ)數(shù)字鴻溝,為全面提升人工智能專(zhuān)業(yè)本科生的實(shí)踐能力與科學(xué)素養(yǎng),培養(yǎng)人工智能應(yīng)用工程師探索有效途徑。此外,本文對(duì)自然語(yǔ)言處理課程建設(shè)的優(yōu)點(diǎn)、發(fā)展、痛點(diǎn)等工作進(jìn)行了一一探討。

1 自然語(yǔ)言處理課程建設(shè)

1.1 自然語(yǔ)言處理的優(yōu)點(diǎn)

自然語(yǔ)言處理是人工智能領(lǐng)域的一項(xiàng)“知易行難”的底層技術(shù),一般分為語(yǔ)法、語(yǔ)義、語(yǔ)用三個(gè)層次,被譽(yù)為人工智能皇冠上的明珠[4-6]。數(shù)據(jù)增強(qiáng)技術(shù),利用對(duì)上下文的深刻理解,豐富了原始數(shù)據(jù)的含義。其最顯著的優(yōu)勢(shì)體現(xiàn)在數(shù)據(jù)挖掘和文本分析方面。國(guó)內(nèi)外高校,諸如麻省理工、斯坦福大學(xué)等世界一流大學(xué),紛紛將其列入本科生與研究生的必修課程。

在世界上已經(jīng)查明的5651種語(yǔ)言中,英語(yǔ)作為主要的媒體,往往具有功能強(qiáng)大、數(shù)量眾多的語(yǔ)料庫(kù),形成了豐富多彩的生態(tài)圈。目前,已然形成了140多個(gè)百萬(wàn)量級(jí)的語(yǔ)料庫(kù)[7-9],簡(jiǎn)化了開(kāi)發(fā)的復(fù)雜度。1991年后,以中國(guó)國(guó)家語(yǔ)言文字工作委員會(huì)為首,建立起國(guó)家級(jí)大型漢語(yǔ)語(yǔ)料庫(kù)。相當(dāng)一批大學(xué)和研究機(jī)構(gòu)對(duì)中文語(yǔ)料庫(kù)的建設(shè)做出了重要貢獻(xiàn)。逐漸創(chuàng)造出一套新的理論與方法,形成了語(yǔ)料語(yǔ)言學(xué)新學(xué)科。

1.2 自然語(yǔ)言處理的發(fā)展

基于以上現(xiàn)狀,構(gòu)建符合我國(guó)國(guó)情的自然語(yǔ)言處理課程,為人工智能的后續(xù)課程奠定理論與實(shí)踐基礎(chǔ)。是NLP發(fā)展壯大的基石,它賦予了技術(shù)“智能化”的基因。相比于基礎(chǔ)NLP技術(shù),例如分詞、詞干提取、詞性標(biāo)注、詞性還原等技術(shù),高級(jí)NLP技術(shù)奠定了NLP未來(lái)發(fā)展的方向[10],主要應(yīng)用于以下四個(gè)方面:

1.2.1 機(jī)器翻譯

得益于翻譯需求的增長(zhǎng),機(jī)器翻譯系統(tǒng)的開(kāi)發(fā)研究已經(jīng)持續(xù)了半個(gè)世紀(jì)。2013年,我國(guó)提出了偉大“一帶一路”倡議,涉及65個(gè)國(guó)家和地區(qū),語(yǔ)言種類(lèi)超過(guò)110種,對(duì)多語(yǔ)言翻譯的需求異常巨大。早期的詞法分析是用分詞工具切分單詞,找出詞匯詞素,利用對(duì)齊算法,獲得單詞的詞義。2016年,Google發(fā)布了神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng),擁有一對(duì)編、解碼器。編碼器負(fù)責(zé)把源語(yǔ)言表示成一個(gè)高維的向量。解碼器負(fù)責(zé)把這個(gè)高維向量再解碼翻譯成目標(biāo)語(yǔ)言。考慮到本校NLP課程的覆蓋范圍涵蓋國(guó)際班和國(guó)內(nèi)班,機(jī)器翻譯具有巨大潛力。

1.2.2 自動(dòng)文本摘要

文本大數(shù)據(jù)是自然語(yǔ)言的主要載體,自動(dòng)文本摘要,是指從原始文檔中,自動(dòng)提取出簡(jiǎn)潔、連貫短文的過(guò)程。如何有效過(guò)濾井噴式信息,凝練出感興趣的內(nèi)容,是自動(dòng)文本摘要的痛點(diǎn)。過(guò)去,利用直接抽取方法生成摘要,準(zhǔn)確率較低。基于深度學(xué)習(xí)的生成式特征提取方式,應(yīng)用注意力機(jī)制,計(jì)算每個(gè)輸入單詞的權(quán)重,已經(jīng)超越了傳統(tǒng)的抽取式模型,取得了不錯(cuò)的訓(xùn)練效果。該方法的普及,對(duì)學(xué)生動(dòng)手能力的培養(yǎng),提高語(yǔ)言概括能力,對(duì)大量未知語(yǔ)料進(jìn)行主成分分析,優(yōu)缺點(diǎn)比較等方面,具有不同程度的提升。

1.2.3 情感分析

情感分析是自然語(yǔ)言處理的常見(jiàn)應(yīng)用場(chǎng)景,其核心是情感分類(lèi)算法與模型[10-12]。傳統(tǒng)算法需要建立情感詞典,對(duì)正面評(píng)價(jià)、負(fù)面評(píng)價(jià)、否定詞匯和程度副詞進(jìn)行分類(lèi),然后劃分情感等級(jí)。然而,語(yǔ)言的發(fā)展與變化對(duì)該方法構(gòu)成了瓶頸。考慮到開(kāi)發(fā)者迫切希望找到未見(jiàn)新詞的需求,主流的NLP方法采用深度學(xué)習(xí)算法[8],訓(xùn)練―映射―編碼是推動(dòng)人工智能時(shí)代發(fā)展的強(qiáng)大引擎。

1.2.4 多模態(tài)模型

預(yù)訓(xùn)練模型的出現(xiàn),使自然語(yǔ)言處理由原來(lái)的手工調(diào)參、依靠機(jī)器學(xué)習(xí)專(zhuān)家的階段,進(jìn)入到可以大規(guī)模、可復(fù)制的大工業(yè)實(shí)施階段。早期NLP中,基于預(yù)訓(xùn)練模型+微調(diào)機(jī)制,具備很高的可擴(kuò)展性,展現(xiàn)出很高潛力。而當(dāng)前研究也從單一語(yǔ)言擴(kuò)展到多模態(tài)。總的來(lái)說(shuō),是從海量大數(shù)據(jù)中學(xué)到蘊(yùn)含在數(shù)據(jù)中的知識(shí)、邏輯,凝練到神經(jīng)網(wǎng)絡(luò)上變成一個(gè)“同質(zhì)化”大模型,旨在訓(xùn)練一套算法,為各種通用智能任務(wù),建立提供服務(wù)的基礎(chǔ)性平臺(tái)。

1.3 自然語(yǔ)言處理的難點(diǎn)

基于上述理由,自然語(yǔ)言處理課程建設(shè)是一項(xiàng)比較復(fù)雜的系統(tǒng)工程。由于數(shù)據(jù)規(guī)模的巨大提升可以彌補(bǔ)數(shù)據(jù)內(nèi)部存在的噪聲,萬(wàn)億級(jí)別的超大模型陸續(xù)涌現(xiàn)。目前,海量數(shù)據(jù)高效標(biāo)注,少量標(biāo)注樣本微調(diào),數(shù)十個(gè)模式場(chǎng)景準(zhǔn)確識(shí)別成為NLP發(fā)展的共識(shí)。該課程理論教學(xué)內(nèi)容跨度較大,橫貫機(jī)器翻譯、文本摘要、情感分析、模態(tài)識(shí)別等多個(gè)方面。這對(duì)教師的知識(shí)體系的廣度、深度,結(jié)構(gòu)化思維和呈現(xiàn)技巧都提出比較高的要求,是NLP課程建設(shè)的主要障礙。

2 結(jié)語(yǔ)

最后,清晰的課程目標(biāo),數(shù)字化平臺(tái)和數(shù)字化工具是探索NLP技術(shù)的良好基礎(chǔ)。課程的開(kāi)設(shè)與學(xué)習(xí),為學(xué)生在求真務(wù)實(shí)中,實(shí)現(xiàn)知識(shí)積累、技能培養(yǎng)、能力提高奠定了扎實(shí)基礎(chǔ)。本文在人工智能專(zhuān)業(yè)本科生中開(kāi)設(shè),年均授課120人,通過(guò)混合教學(xué)方式,提供了iclass的線上課堂體驗(yàn)??紤]到本課程建設(shè)尚在起步階段,后續(xù)本項(xiàng)研究將于本地企業(yè)相結(jié)合,為學(xué)生創(chuàng)造更多真實(shí)應(yīng)用場(chǎng)景與實(shí)習(xí)途徑,為全面提升人工智能專(zhuān)業(yè)本科生的實(shí)踐能力與科學(xué)素養(yǎng),培養(yǎng)人工智能應(yīng)用工程師探索有效途徑。

猜你喜歡
語(yǔ)料庫(kù)人工智能文本
《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
在808DA上文本顯示的改善
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
人工智能與就業(yè)
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
下一幕,人工智能!
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
大渡口区| 鄂托克前旗| 大兴区| 中阳县| 清涧县| 屏山县| 南昌市| 乌兰浩特市| 陆河县| 驻马店市| 遂溪县| 昭苏县| 治多县| 桃源县| 黄大仙区| 郯城县| 古丈县| 淮滨县| 谷城县| 嘉兴市| 湖口县| 木兰县| 新民市| 海晏县| 大姚县| 唐河县| 乌鲁木齐市| 南宫市| 潮州市| 内黄县| 汽车| 牟定县| 固镇县| 镇远县| 微博| 嘉鱼县| 正安县| 望都县| 通辽市| 平顺县| 同仁县|