国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于人工智能的分級閱讀庫建設(shè)

2020-10-23 01:24:20
課外語文 2020年28期
關(guān)鍵詞:句法分級詞匯

李 妍

(浙江外國語學(xué)院,浙江 杭州 310023)

針對以漢語為母語的小學(xué)生,當(dāng)下主流的漢語分級讀物主要有以下三類:一是借用分級的概念,將世界名著換個包裝。其實(shí)只是根據(jù)文章長短大概歸類,或者是將過長的原著進(jìn)行了改寫或縮寫,并沒有具體的分級依據(jù),這種分級做法是最簡單隨意的一種。二是將一些知名作家的作品用分級的概念重新包裝。篇幅短的放到低年級,篇幅長、難度相對深一點(diǎn)的放到高年級。三是由名人編選的分級讀物。編選者的學(xué)術(shù)水平?jīng)Q定了這類讀物選編質(zhì)量還是不錯的,作為課外讀物也是比較理想的選擇,但是作為分級讀物來說,其分級方法依據(jù)個人的學(xué)術(shù)眼光和經(jīng)驗(yàn),比較片面,有些篇目的分級也不甚合理。

為了彌補(bǔ)此項(xiàng)研究的缺陷,建立面向小學(xué)生漢語讀本的人工智能分級體系,閱讀分級,應(yīng)包含三方面的內(nèi)容,即“檢定—內(nèi)容—反饋”?!皺z定”,即以數(shù)據(jù)庫為平臺,參照部編版教材各年級要求和考試內(nèi)容,從聽轉(zhuǎn)寫和文字閱讀兩方面對于該年級學(xué)生的閱讀能力進(jìn)行檢測。目前市面上未有被廣泛使用且準(zhǔn)確有效的檢測手段,多通過數(shù)個閱讀題目進(jìn)行檢測。但兩到三題的閱讀題量有限,無法準(zhǔn)確反映情況;且由于未對閱讀包含的知識點(diǎn)進(jìn)行精準(zhǔn)的切分,因而只能給出針對“詞匯量積累”“信息提取”“文本理解”等區(qū)塊的評級,粗糙且參考價值有限;一些體系并不按照年級劃分,而是將所有水平劃為1000~2000個級別,對于小學(xué)階段各個年級的參考性不夠。

為了能準(zhǔn)確反映各年級小學(xué)生情況,我們設(shè)計(jì)如下測評體系:

一、將每個年級分成三檔,從一年級至六年級,一共十八檔。

二、對閱讀所需知識點(diǎn)進(jìn)行切分。語文與其他學(xué)科不同的是知識點(diǎn)難以有效按年段區(qū)分,其檢測難度也在于此。參照詞匯學(xué)、語用學(xué)等學(xué)科角度,將具體對象分為四個,即聽、說、讀、寫四大角度,每個角度有若干個對應(yīng)知識點(diǎn)。

從聽的角度來說,我們將采用聽寫的形式,根據(jù)每個層級不同的學(xué)生具體情況,以小學(xué)一至六年級課本篇目及適合小學(xué)階段閱讀的名家優(yōu)秀文章為基礎(chǔ),形成一套涵蓋小學(xué)一至六年級不同層級學(xué)生的聽力題庫。聽力題庫也根據(jù)具體情況由易至難、從一年級至六年級劃分六個等級,每一等級中也由易至難劃分成三檔,符合每一檔的學(xué)生基本情況。當(dāng)學(xué)生進(jìn)行聽力檢測時,系統(tǒng)將根據(jù)學(xué)生所在等級,從題庫中提取適合該等級的閱讀篇目,在系統(tǒng)朗讀的過程中,學(xué)生須集中注意力捋順文章思路,摸清文章脈絡(luò),了解文章具體內(nèi)容,從而回答系統(tǒng)根據(jù)文章具體內(nèi)容所提出的有關(guān)閱讀寫作的四個問題。

從說的角度來說,在測試中測試系統(tǒng)會將圖片從簡單到復(fù)雜,從基礎(chǔ)到有思想深度分成六個等級十八個層級,建立圖片題庫。系統(tǒng)將根據(jù)學(xué)生所在等級出示該等級隨機(jī)圖片,學(xué)生須對此圖片進(jìn)行看圖說話,通過系統(tǒng)自動將語音轉(zhuǎn)換成文本,繼而通過對文本的檢閱進(jìn)行等級判定。學(xué)生們須對圖片所表現(xiàn)的人物、環(huán)境、情節(jié),進(jìn)行口頭表達(dá),自擬題目,通過對時間、人物、情節(jié)的具體發(fā)散性描述,由系統(tǒng)轉(zhuǎn)換成文本后進(jìn)行語句通順程度、詞匯運(yùn)用程度以及出現(xiàn)關(guān)鍵詞比例對文章進(jìn)行檢定。每一等級學(xué)生對同一張圖片所描述出的文本檢定要求不同,通過系統(tǒng)對文本的檢測,將文本劃入符合要求的層級中,即為該學(xué)生在閱讀寫作“說”這一方面的能力等級。

從寫的角度來說,測評系統(tǒng)將采用看圖寫作方式,通過圖片題庫根據(jù)學(xué)生所在等級隨機(jī)選擇符合該等級的圖片,學(xué)生須對圖片進(jìn)行描述,從而完成一篇完整的文章,再通過拍下自己所寫的文章,上傳到測評系統(tǒng)中,系統(tǒng)會將圖片轉(zhuǎn)換為文本,通過對文本的檢閱,進(jìn)行對學(xué)生寫作能力等級的判定。學(xué)生所提交的文章的好壞最基礎(chǔ)的在于是否具有圖片中所表現(xiàn)出的關(guān)鍵詞,進(jìn)一步通過對文章字、詞、句的運(yùn)用是否恰當(dāng),文章結(jié)構(gòu)布局是否合理、文章層次是否清楚、文章中心是否突出、語言是否精練完整、思想是否有深度等等進(jìn)行具體判定,通過對文章整體的檢閱,從而劃分該學(xué)生在“寫”方面的層次。

從閱讀的角度來說:1.詞匯庫和句法庫建設(shè);2.中文文本匯集與自然語言詞匯切分算法應(yīng)用;3.基于詞法和句法的分級體系;4.針對讀者的測試庫研究和閱讀分級目錄研究。

為探清上述對象,本文擬由4大板塊建構(gòu)框架,對此體系的可行性進(jìn)行討論。

一、詞法判別

一個詞匯在閱讀當(dāng)中出現(xiàn)的頻率越高,即越常見,讀者就會越熟悉,相應(yīng)閱讀起來難度就會越低;相反,讀者在閱讀中遇到的詞匯越不常見,閱讀難度就越高。這是本讀本分級使用詞匯頻率作為衡量語義難度的基本理念。然而本體系使用的詞匯頻率并不簡單指某一個詞出現(xiàn)在某一篇文章中的頻率,而是在參考《漢語分級詞匯表》的基礎(chǔ)上,結(jié)合大型語料庫計(jì)算得出的頻率。

具體計(jì)算方式為:在語料庫中,計(jì)算出某一個詞匯在每X百萬詞出現(xiàn)次數(shù)的對數(shù)(log),并以此對數(shù)作為詞匯頻率。因此,文本中的詞匯頻率越高,本等級越低,從而越簡單;詞匯頻率越低,本等級越高,即文本越難。

在算法檢索的基礎(chǔ)上,輔助漢語言文學(xué)專業(yè)人員進(jìn)行人工過濾,避免詞匯切分方面的錯誤。

二、句法判別

自然語言研究表明句子越長,難度越高。因?yàn)闈h語長句中定語、狀語和補(bǔ)語等修飾成分較多,讀者不僅要接收更多信息,有些長句還存在雙主語、多謂語和多賓語的情況,這樣還要處理更復(fù)雜的句子關(guān)系,同時也要擁有更好的短時間記憶能力。因此,句子越長,等級越高;相反,句子越短,等級越低。本體系在計(jì)算一篇文章的句法難度時,會先將文章按自然句切分,然后進(jìn)行語句平均長度統(tǒng)計(jì)。由于漢語本身的標(biāo)點(diǎn)符號特性,依據(jù)逗號、上引號、冒號等第二等級標(biāo)點(diǎn)進(jìn)行子句長度統(tǒng)計(jì)。通過代數(shù)公式將子句與長句比率統(tǒng)計(jì),得出句法等級。

句法主要依據(jù):1.語句平均長度統(tǒng)計(jì);2.基于標(biāo)點(diǎn)的子句長度統(tǒng)計(jì);3.子句與長句比率統(tǒng)計(jì)。

三、語料分級

以中外經(jīng)典名著、童話寓言等,如四大名著經(jīng)典章節(jié),《昆蟲記》《尼爾斯騎鵝旅行記》《海底兩萬里》等翻譯外文名著,老舍、林清玄等著名作家短篇小說、散文,《中國寓言故事》《希臘神話故事》,安徒生、格林等神話寓言作為語料,進(jìn)行如下操作:

(一)對待分級原始數(shù)據(jù)進(jìn)行清洗及預(yù)處理

數(shù)據(jù)清洗,即在文本中找到我們感興趣的東西,把不感興趣的、視為噪音的內(nèi)容清洗刪除,包括對于原始文本提取標(biāo)題、摘要、正文等信息,對于爬取的網(wǎng)頁內(nèi)容,去除廣告、標(biāo)簽、HTML、JS 等代碼和注釋等。常見的數(shù)據(jù)清洗方式有:人工去重、對齊、刪除和標(biāo)注等,或者規(guī)則提取內(nèi)容、正則表達(dá)式匹配、根據(jù)詞性和命名實(shí)體提取、編寫腳本或者代碼批處理等。

(二)特征工程于分級算法模型訓(xùn)練

做完文本預(yù)處理之后,接下來需要把分詞之后的字和詞語表示成計(jì)算機(jī)能夠計(jì)算的類型。兩種常用的表示模型分別是詞袋模型和詞向量。詞袋模型(Bag of Word,BOW),即不考慮詞語原本在句子中的順序,直接將每一個詞語或者符號統(tǒng)一放置在一個集合,然后按照計(jì)數(shù)的方式對出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)。詞向量是將字、詞語轉(zhuǎn)換成向量矩陣的計(jì)算模型。目前為止最常用的詞表示方法是One-hot,這種方法把每個詞表示為一個很長的向量。這個向量的維度是詞表大小,其中絕大多數(shù)元素為0,只有一個維度的值為1,這個維度就代表了當(dāng)前的詞。在特征向量選擇好之后,接下來進(jìn)行訓(xùn)練模型,采用有監(jiān)督和無監(jiān)督等機(jī)器學(xué)習(xí)模型,如 KNN、SVM、Naive Bayes、決策樹、GBDT、K-means等模型;深度學(xué)習(xí)模型比如CNN、RNN、LSTM、Seq2Seq、FastText、TextCNN等。

(三)基于標(biāo)準(zhǔn)測試樣本結(jié)合人工分級對分級算法進(jìn)行優(yōu)化

評價指標(biāo)主要有錯誤率、精度、準(zhǔn)確率、精確度、召回率等。以錯誤率為例,主要衡量分類錯誤的樣本數(shù)占樣本總數(shù)的比例。對樣例集D,分類錯誤率計(jì)算公式如下:

隨著時間和變化,可能需要對模型做一定的重構(gòu),包括根據(jù)實(shí)際效果對前面的步驟進(jìn)行調(diào)整,重新訓(xùn)練模型進(jìn)行上線。

四、認(rèn)知分級

按照兒童的認(rèn)知體系,在文本難度分類的基礎(chǔ)上,按照認(rèn)知語言學(xué)的邏輯進(jìn)行認(rèn)知分級,主要依照“自我-親人—學(xué)?!獓摇祟惿鐣钡奈宓燃夁M(jìn)行細(xì)分。如《手推車大作戰(zhàn)》,在依據(jù)詞頻、句法分類后,發(fā)現(xiàn)其文本難度并不高;但由于內(nèi)容涉及戰(zhàn)爭、談判、條約等“人類社會”等級的內(nèi)容,因而在邏輯認(rèn)知分級上層級最高,影響整本書的閱讀等級分級。

通過以上研究,達(dá)到:1.依據(jù)現(xiàn)當(dāng)代語言語料庫,計(jì)算詞頻并建立詞法、句法數(shù)據(jù)庫;2.從詞匯、句式、思想等角度對閱讀文本進(jìn)行詞匯窮盡切分和等級分類;3.構(gòu)建閱讀分級體系并依據(jù)讀者反饋建立閱讀目標(biāo)和計(jì)劃;4.匹配讀者閱讀目標(biāo)與文本等級,真正實(shí)現(xiàn)有效閱讀,并最終建立面向小學(xué)生漢語讀本的人工智能分級。

猜你喜歡
句法分級詞匯
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結(jié)構(gòu)與英語句法配置
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
本刊可直接用縮寫的常用詞匯
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯(lián)句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
分級診療路難行?
分級診療的“分”與“整”
分級診療的強(qiáng)、引、合
佛山市| 延津县| 什邡市| 甘肃省| 日喀则市| 张掖市| 广安市| 化隆| 淄博市| 乌兰浩特市| 汝州市| 文水县| 星子县| 秀山| 新余市| 德兴市| 德江县| 凤翔县| 都兰县| 大埔区| 中卫市| 盐津县| 都匀市| 锦屏县| 翁源县| 湘潭市| 汝城县| 唐河县| 阿克陶县| 靖远县| 古丈县| 荥阳市| 庆城县| 绥中县| 南投县| 突泉县| 苍梧县| 嵩明县| 晋中市| 江西省| 黑龙江省|