張凱 薛嗣媛 周建設(shè)
提 要 梳理近60年(1960~2019)語言智能技術(shù)專利申請(qǐng)文獻(xiàn),可以發(fā)現(xiàn)近5年語言智能技術(shù)進(jìn)步顯著,預(yù)計(jì)在未來較長一段時(shí)期內(nèi)仍將處于技術(shù)爆發(fā)期。當(dāng)下,語言數(shù)據(jù)治理的重要性日漸凸顯。分析當(dāng)前智能技術(shù)賦能下機(jī)器翻譯、智能客服、網(wǎng)絡(luò)輿情監(jiān)測、多語言資源建設(shè)等語言數(shù)據(jù)熱點(diǎn)服務(wù),指出語言數(shù)據(jù)治理體系面臨的技術(shù)困境:(1)語言數(shù)據(jù)的偏見現(xiàn)象;(2)經(jīng)典語言治理模型的短板。為破解困境并彌補(bǔ)經(jīng)典數(shù)據(jù)挖掘模式的短板,提出點(diǎn)狀聚合、線性組合和多層事態(tài)3種語言數(shù)據(jù)治理模式并展開對(duì)比分析,以期對(duì)智能化數(shù)據(jù)治理提供參考。
關(guān)鍵詞 專利文獻(xiàn)分析;語言智能技術(shù)發(fā)展;語言數(shù)據(jù)治理;語言數(shù)據(jù)治理技術(shù)模式
中圖分類號(hào) H002 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-1014(2022)04-0035-14
DOI 10.19689/j.cnki.cn10-1361/h.20220403
A review of the literature on patent applications for language intelligence technology over the past 60 years (1960– 2019) reveals that language intelligence technology has advanced significantly in the past five years. It is anticipated that the technological explosion will last for a long time in the future. The rapid development of language intelligence technology highlights the increasing importance of language data governance. Focusing on language data service sectors such as machine translation, intelligent customer service, opinion monitoring, and multilingual resource construction, this review paper analyses the tendencies of language data service development empowered by intelligent technologies. It points out that the language data governance system faces two technical complications, namely language data bias, and limitations of the traditional language governance models. In order to resolve the dilemma and challenges in language data processing and mining, three language data governance models are proposed and comparatively analysed, i.e., point aggregation, linear combination, and multi-layer state of affairs, which may serve as a reference for intelligent data governance.
patent document analysis; language intelligence technology; language data governance; language data governance model
當(dāng)前人類社會(huì)正處于從信息時(shí)代到智能時(shí)代的過渡期,智能技術(shù)給人類生活帶來了深遠(yuǎn)影響和美好前景。在人類不斷探索智能技術(shù)的過程中,數(shù)據(jù)資源的重要性日益凸顯,數(shù)據(jù)“管理”也逐漸走向數(shù)據(jù)“治理”。這意味著以語言符號(hào)體系為基礎(chǔ)構(gòu)成的各種數(shù)據(jù)將在開放的視野中被重新審視。
語言智能、語言數(shù)據(jù)治理均以語言符號(hào)為起點(diǎn),分別向機(jī)器數(shù)字空間和社會(huì)文化領(lǐng)域展開探索,智能技術(shù)為關(guān)注社會(huì)群體空間和網(wǎng)絡(luò)虛擬空間的語言數(shù)據(jù)研究提供了信息化條件下的治理手段,使治理的智能化發(fā)展成為可能。語言教學(xué)、新媒體及自媒體等現(xiàn)實(shí)場景,對(duì)智能技術(shù)和數(shù)據(jù)治理提出了更高的標(biāo)準(zhǔn)和要求。本文結(jié)合語言智能技術(shù)發(fā)展趨勢,總結(jié)技術(shù)發(fā)展面臨的挑戰(zhàn),綜述技術(shù)賦能語言數(shù)據(jù)治理的現(xiàn)狀,探索語言數(shù)據(jù)治理智能化發(fā)展的新模式。
一、從專利文獻(xiàn)看近60年全球語言智能技術(shù)趨勢及分布
專利文獻(xiàn)記載了發(fā)明創(chuàng)造的內(nèi)容,是科研機(jī)構(gòu)和高科技企業(yè)的核心競爭力,相較學(xué)術(shù)論文更貼近實(shí)際應(yīng)用或產(chǎn)品,是一種重要的知識(shí)產(chǎn)權(quán)保護(hù)手段。挖掘和分析語言智能方向的專利文獻(xiàn),可以通覽語言智能技術(shù)發(fā)展,明晰語言智能技術(shù)創(chuàng)新方向和重點(diǎn),同時(shí)也能為語言數(shù)據(jù)挖掘和智能化治理提供技術(shù)依據(jù)。
(一)全球語言智能技術(shù)發(fā)展趨勢
作為人工智能范疇的專門術(shù)語(楊爾弘,等2018),“語言智能”是語言學(xué)、認(rèn)知科學(xué)與人工智能的交叉和融合,是探究自然語言(人腦語言活動(dòng))和機(jī)器語言之間同構(gòu)關(guān)系的科學(xué)(周建設(shè),等2017;周建設(shè)2020)。語言智能包含計(jì)算智能和認(rèn)知智能,依據(jù)數(shù)據(jù)對(duì)象分為人類生物特征處理、圖像信息處理、文本語言處理等方面的技術(shù)。故此,本文將近60年(1960~2019)上述3項(xiàng)技術(shù)專利文獻(xiàn)作為語言智能概念范疇下的分析對(duì)象。
專利文獻(xiàn)數(shù)據(jù)來源于Inspiro、incoPat平臺(tái),通過文獻(xiàn)內(nèi)容篩選及數(shù)量統(tǒng)計(jì),可知:人類生物特征處理類(共計(jì)41 059件,其中G06K9/00分類共計(jì)22 612件,占比約55%,多是針對(duì)語言衍生數(shù)據(jù)、人工語言數(shù)據(jù)的技術(shù)創(chuàng)新)和圖像信息處理類(共計(jì)40 387件,其中文字識(shí)別和G06K9/00分類共計(jì)3594件,占比約8.9%,多是針對(duì)語言學(xué)科數(shù)據(jù)、話語數(shù)據(jù)、人工語言數(shù)據(jù)的技術(shù)創(chuàng)新)的申請(qǐng)數(shù)量相當(dāng),各占比46%左右。語言文本信息處理技術(shù)類共計(jì)6347件,占比7.2%,多是針對(duì)語言學(xué)科數(shù)據(jù)、話語數(shù)據(jù)、語言代碼數(shù)據(jù)的技術(shù)創(chuàng)新。將上述技術(shù)文獻(xiàn)的歷年申請(qǐng)情況按時(shí)間先后進(jìn)行統(tǒng)計(jì),呈現(xiàn)出的趨勢如圖1所示。
圖1中,總曲線和3個(gè)方向技術(shù)的申請(qǐng)文獻(xiàn)呈現(xiàn)出一定規(guī)律性趨勢,同時(shí)三者之間也存在一定差異。按照總曲線趨勢可簡單進(jìn)行如下階段性劃分。
(1)萌芽期(1960~1984)。自1960年起,每年3類處理技術(shù)均有少量的分布,申請(qǐng)量沒有明顯差距,總量維持在幾十項(xiàng)的規(guī)模。人類生物特征處理、圖像信息處理技術(shù)基本在同一階段開始被關(guān)注。1965~1975年的10年間,生物特征識(shí)別技術(shù)受到重視;1977年后針對(duì)圖像數(shù)據(jù)的內(nèi)容對(duì)比、目標(biāo)識(shí)別技術(shù)取得一定進(jìn)展并引起了研究人員的持續(xù)關(guān)注。而文本符號(hào)處理技術(shù)發(fā)展一直相對(duì)滯后。1984年,語言智能技術(shù)專利單年申請(qǐng)量首次突破三位數(shù),總曲線中出現(xiàn)了首個(gè)關(guān)鍵點(diǎn),之后年份增速開始提升。
(2)穩(wěn)步發(fā)展期(1985~2000)。該階段內(nèi)各方向申請(qǐng)量出現(xiàn)明顯增加,增長速度較為穩(wěn)定,2000年年底申請(qǐng)總量首次接近1500件/年,總曲線出現(xiàn)第二個(gè)關(guān)鍵點(diǎn)。圖像信息處理受到了更多的關(guān)注,增長量較其他類明顯,本階段結(jié)束時(shí)該方向增長約6倍,研究重點(diǎn)由圖像的內(nèi)容對(duì)比轉(zhuǎn)移到了基于圖像內(nèi)容的信息檢索技術(shù)研究,其間自然場景下的文字符號(hào)識(shí)別技術(shù)開始受到關(guān)注。文本符號(hào)處理技術(shù)在該時(shí)期復(fù)蘇,相較圖像信息處理技術(shù)發(fā)展申請(qǐng)量上存在約15年差距,直到1999年申請(qǐng)量單年破百(圖像信息處理1985年達(dá)到),此后關(guān)于文本符號(hào)的內(nèi)容抽取技術(shù)受到更多青睞。
(3)快速發(fā)展期(2001~2010)。本階段結(jié)束時(shí),語言智能技術(shù)申請(qǐng)總量增加0.76倍,圖像信息處理得到持續(xù)關(guān)注,圖像內(nèi)容檢索技術(shù)、人類面部特征識(shí)別、文本內(nèi)容結(jié)構(gòu)化抽取、文本信息對(duì)比等技術(shù)點(diǎn)最為突出,增長趨勢愈發(fā)明顯。在快速發(fā)展期,圍繞語言符號(hào)的智能問答技術(shù)申請(qǐng)開始出現(xiàn),圖像、文本內(nèi)容分類的創(chuàng)新技術(shù)呈現(xiàn)較快發(fā)展。
(4)爆發(fā)期(2011年至今)。以深度學(xué)習(xí)為代表的人工智能技術(shù)快速發(fā)展,引起各類語言模型不同程度的發(fā)展和創(chuàng)新,對(duì)語言智能技術(shù)起到極大促進(jìn)作用。該時(shí)期語言智能技術(shù)專利申請(qǐng)量呈井噴式增長,截至2019年年底,總量增長3.1倍,2015年后每年遞增25%左右。2014年年底,人類生物特征處理和圖像信息處理技術(shù)申請(qǐng)量首次持平,以生理特征智能識(shí)別為代表的生物處理技術(shù)快速突破,該類申請(qǐng)爆發(fā),說明該階段有較強(qiáng)研究力量投入該領(lǐng)域且創(chuàng)新成果顯著。文本信息處理技術(shù)呈現(xiàn)技術(shù)點(diǎn)齊頭并進(jìn)、增長明顯的態(tài)勢,其中語言數(shù)據(jù)的關(guān)系抽取、實(shí)體識(shí)別技術(shù)等逐步成為研究核心,分析可知該時(shí)期圍繞各類型語言數(shù)據(jù)開展了大量數(shù)據(jù)挖掘工作,進(jìn)行了較好技術(shù)儲(chǔ)備,為展開數(shù)據(jù)治理提供了基礎(chǔ)。
由總曲線不難發(fā)現(xiàn),近5年語言智能技術(shù)取得的進(jìn)步是顯著的,同時(shí)在發(fā)展過程中研究關(guān)注點(diǎn)也出現(xiàn)多次轉(zhuǎn)移。參與本次分析的3類技術(shù),在萌芽期數(shù)據(jù)相差不大,如今差異明顯。以2019年專利申請(qǐng)量為例:人類生物特征處理6937件、圖像處理3317件、文本處理803件,可以看出具有人類生物屬性和圖像符號(hào)屬性的數(shù)據(jù)相比文字類抽象數(shù)據(jù)的顯性特征更強(qiáng),在技術(shù)創(chuàng)新方面率先取得突破。語言信息技術(shù)雖在2011年后得到顯著發(fā)展,但較其他兩類數(shù)據(jù)的處理技術(shù)申請(qǐng)量上仍有約15年的差距。依據(jù)總體趨勢預(yù)判,未來較長一段時(shí)期語言智能技術(shù)仍處于技術(shù)爆發(fā)期,更具抽象特性的語言數(shù)據(jù)將會(huì)受到更多研究人員的關(guān)注。
(二)語言智能技術(shù)分布情況
本研究共篩選出相關(guān)文獻(xiàn)87 793件,按照技術(shù)方向進(jìn)行聚類分析,形成技術(shù)點(diǎn)聚焦分布圖。如圖2所示,共形成17種技術(shù)聚焦點(diǎn),其中人類生物特征類2種,圖像信息處理類7種,語言信息類8種。
從申請(qǐng)量上看,文本符號(hào)信息技術(shù)文獻(xiàn)量較其他兩類存在較大差距,進(jìn)一步觀察此類技術(shù)的6347件文獻(xiàn)并完成技術(shù)占比統(tǒng)計(jì),具體結(jié)果見表1。
由表1可知,語言信息抽取(39%)是占比最大的細(xì)分領(lǐng)域,其次是自動(dòng)分類(19%)和實(shí)體識(shí)別(13%),上述3類研究已有一定的技術(shù)儲(chǔ)備,在開展語言符號(hào)的信息處理中已發(fā)揮重要作用。語義內(nèi)容(7%)、關(guān)系抽取(6%)、智能問答(5%)等聚焦點(diǎn)近年來雖然一直是研究熱點(diǎn),但申請(qǐng)占比還不突出,由此來看,上述聚焦點(diǎn)距離業(yè)界實(shí)踐應(yīng)用還有一定距離,仍將是重點(diǎn)和難點(diǎn)研究方向。表1中8類顯著型技術(shù)點(diǎn)發(fā)展趨勢顯示,上述技術(shù)點(diǎn)均在1990年后呈現(xiàn)增長態(tài)勢(見圖3)。1991~2010年的20年間,各技術(shù)點(diǎn)均得到快速發(fā)展,2011年后全球范圍內(nèi)語言信息技術(shù)專利申請(qǐng)量增速明顯,其中語言信息抽取、實(shí)體識(shí)別技術(shù)最為突出,隨著各行業(yè)中語言數(shù)據(jù)資產(chǎn)化進(jìn)程的開展,上述兩個(gè)方向仍將同步維持較高成果產(chǎn)出。
為分析全球主要國家語言智能技術(shù)發(fā)展情況,我們對(duì)文獻(xiàn)數(shù)據(jù)按國別分別進(jìn)行分類統(tǒng)計(jì),形成各國趨勢曲線(見圖4)。這些圖反映出各國的變化曲線呈現(xiàn)一定的差異。
從領(lǐng)域發(fā)展過程看,中國較美國、德國和日本等國技術(shù)起步較晚,到2005年后才出現(xiàn)明顯增速,10年后中國在該領(lǐng)域的技術(shù)專利擁有量已處于領(lǐng)先位置。分析各國3條技術(shù)曲線趨勢,美國、日本、德國和澳大利亞等國對(duì)圖像信息處理更為關(guān)注,其中日本的該條曲線最為突出,中美韓在人類生物信息處理研究上具備一定的優(yōu)勢。在2005年前后,日本、德國和澳大利亞等國分別出現(xiàn)了曲線的下降拐點(diǎn),可見此時(shí)期三國的研究焦點(diǎn)發(fā)生過轉(zhuǎn)移,而中美兩國的增長曲線相似,曲線分布較均衡,呈持續(xù)增長態(tài)勢。通過上述六國各自3條技術(shù)曲線的分布情況不難發(fā)現(xiàn),文本信息處理研究有較大的發(fā)展空間。
2013年,我國率先提出人工智能范疇下的“語言智能”概念,與全球該方向?qū)@暾?qǐng)的爆發(fā)期基本吻合,體現(xiàn)我國研究人員對(duì)此方向的持續(xù)重視和創(chuàng)新,此概念的提出恰逢其時(shí)。語言智能研究既是對(duì)多模態(tài)信息處理技術(shù)的繼承,也為計(jì)算智能和認(rèn)知智能研究對(duì)象界定了范圍,成為多領(lǐng)域、多模態(tài)信息技術(shù)交叉融合發(fā)展的重要方向。未來5~10年間語言智能發(fā)展仍處于技術(shù)爆發(fā)增長期,是學(xué)術(shù)研究、產(chǎn)業(yè)發(fā)展的重點(diǎn)布局方向。
二、語言數(shù)據(jù)治理現(xiàn)狀及困境
數(shù)據(jù)具有生產(chǎn)要素性質(zhì),只有信息化發(fā)展到一定階段才能成為現(xiàn)實(shí),才能被人認(rèn)識(shí)(李宇明2020)。在近10年語言智能技術(shù)爆發(fā)式發(fā)展的背景下,2020年李宇明發(fā)表《語言數(shù)據(jù)是信息時(shí)代的生產(chǎn)要素》一文,明確語言數(shù)據(jù)是生產(chǎn)要素,并納入數(shù)字經(jīng)濟(jì)視野。本節(jié)對(duì)信息時(shí)代下的語言數(shù)據(jù)來源、內(nèi)涵進(jìn)行初探,并對(duì)智能技術(shù)賦能語言數(shù)據(jù)應(yīng)用及語言數(shù)據(jù)治理面臨的挑戰(zhàn)進(jìn)行梳理。
(一)從語言數(shù)據(jù)到語言數(shù)據(jù)治理
人類形成前自然界只有“物理空間”,人類誕生后產(chǎn)生了“社會(huì)空間”,語言與社會(huì)空間共同發(fā)展,演變出以語音為載體的口頭語言。隨著社會(huì)空間發(fā)展,人類利用光波特性研究出有聲媒介,加速了語言信息傳播,伴隨互聯(lián)網(wǎng)時(shí)代的到來,人類邁入“信息空間”。當(dāng)語言數(shù)據(jù)成為發(fā)展經(jīng)濟(jì)和數(shù)字科技的核心要素,語言數(shù)據(jù)已經(jīng)不僅僅是一種文化概念,它是“具有聲光電三大媒介,為人類與機(jī)器兩個(gè)‘物種’共享,將應(yīng)用在社會(huì)、信息、物理三元空間中”(潘云鶴2019)的事物。我們作為智能時(shí)代語言數(shù)據(jù)的創(chuàng)造和使用者,更需要理解語言數(shù)據(jù)內(nèi)涵,并認(rèn)識(shí)語言數(shù)據(jù)的特性。
語言數(shù)據(jù)是以語言符號(hào)體系為基礎(chǔ)構(gòu)成的各種數(shù)據(jù),按數(shù)據(jù)功能簡單概括為:語言學(xué)科數(shù)據(jù)、話語數(shù)據(jù)、語言衍生數(shù)據(jù)、人工語言數(shù)據(jù)和語言代碼數(shù)據(jù)(李宇明,王春輝2022)。語言數(shù)據(jù)屬于數(shù)據(jù)范疇,天然擁有大數(shù)據(jù)的3個(gè)重要特性:“基因”的存儲(chǔ)性、規(guī)律的蘊(yùn)含性、趨勢的預(yù)測性(周建設(shè),等2014),同時(shí)也具有區(qū)別于大數(shù)據(jù)的語言特性,即物質(zhì)性和動(dòng)態(tài)性。物質(zhì)性指語言數(shù)據(jù)必須借助一定的載體傳播信息,如語音、文字、圖片等媒介;動(dòng)態(tài)性指語言數(shù)據(jù)在時(shí)間、空間維度上是動(dòng)態(tài)的,如新型短視頻、中長視頻媒體的快速興起和應(yīng)用,古文字研究在今天依然活躍,體現(xiàn)出語言數(shù)據(jù)的時(shí)空延展性。抖音日活躍用戶超6億(截至2020年12月,2019年日活躍用戶4億),快手日處理數(shù)據(jù)量超過3EB,日入數(shù)據(jù)量超5PB(5120TB)。大規(guī)模的數(shù)據(jù)以場景多片段構(gòu)成(時(shí)間)、分布式存儲(chǔ)(空間)的結(jié)構(gòu),事件內(nèi)容較傳統(tǒng)單篇文件、單視頻展示之間體現(xiàn)出明顯的時(shí)序關(guān)系,用戶關(guān)注度也隨時(shí)間在轉(zhuǎn)移。
語言數(shù)據(jù)治理對(duì)于確保語言數(shù)據(jù)的準(zhǔn)確、適度分享和保護(hù)是至關(guān)重要的。關(guān)注語言數(shù)據(jù)質(zhì)量,保障語言數(shù)據(jù)穩(wěn)定性、準(zhǔn)確性,將語言數(shù)據(jù)從混亂治理成為有序,已逐漸成為國內(nèi)外研究熱點(diǎn)。語言數(shù)據(jù)治理是將語言數(shù)據(jù)作為治理對(duì)象的數(shù)據(jù)治理,目標(biāo)是為國家或組織發(fā)展提供基礎(chǔ)性和戰(zhàn)略性語言資源,促進(jìn)語言數(shù)據(jù)資產(chǎn)的價(jià)值創(chuàng)造,提升語言服務(wù)和語言治理能力。語言數(shù)據(jù)治理涉及元數(shù)據(jù)構(gòu)建、語言數(shù)據(jù)標(biāo)準(zhǔn)制定、語言數(shù)據(jù)安全建設(shè)、語言數(shù)據(jù)存儲(chǔ)及語言智能服務(wù)等多方面。實(shí)現(xiàn)全流程的語言數(shù)據(jù)治理是個(gè)極其復(fù)雜、系統(tǒng)和長期的工程,本文重點(diǎn)關(guān)注語言數(shù)據(jù)治理中數(shù)據(jù)到知識(shí)的治理環(huán)節(jié),未涉及安全、經(jīng)濟(jì)、控制與管理等內(nèi)容。
(二)語言數(shù)據(jù)賦能語言智能技術(shù)的重要任務(wù)
語言智能的核心目標(biāo)是研究人類語言與機(jī)器語言之間的同構(gòu)關(guān)系,當(dāng)前語言數(shù)據(jù)已賦能多種語言智能技術(shù)的應(yīng)用場景。每次技術(shù)革新都帶來專利申請(qǐng)曲線的波動(dòng),隨后為社會(huì)帶來更優(yōu)質(zhì)的語言智能服務(wù),本節(jié)圍繞機(jī)器翻譯、智能客服、網(wǎng)絡(luò)輿情、多語言資源建設(shè)等4個(gè)語言數(shù)據(jù)服務(wù)展開技術(shù)發(fā)展的趨勢分析。
由圖5可知,20世紀(jì)90年代前,機(jī)器翻譯技術(shù)利用詞典匹配技術(shù)(Blazevic 1977)實(shí)現(xiàn),1968年出現(xiàn)申請(qǐng)峰值。而后是詞典結(jié)合語言學(xué)知識(shí)的規(guī)則翻譯(陳肇雄1997),1995年出現(xiàn)申請(qǐng)峰值?;谡Z料庫的統(tǒng)計(jì)機(jī)器翻譯(宋金平2004)取得較大進(jìn)步,2005年出現(xiàn)了申請(qǐng)峰值。隨著運(yùn)算能力提高和多語資源的增長,神經(jīng)網(wǎng)絡(luò)文本翻譯(Li & Liu 2020)取得了明顯成效,2016年出現(xiàn)了申請(qǐng)峰值。但實(shí)時(shí)語音翻譯或自動(dòng)同聲傳譯還面臨很大挑戰(zhàn),語篇如論文、小說等文體翻譯時(shí),術(shù)語一致性問題對(duì)模型可理解性提出了更高要求。
由圖6可知,智能客服技術(shù)起步較晚但呈現(xiàn)申請(qǐng)量快速增長趨勢。其應(yīng)用形式上有聊天(Miyashita 2002;楊敏,等2008)、問答(Horvitz 2002;楊海松,等2006)、任務(wù)式對(duì)話(田春霖,王翔2019;趙丙來,許文軒2021)等,涉及語音識(shí)別、語義理解、對(duì)話狀態(tài)追蹤、語言生成、對(duì)話心理等技術(shù),因?qū)υ捝扇狈υ凑Z言語義約束,涉及問題的復(fù)雜程度沒有任何限制。閑聊對(duì)話和以領(lǐng)域性知識(shí)圖譜為中心的跨領(lǐng)域、跨交互形式的知性會(huì)話系統(tǒng)(黃民烈,馬文暢2021)成為當(dāng)前熱點(diǎn)。
由圖7可知,網(wǎng)絡(luò)輿情監(jiān)測相較其他語言服務(wù)專利申請(qǐng)規(guī)模更大,體現(xiàn)出各國對(duì)這方面的高度重視。早期監(jiān)測策略通常由“關(guān)鍵詞”搭配基本邏輯符號(hào)進(jìn)行語言數(shù)據(jù)檢索(Belagodu et al. 2013),往往需要輔以大量的人工,對(duì)語言數(shù)據(jù)進(jìn)行二次處理。語言智能技術(shù)則讓輿情監(jiān)測從信息檢索走向內(nèi)容多維度識(shí)別(張黎娜,等2020),并通過情感分析(仁慶道爾吉,等2021)獲取明確情感、立場、觀點(diǎn)、態(tài)度、意圖等敏感信息,提高了語言數(shù)據(jù)背后隱含意圖和傾向信息理解的準(zhǔn)確性。網(wǎng)絡(luò)輿情監(jiān)測正在通過事理圖譜、熱點(diǎn)聚類、文本分類等方法,向輿情事件延展、事件特征、風(fēng)險(xiǎn)等級(jí)等智能分析階段發(fā)展。
由圖8可知,在2000年前的資源構(gòu)建中多以語言本體數(shù)據(jù)為對(duì)象,構(gòu)建各語種知識(shí)本體、敘詞本體詞網(wǎng)等(Torrence 1979),之后圍繞民族語言資源(姚聰,等2015)、話題發(fā)現(xiàn)和輿論導(dǎo)向(曾倬穎,張權(quán)2017)等方面的研究成為一種趨勢。2015年后,圍繞語義標(biāo)注、資源保護(hù)、語言模型和智能評(píng)測(胡韌奮,等2021)等技術(shù)研發(fā)成為新方向。近年來,以古文字為對(duì)象的專利開始出現(xiàn),如多特征融合技術(shù)的拓片資源保護(hù)(陳善雄,等2019;高未澤,等2020;肖旭東,等2021)、古籍漢字可視化識(shí)別、文本挖掘的古籍?dāng)?shù)字化(毛建軍2006)、古籍漢字圖像質(zhì)量提升(宋傳鳴,等2021;李邦,等2021)、古籍詞語發(fā)現(xiàn)(楊存耿,等2016;謝昱,等2019)和古籍知識(shí)庫構(gòu)建(徐小力,等2016)。
(三)語言數(shù)據(jù)治理面臨的挑戰(zhàn)
“語言文字智治現(xiàn)代化”(王春輝2020)將語言智能技術(shù)與語言數(shù)據(jù)治理密切關(guān)聯(lián),充分運(yùn)用語言信息化手段,發(fā)展和運(yùn)用語言智能,利用語言智能來集成信息、發(fā)布信息、共享信息、保證信息安全等(李宇明,王海蘭2020),是進(jìn)行語言數(shù)據(jù)治理的必經(jīng)之路。優(yōu)質(zhì)、安全和高效的語言數(shù)據(jù)應(yīng)用及服務(wù)是語言數(shù)據(jù)治理的目標(biāo),治理工作的開展受到政策、經(jīng)濟(jì)、文化、技術(shù)等多方面因素影響,本節(jié)從數(shù)據(jù)質(zhì)量本身及其數(shù)據(jù)治理模式兩方面總結(jié)語言治理工作面臨的突出難題。
1.語言數(shù)據(jù)的偏見現(xiàn)象
機(jī)器學(xué)習(xí)的基本原理是根據(jù)已有的訓(xùn)練數(shù)據(jù)推導(dǎo)出能夠描述出“經(jīng)驗(yàn)”的模型,并根據(jù)得出的模型實(shí)現(xiàn)對(duì)未知的測試數(shù)據(jù)的最優(yōu)預(yù)測。受機(jī)器學(xué)習(xí)原理和技術(shù)特征的影響,其決策結(jié)果會(huì)產(chǎn)生一定偏見,如簡歷篩選系統(tǒng)會(huì)依據(jù)應(yīng)聘者無法控制的特質(zhì)(性別、種族等)做出帶有歧視的篩選。語言數(shù)據(jù)偏見產(chǎn)生的原因較為復(fù)雜,在機(jī)器學(xué)習(xí)的生命周期中包含了數(shù)據(jù)采集、算法訓(xùn)練、人機(jī)交互等多個(gè)環(huán)節(jié),這其中每個(gè)階段都會(huì)存在一定的偏見。
第一,來源于語言數(shù)據(jù)本身的偏見。包括:(1)地域偏見,不同的地域文化和社會(huì)習(xí)俗等會(huì)滲透到語言數(shù)據(jù)中,影響機(jī)器決策并產(chǎn)生偏見。(2)群體偏見,語言數(shù)據(jù)采集者容易主觀性代表部分群體的特征屬性,而此特征屬性與應(yīng)用目標(biāo)群體存在的差異,容易產(chǎn)生偏見現(xiàn)象。這類型偏見同時(shí)會(huì)產(chǎn)生觀察者偏差和聯(lián)想偏差,即無意間在語言數(shù)據(jù)標(biāo)注時(shí)加強(qiáng)了研究者本身的主觀意見,造成數(shù)據(jù)噪音(Suresh &Guttag 2019)。(3)測量偏差,當(dāng)前機(jī)器學(xué)習(xí)算法都基于大量語言數(shù)據(jù)進(jìn)行運(yùn)算,在收集數(shù)據(jù)時(shí),使用不同的數(shù)據(jù)采集工具或者使用觀點(diǎn)不統(tǒng)一的語言數(shù)據(jù)標(biāo)記規(guī)范,最終會(huì)導(dǎo)致數(shù)據(jù)產(chǎn)生大量噪音,測量產(chǎn)生偏差(Olteanu et al. 2019)。(4)表示偏見,當(dāng)數(shù)據(jù)采集時(shí)沒有充分覆蓋目標(biāo)群體的特征,某些樣本的特性并未得到充分表示,這種代表性不足的數(shù)據(jù)表征在運(yùn)算中也會(huì)加劇偏見現(xiàn)象。
第二是來源于智能技術(shù)的偏見。包括:(1)算法偏見,機(jī)器學(xué)習(xí)的特性就是捕捉大數(shù)據(jù)中的經(jīng)驗(yàn)規(guī)律,同時(shí)也會(huì)極大程度上忽略少數(shù)群體在訓(xùn)練過程中的權(quán)重,導(dǎo)致其不能完全代表目標(biāo)群體,由此產(chǎn)生算法決策偏見。(2)排名偏見,基于協(xié)同過濾技術(shù)的智能推薦系統(tǒng),其背后利用了人類的認(rèn)知架構(gòu),對(duì)用戶語言屬性(歷史行為、相關(guān)偏好等)進(jìn)行挖掘,并且依據(jù)使用者習(xí)慣和喜好進(jìn)行優(yōu)先級(jí)排序,排名靠前則會(huì)極大程度上吸引關(guān)注度(Buolamwini&Gebru 2018)。(3)變量偏差,當(dāng)進(jìn)行模型設(shè)計(jì)時(shí)未能完整考慮到影響模型的重要變量,模型預(yù)測會(huì)產(chǎn)生一定偏差(Schmitz et al. 2022)。
第三是來源于人機(jī)交互的偏見。包括:(1)交互偏見,在不同社交平臺(tái)和應(yīng)用場下不同群體的交互行為會(huì)存在偏差,如“微信”和“淘寶”這兩類軟件的交互手段存在差異。此外,信息呈現(xiàn)的方式也同樣影響交互效果(Olteanu et al. 2019)。(2)內(nèi)容偏見,一個(gè)人居住在不同地域、處于不同群體、擔(dān)當(dāng)不同角色所使用的語言內(nèi)容都具有本質(zhì)的差別,當(dāng)進(jìn)行一定語言習(xí)慣轉(zhuǎn)換時(shí)所產(chǎn)生的內(nèi)容結(jié)構(gòu)、語法、語義等誤差,被認(rèn)為是內(nèi)容偏見(Olteanu et al. 2019)。
本節(jié)對(duì)語言數(shù)據(jù)偏見現(xiàn)象產(chǎn)生原因進(jìn)行了粗略歸納,以期了解在語言智能技術(shù)發(fā)展的環(huán)境下所產(chǎn)生的偏見現(xiàn)象。存在偏差的語言數(shù)據(jù)影響語言數(shù)據(jù)質(zhì)量,不良數(shù)據(jù)將持續(xù)加重智能技術(shù)的不公平現(xiàn)象。
2.經(jīng)典語言治理模型的短板
數(shù)據(jù)挖掘的目的是從大數(shù)據(jù)中發(fā)現(xiàn)“有趣知識(shí)”,根據(jù)任務(wù)不同可分為概念描述、關(guān)聯(lián)相關(guān)、分類和預(yù)測、聚類分析、離群點(diǎn)和演變分析等經(jīng)典數(shù)據(jù)挖掘模式(圖2及表1中含有相關(guān)的基礎(chǔ)技術(shù))。經(jīng)典模式下,首先會(huì)將待解決的數(shù)據(jù)治理問題轉(zhuǎn)化成正確的數(shù)據(jù)挖掘任務(wù),然后根據(jù)任務(wù)選擇某種或幾種挖掘模式(Han et al. 2012)。經(jīng)典挖掘模式具有一定的普遍性,在行業(yè)應(yīng)用中受到廣泛關(guān)注,但在服務(wù)于語言數(shù)據(jù)治理時(shí),將會(huì)面臨如下難題。
第一,傳統(tǒng)方法不適用。以業(yè)務(wù)為導(dǎo)向的數(shù)據(jù)挖掘標(biāo)準(zhǔn)體系忽視了語言數(shù)據(jù)自身的特性。經(jīng)典數(shù)據(jù)挖掘模式已在金融、醫(yī)療、司法、零售、制造、保險(xiǎn)等行業(yè)廣泛應(yīng)用,其中也多有語言數(shù)據(jù)參與,但其核心目標(biāo)是為領(lǐng)域業(yè)務(wù)服務(wù)。語言數(shù)據(jù)除具備一般數(shù)據(jù)特征外,還有其自身的內(nèi)涵與規(guī)律。當(dāng)傳統(tǒng)數(shù)據(jù)挖掘方法面臨特殊的語言數(shù)據(jù)信息,以業(yè)務(wù)為導(dǎo)向的治理模式并不能適用。
第二,知識(shí)獲取不充分。語言數(shù)據(jù)僅是知識(shí)獲取的渠道之一,但在網(wǎng)絡(luò)空間中,語言信息資源、語種語類資源的建設(shè)、管理和利用都很不充分。社交網(wǎng)絡(luò)源生語言資源粗放雜亂,不僅造成了數(shù)據(jù)冗余,而且導(dǎo)致語言優(yōu)質(zhì)資源的通行度下降,降低了信息檢索的服務(wù)質(zhì)量,以致產(chǎn)生了現(xiàn)在“語言數(shù)據(jù)豐富,但語言知識(shí)貧乏”的現(xiàn)象。
經(jīng)典數(shù)據(jù)挖掘模式能力不足、語言智能技術(shù)仍存在瓶頸、語言數(shù)據(jù)對(duì)資源依賴性更高,決定了若要在語言數(shù)據(jù)治理的國際競爭中取得主動(dòng)權(quán),必須雙管齊下:既要關(guān)注語言數(shù)據(jù)的數(shù)量與質(zhì)量(降低對(duì)其他資源過度依賴和知識(shí)挖掘難度),也要重視治理模式的優(yōu)化與創(chuàng)新(提升語言知識(shí)獲取和治理模式通用的能力)。在當(dāng)前信息基礎(chǔ)設(shè)施相對(duì)完善而算法工具不變的條件下,模式問題已成為矛盾的主要方面,也是世界各國面臨的普遍難題。
三、語言數(shù)據(jù)治理的技術(shù)模式
科學(xué)合理構(gòu)建語言數(shù)據(jù)治理模式可有效應(yīng)對(duì)挑戰(zhàn),對(duì)語言數(shù)據(jù)資源和智能技術(shù)的發(fā)展均有裨益。其一,語言數(shù)據(jù)作為重要的生產(chǎn)要素,開展治理研究對(duì)于確保數(shù)據(jù)準(zhǔn)確(解決語言符號(hào)的知識(shí)表達(dá)問題)、知識(shí)發(fā)現(xiàn)(解決語言符號(hào)的知識(shí)計(jì)算問題)、適度分享和保護(hù)(解決語言符號(hào)的知識(shí)傳播與保護(hù)問題)至關(guān)重要。其二,清晰、有效的語言數(shù)據(jù)治理需求和場景,可推動(dòng)語言智能技術(shù)良性發(fā)展,不斷積累的語言數(shù)據(jù)治理經(jīng)驗(yàn)要求技術(shù)模式的規(guī)范化和標(biāo)準(zhǔn)化。本節(jié)重點(diǎn)探討并設(shè)計(jì)語言數(shù)據(jù)治理的點(diǎn)狀聚合、線性組合和多層事態(tài)語言模式。
有效的語言數(shù)據(jù)治理框架會(huì)通過優(yōu)化模式、縮減計(jì)算成本、降低輿情風(fēng)險(xiǎn)和提高安全合規(guī)等方式,將語言數(shù)據(jù)(知識(shí))價(jià)值優(yōu)質(zhì)、高效回饋于應(yīng)用,最終服務(wù)于語言文字事業(yè)發(fā)展。本節(jié)在語言智能技術(shù)的背景下,以經(jīng)典數(shù)據(jù)挖掘模式為基礎(chǔ),就現(xiàn)有語言數(shù)據(jù)治理模式組織歸納,提出點(diǎn)狀聚合模式、線性組合模式和多層事態(tài)等語言模式。3類語言數(shù)據(jù)治理的模式對(duì)應(yīng)不同的場景或語言數(shù)據(jù)任務(wù),分別圍繞語言數(shù)據(jù)不同層次展開技術(shù)構(gòu)建。
點(diǎn)狀聚合模式(單點(diǎn))以語言符號(hào)中的詞性(如名詞)為關(guān)注點(diǎn),圍繞實(shí)體詞,以屬性為橋梁,通過實(shí)體點(diǎn)聚合,構(gòu)建一個(gè)空間知識(shí)體系,目標(biāo)是構(gòu)成結(jié)構(gòu)化的語義知識(shí)庫。計(jì)算機(jī)數(shù)據(jù)結(jié)構(gòu)上對(duì)應(yīng)的是有向圖結(jié)構(gòu),呈現(xiàn)<實(shí)體,關(guān)系,實(shí)體>的點(diǎn)狀聚合特點(diǎn),其中實(shí)體由<屬性,值>構(gòu)成,實(shí)體間通過屬性關(guān)系進(jìn)行關(guān)聯(lián)。該模式圍繞實(shí)體點(diǎn)構(gòu)成語言符號(hào)的知識(shí)結(jié)構(gòu),存儲(chǔ)于圖數(shù)據(jù)庫中。點(diǎn)狀聚合模式的知識(shí)結(jié)構(gòu)是對(duì)現(xiàn)有語義網(wǎng)的擴(kuò)充,對(duì)語言數(shù)據(jù)做行業(yè)細(xì)分,以單個(gè)術(shù)語為實(shí)體,在經(jīng)典數(shù)據(jù)挖掘模式基礎(chǔ)上,結(jié)合語言資源特點(diǎn)可以構(gòu)建出細(xì)分行業(yè)語義庫。該模式體現(xiàn)出語言數(shù)據(jù)“基因”的存儲(chǔ)性和規(guī)律的蘊(yùn)含性特征。
線性組合模式(交互)以語言符號(hào)中事件關(guān)系為關(guān)注點(diǎn)(如謂詞邏輯),目標(biāo)是構(gòu)建出結(jié)構(gòu)化的事件組合場景,該模式的中心點(diǎn)持續(xù)圍繞謂詞變化而轉(zhuǎn)移,通過場景切換形成具有一定概率的事件組合庫。計(jì)算機(jī)數(shù)據(jù)結(jié)構(gòu)上對(duì)應(yīng)的是具有概率屬性的有向圖結(jié)構(gòu),呈現(xiàn)出<事件,關(guān)系,事件>的線性組合特點(diǎn),其中事件由<屬性,概率>構(gòu)成,事件間通過事件關(guān)系進(jìn)行關(guān)聯(lián)。該模式圍繞事件序列構(gòu)成語言符號(hào)的知識(shí)結(jié)構(gòu)并存儲(chǔ)于圖數(shù)據(jù)庫中,模式的發(fā)展通過事件轉(zhuǎn)移矩陣確定趨勢方向。該模式體現(xiàn)出語言數(shù)據(jù)的趨勢預(yù)測性。
多層事態(tài)模式(事態(tài))以語言符號(hào)整體為著眼點(diǎn),化形于現(xiàn)實(shí)世界,通過追蹤語言符號(hào)的事態(tài)變化,形成具有特定場景的、具有語義完備性的多層事態(tài)模式,該模式的目標(biāo)是形成個(gè)體化語義場景描述的數(shù)據(jù)結(jié)構(gòu)。計(jì)算機(jī)數(shù)據(jù)結(jié)構(gòu)上對(duì)應(yīng)復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),形成<實(shí)體,知識(shí)圖譜,事態(tài),事件,事理圖譜>結(jié)構(gòu)的多層形態(tài),其中事態(tài)即事件的狀態(tài),指表示事件發(fā)生與否、出現(xiàn)與否、存在與否。事態(tài)與動(dòng)態(tài)兩者著眼點(diǎn)不同,動(dòng)態(tài)關(guān)注的是謂詞所表示的動(dòng)作變化,通過時(shí)態(tài)或狀態(tài)體現(xiàn),事態(tài)關(guān)注的是句子所表示的事件狀態(tài),由事態(tài)語氣或時(shí)間狀態(tài)體現(xiàn)。多層事態(tài)模式體現(xiàn)出語言數(shù)據(jù)的時(shí)序和空間的延展性。
結(jié)合經(jīng)典數(shù)據(jù)挖掘模式,我們對(duì)點(diǎn)狀聚合、線性組合和多層事態(tài)治理模式的各自特點(diǎn)分別進(jìn)行多維度對(duì)照分析,詳見表3。在具體的語言數(shù)據(jù)治理任務(wù)中,可根據(jù)不同的治理目標(biāo)采取某種或幾種模式。
在語言數(shù)據(jù)安全和共享標(biāo)準(zhǔn)支持下,我們結(jié)合語言數(shù)據(jù)資源構(gòu)建流程,展示本文設(shè)計(jì)的3種語言模式的聯(lián)系,共同為語言資源和服務(wù)建設(shè)提供支撐,詳見圖9。智能化條件下語言數(shù)據(jù)治理的核心思想是語言數(shù)據(jù)間的關(guān)聯(lián)融合,所有模式均需要進(jìn)行“人-機(jī)”結(jié)合的多次模型訓(xùn)練,以期達(dá)到最佳的治理效果。雖然語言數(shù)據(jù)由于自身蘊(yùn)含特征規(guī)律的表現(xiàn)形式不同,造成語言數(shù)據(jù)治理模式的差異化,但建立在治理模式上的語言數(shù)據(jù)應(yīng)用服務(wù)卻容易形成相對(duì)穩(wěn)定的結(jié)構(gòu)。隨著上述模式結(jié)構(gòu)的復(fù)雜性增加,對(duì)語言數(shù)據(jù)治理的基礎(chǔ)技術(shù)能力要求也逐漸提高。
四、結(jié) 語
語言智能技術(shù)是科技創(chuàng)新的重要?jiǎng)恿驮慈?,圍繞語音識(shí)別、人機(jī)對(duì)話、機(jī)器翻譯、多模態(tài)語義分析技術(shù)所衍生的新興業(yè)態(tài),已由實(shí)驗(yàn)階段走向市場應(yīng)用。本文通過對(duì)近60年語言智能技術(shù)專利文獻(xiàn)進(jìn)行挖掘,就技術(shù)發(fā)展趨勢及布局變遷進(jìn)行總結(jié),探索了技術(shù)發(fā)展的規(guī)律和成熟度,為展開語言數(shù)據(jù)治理提供技術(shù)儲(chǔ)備。依據(jù)專利熱點(diǎn)分析技術(shù)賦能語言數(shù)據(jù)服務(wù)的最新趨勢并歸納語言數(shù)據(jù)治理面臨的技術(shù)挑戰(zhàn)。為應(yīng)對(duì)技術(shù)挑戰(zhàn),彌補(bǔ)經(jīng)典數(shù)據(jù)挖掘模式的不足,本文提出了語言數(shù)據(jù)治理的3種語言模式并展開應(yīng)用分析。語言數(shù)據(jù)是對(duì)象,語言智能技術(shù)是手段,語言模式是方法,語言治理是目的,本文厘清語言智能技術(shù)整體發(fā)展和未來趨勢,探討了語言數(shù)據(jù)治理中存在的技術(shù)難題并探索性地提出語言數(shù)據(jù)治理模式,以期為智能化數(shù)據(jù)治理提供參考。
參考文獻(xiàn)
陳善雄,莫伯峰,高未澤,等 2019 一種基于局部CNN框架的甲骨拓片分類方法,中國:CN201910917806.X,2019-09-26。
陳肇雄 1997 機(jī)器翻譯中的復(fù)雜上下文相關(guān)處理方法,中國:CN97111944.9,1997-07-02。
高未澤,田瑤琳,陳善雄,等 2020 基于曲線輪廓匹配的甲骨拓片綴合方法,中國:CN202010191701.3,2020-03-18。
胡韌奮,王予沛,彭一平,等 2021 一種漢語二語作文自動(dòng)評(píng)分方法,中國:CN202110896135.0,2021-08-05。
黃民烈,馬文暢 2021 基于知識(shí)圖譜的智能對(duì)話推薦方法及裝置,中國:CN202110426610.8,2021-04-20。
李 邦,張 展,郭 安,等 2021 基于生成對(duì)抗網(wǎng)絡(luò)的甲骨片輪廓與字符痕跡自動(dòng)提取方法,中國:CN202110888155.3,2021-11-02。
李宇明 2020 《語言數(shù)據(jù)是信息時(shí)代的生產(chǎn)要素》,《光明日?qǐng)?bào)》7月4日第12版。
李宇明,王春輝 2022 《從數(shù)據(jù)到語言數(shù)據(jù)》,《語言戰(zhàn)略研究》第4期。
李宇明,王海蘭 2020 《粵港澳大灣區(qū)的四大基本語言建設(shè)》,《語言戰(zhàn)略研究》第5期。
毛建軍 2006 《古籍?dāng)?shù)字化概念的形成過程探析》,《科技情報(bào)開發(fā)與經(jīng)濟(jì)》第22期。
潘云鶴 2019 《“人工智能2.0”與數(shù)字經(jīng)濟(jì)》,《杭州科技》第5期。
仁慶道爾吉,尹玉娟,麻澤蕊,等 2021 一種基于多尺寸CNN和LSTM模型的蒙古語文本情感分析方法,中國:CN202110533016.9,2021-05-17。
宋傳鳴,王一琦,何熠輝,等 2021 LM濾波器組引導(dǎo)紋理特征自主學(xué)習(xí)的甲骨文字檢測方法,中國:CN202110900543.9,2021-11-19。
宋金平 2004 基于語言知識(shí)庫的機(jī)器翻譯方法與裝置,中國:CN200410001187.3,2004-02-04。
田春霖,王 翔 2019 面向任務(wù)式對(duì)話系統(tǒng)意圖識(shí)別的語料庫生成方法和裝置,中國:CN201910163098.5,2019-03-05。
王春輝 2020 《關(guān)于語言文字治理現(xiàn)代化的若干思考》,《語言戰(zhàn)略研究》第6期。
肖旭東,李 勇,喬 丹,等 2021 一種噴丸覆蓋率的拓印測量方法,中國:CN202110864413.4,2021-11-12。
謝 昱,江 路,林金瑞,等 2019 一種多功能信息化古籍書影管理平臺(tái)及方法,中國:CN201910509035.0,2019-06-13。
徐小力,吳國新,王紅軍,等 2016 一種東巴經(jīng)典古籍?dāng)?shù)字化釋讀庫的建立方法,中國:CN201610304529.1,2016-05-10。
楊存耿,謝術(shù)清,楊曉強(qiáng),等 2016 一種SaaS古籍知識(shí)服務(wù)云平臺(tái),中國:CN201621020211.2,2016-08-31。
楊爾弘,劉鵬遠(yuǎn),韓林濤,等 2018 《語言智能那些事兒》,載國家語言文字工作委員會(huì)組編《中國語言生活狀況報(bào)告(2018)》,北京:商務(wù)印書館。
楊海松,鄧大付,余祥鑫,等 2006 自動(dòng)問答方法及系統(tǒng),中國:CN200610059919.3,2006-02-28。
楊 敏,遲長燕,肖文鵬,等 2008 保持聊天記錄和聊天內(nèi)容的對(duì)應(yīng)關(guān)系的設(shè)備和方法,中國:CN200810127448.4,2008-06-30。
楊文珍,吳新麗,宣建強(qiáng),等 2017 一種漢文到盲文的自動(dòng)高效翻譯轉(zhuǎn)換方法,中國:CN201710550659.8,2017-07-07。
姚 聰,周舒暢,周昕宇,等 2015 基于圖像的語種識(shí)別方法及裝置,中國: CN201510520119.6,2015-08-21。
張黎娜,錢 婧,袁 磊,等 2020 文本內(nèi)容識(shí)別和違規(guī)廣告識(shí)別方法、裝置及電子設(shè)備,中國:CN202011044853.7,2020-09-28。
張 引,陳琴菲 2019 一種多特征融合的古今漢語自動(dòng)翻譯方法,中國:CN201910033155.8,2019-01-14。
趙丙來,許文軒 2021 基于語義規(guī)則的心理知識(shí)與方法推薦系統(tǒng),中國:CN202110882966.2,2021-08-02。
曾倬穎,張 權(quán) 2017 網(wǎng)絡(luò)輿情態(tài)勢的安全評(píng)估方法、終端及計(jì)算機(jī)存儲(chǔ)介質(zhì),中國:CN201710595532.8,2017-07-20。
周建設(shè) 2020 《加快科技創(chuàng)新 攻關(guān)語言智能》,《人民日?qǐng)?bào)》12月21日第19版。
周建設(shè),呂學(xué)強(qiáng),史金生,等 2017 《語言智能研究漸成熱點(diǎn)》,《中國社會(huì)科學(xué)報(bào)》2月7日第003版。
周建設(shè),彭 琰,張 躍,等 2014 《基于大數(shù)據(jù)的漢語表達(dá)智能模型及其理論基礎(chǔ)》,《首都師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》第5期。
Han, J. W., M. Kamber& J. Pei. 2012. 《數(shù)據(jù)挖掘概念與技術(shù)》,范明,孟小峰譯,北京:機(jī)械工業(yè)出版社。
Belagodu, A., N. Dittakavi& V. Ganti. Data retrieval system. USA: US14010477, 2013-08-26.
Blazevic, M. 1977. Device for automatically recording, reproducing and translating, a magnetic transducer. USA: US05/768563, 1977-02-14.
Buolamwini, J. & T. Gebru. 2018. Gender shades: Intersectional accuracy disparities in commercial gender classification. , 77–91.
Horvitz, E. J. 2002. System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service. USA: US10185150, 2002-06-28.
Li, Y. H. & B. Y. Liu. 2020. Method and apparatus for processing word vector of neural machine translation model, and non-transitory computer-readable recording medium. USA: US16809844, 2020-03-05.
Miyashita, K. 2002. Chat system displaying a link arrow directed from a hyperlink to content of an associated attachment file. USA: US10314226, 2002-12-09.
Olteanu, A., C. Castillo, F. Diaz, et al. 2019. Social data: Biases, methodological pitfalls, and ethical boundaries. 2. Accessed at https://www.microsoft.com/en-us/research/wp-content/uploads/2017/03/SSRN-id2886526.pdf.
Schmitz, M., R. Ahmed & J. Cao. 2022. Bias and fairness on multimodal emotion detection algorithms. arXiv preprint arXiv: 2205.08383.
Suresh, H. & J. V. Guttag. 2019. A framework for understanding unintended consequences of machine learning. arXiv preprint arXiv: 1901.10002.
Torrence, K. R. 1979. Method and apparatus for compensation during ultrasound examination. USA: US06/072717, 1979-09-04.
責(zé)任編輯:韓 暢
各國專利文獻(xiàn)主要包括專利申請(qǐng)書、說明書、公報(bào)、文摘、索引等各種官方文件和官方出版物,既包含與發(fā)明創(chuàng)造的研究、設(shè)計(jì)、開發(fā)和試驗(yàn)成果相關(guān)的技術(shù)性資料,也包含與權(quán)利授予、權(quán)利變更、權(quán)利保護(hù)相關(guān)的法律性資料,本文分析中以專利文件和技術(shù)性資料為主。
因?qū)@墨I(xiàn)公開有條件限制,在準(zhǔn)備本文時(shí),部分文獻(xiàn)未公開,或因本文設(shè)計(jì)查詢分析中存在一定技術(shù)性遺漏,所以實(shí)際文獻(xiàn)數(shù)可能大于分析文獻(xiàn)數(shù),但對(duì)文中各統(tǒng)計(jì)結(jié)果與整體趨勢分析影響不大。
本文專利數(shù)據(jù)收集范圍包括中國(CN)、美國(US)、日本(JP)、德國(DE)、英國(GB)、法國(FR)、瑞士(CH)、韓國(KR)、歐洲專利局(EP)和世界知識(shí)產(chǎn)權(quán)局(WIPO)等100多個(gè)國家或地區(qū)、機(jī)構(gòu)的專利文摘數(shù)據(jù),輔以其他非專利文獻(xiàn)資料。
Inspiro是國內(nèi)首個(gè)整合了全球及中國專利、商標(biāo)、版權(quán)、地理標(biāo)志、植物新品種、集成電路、知識(shí)產(chǎn)權(quán)法律文書、標(biāo)準(zhǔn)、科技期刊和企業(yè)商情等知識(shí)產(chǎn)權(quán)大數(shù)據(jù)資源的創(chuàng)新情報(bào)平臺(tái),最新嵌入外觀設(shè)計(jì)和商標(biāo)圖像智能檢索功能。incoPat是全球首個(gè)面向華語研發(fā)創(chuàng)新人員的專利情報(bào)平臺(tái),提供及時(shí)、全面、準(zhǔn)確的情報(bào)信息,幫助跟蹤最新的技術(shù)發(fā)展,規(guī)避專利侵權(quán)風(fēng)險(xiǎn),掌握競爭對(duì)手的研發(fā)動(dòng)態(tài),實(shí)現(xiàn)知識(shí)產(chǎn)權(quán)的商業(yè)價(jià)值。
G06K9/00分類與語言數(shù)據(jù)處理相關(guān),是表示用于閱讀、識(shí)別印刷、書寫字符或識(shí)別圖形的國際專利分類號(hào)。
這里采納李宇明、王春輝(2022)中語言數(shù)據(jù)的5種分類。
參見《2020年抖音數(shù)據(jù)分析報(bào)告》,https://wenku.baidu.com/view/78c448881937f111f18583d049649b6648d70988.html。
參見中華人民共和國國家標(biāo)準(zhǔn)《信息技術(shù)服務(wù) 治理 第5部分:數(shù)據(jù)治理規(guī)范》(GB/T 34960.5—2018)。
不局限于常規(guī)語種,出現(xiàn)了如漢語到盲文(楊文珍,等2017)、古今漢語(張引,陳琴菲2019)等互譯。
“語言文字智治現(xiàn)代化”涉及兩個(gè)層面:其一,提升針對(duì)語言數(shù)據(jù)的治理體系和治理能力現(xiàn)代化;其二,利用數(shù)字化和智能化的便利條件來提升語言治理的現(xiàn)代化水平。參見王春輝(2020)。
見二(一)中有關(guān)語言數(shù)據(jù)的特性分析。