国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

統(tǒng)計(jì)學(xué)在人工智能發(fā)展中的作用及其應(yīng)用展望

2023-12-13 23:56:46李志勇焦微玲
統(tǒng)計(jì)與決策 2023年21期
關(guān)鍵詞:解釋性變量人工智能

李志勇,焦微玲

(1.江蘇省社情民意調(diào)查中心,南京 210000;2.鹽城工學(xué)院 經(jīng)濟(jì)管理學(xué)院,江蘇 鹽城 224002)

0 引言

人工智能(Artificial Intelligence,AI)指制造智能機(jī)器的科學(xué)和工程,強(qiáng)調(diào)創(chuàng)造能夠在各種新穎和無(wú)法預(yù)知的情況下模擬、復(fù)制和拓展人類智能以有效行動(dòng)的機(jī)器。隨著現(xiàn)代人工智能進(jìn)入快速發(fā)展階段,除倫理、道德、安全、法律、隱私、社會(huì)治理規(guī)則等問(wèn)題引起廣泛關(guān)注外,人工智能在數(shù)據(jù)獲取和處理、因果推斷、不確定性、結(jié)果可解釋性等方面存在的問(wèn)題也引發(fā)大量討論。統(tǒng)計(jì)學(xué)提供了大量的發(fā)現(xiàn)數(shù)據(jù)結(jié)構(gòu)、探索數(shù)據(jù)內(nèi)涵并進(jìn)行預(yù)測(cè)的工具和方法,是分析和量化不確定性最重要的學(xué)科之一。數(shù)據(jù)科學(xué)是從數(shù)據(jù)中提取信息,輔助發(fā)現(xiàn)知識(shí)并支持決策的一門科學(xué),統(tǒng)計(jì)學(xué)是數(shù)據(jù)科學(xué)的基礎(chǔ),為數(shù)據(jù)科學(xué)提供了基礎(chǔ)理論和方法,人工智能是數(shù)據(jù)科學(xué)的一個(gè)應(yīng)用領(lǐng)域。因此,基于數(shù)據(jù)科學(xué)全流程正確認(rèn)識(shí)統(tǒng)計(jì)學(xué)在人工智能中的作用與應(yīng)用,有助于整合統(tǒng)計(jì)學(xué)模型與方法,改進(jìn)人工智能算法及其結(jié)果,進(jìn)一步推進(jìn)人工智能發(fā)展,更有助于統(tǒng)計(jì)學(xué)與人工智能實(shí)現(xiàn)融通共進(jìn),共同促進(jìn)數(shù)據(jù)科學(xué)發(fā)展。

1 統(tǒng)計(jì)學(xué)與人工智能的關(guān)聯(lián)性

人工智能是關(guān)于知識(shí)的學(xué)科——怎樣表示知識(shí)以及怎樣獲得知識(shí)并使用知識(shí)的科學(xué),其核心因素是數(shù)據(jù)、算法和算力。早在20世紀(jì)50到60年代,人工智能就開(kāi)發(fā)了包括感知機(jī)(Perceptron)算法、反向傳播(Backpropagation)算法等第一代數(shù)據(jù)驅(qū)動(dòng)算法。20世紀(jì)90年代人工智能再次得到快速發(fā)展,支持向量機(jī)(Support Vector Machines)、隨機(jī)森林(Random Forest)、貝葉斯方法(Bayesian Methods)等的提出奠定了人工智能機(jī)器學(xué)習(xí)的方法和思路。隨著深度置信網(wǎng)絡(luò)算法(Deep Belief Networks)、生成對(duì)抗網(wǎng)絡(luò)模型(Generative Adversarial Networks,GAN)和深度GAN的提出,人工智能神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)快速發(fā)展,人工智能網(wǎng)絡(luò)結(jié)構(gòu)更具有顛覆性。

人工智能技術(shù)及其應(yīng)用的許多突破源于計(jì)算機(jī)科學(xué),而統(tǒng)計(jì)學(xué)在人工智能的整個(gè)發(fā)展過(guò)程中做出了巨大貢獻(xiàn)[1]。統(tǒng)計(jì)學(xué)促進(jìn)了人工智能理論研究與實(shí)際應(yīng)用的發(fā)展,許多統(tǒng)計(jì)理論在人工智能領(lǐng)域有著重要應(yīng)用,統(tǒng)計(jì)思維影響著人機(jī)協(xié)作數(shù)據(jù)獲取、算法研發(fā)和結(jié)果分析,統(tǒng)計(jì)模型與方法則為人工智能算法奠定了堅(jiān)實(shí)基礎(chǔ)并在人工智能系統(tǒng)開(kāi)發(fā)設(shè)計(jì)、算法完善等方面發(fā)揮了重要作用。例如:反向傳播和非線性最小二乘法之間關(guān)系的實(shí)現(xiàn)[2];徑向基函數(shù)網(wǎng)絡(luò)可看作統(tǒng)計(jì)學(xué)中的非線性回歸模型來(lái)研究;一致性說(shuō)明、泛化邊界等機(jī)器學(xué)習(xí)方法的理論有效性需要大量的數(shù)理統(tǒng)計(jì)和概率論基礎(chǔ)知識(shí);超級(jí)機(jī)器學(xué)習(xí)或?qū)挾葘W(xué)習(xí)系統(tǒng)與多元回歸、嶺回歸等線性數(shù)據(jù)統(tǒng)計(jì)方法密切相關(guān);在語(yǔ)音識(shí)別以及文本分析和翻譯任務(wù)中,統(tǒng)計(jì)學(xué)中擅長(zhǎng)語(yǔ)音識(shí)別、文本分析和翻譯的隱馬爾可夫模型得到使用和進(jìn)一步發(fā)展,并取得巨大成功;基于懲罰或魯棒估計(jì)方法改進(jìn)機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)超級(jí)機(jī)器學(xué)習(xí)等。

因此,人工智能和統(tǒng)計(jì)學(xué)有著極強(qiáng)的關(guān)聯(lián)性。目前人工智能培養(yǎng)思維能力的基本途徑是機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)是指“通過(guò)使用計(jì)算機(jī)算法自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律”,2000年開(kāi)始,隨著數(shù)據(jù)規(guī)模的增加,機(jī)器學(xué)習(xí)開(kāi)始更多地將統(tǒng)計(jì)學(xué)方法和算法用于模擬機(jī)器智能,通過(guò)機(jī)器學(xué)習(xí)實(shí)現(xiàn)統(tǒng)計(jì)學(xué)習(xí)。還有學(xué)者認(rèn)為人工智能是統(tǒng)計(jì)學(xué)的應(yīng)用,有的學(xué)者認(rèn)為統(tǒng)計(jì)學(xué)是人工智能的重要基礎(chǔ),而諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者Thomas J.Sargent則認(rèn)為人工智能其實(shí)就是統(tǒng)計(jì)學(xué)。

2 統(tǒng)計(jì)學(xué)在人工智能中的作用與應(yīng)用

人工智能本質(zhì)上是數(shù)據(jù)驅(qū)動(dòng)的,而統(tǒng)計(jì)學(xué)是從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律的學(xué)科,兩者都在數(shù)據(jù)科學(xué)中發(fā)揮著核心作用。根據(jù)CRISP-DM(Cross Industry Standard Process for Data Mining,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)的規(guī)定,數(shù)據(jù)科學(xué)工作主要包括業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評(píng)估和部署六個(gè)步驟,每一個(gè)步驟都直接關(guān)系到結(jié)果的有效性和可靠性。統(tǒng)計(jì)學(xué)在數(shù)據(jù)測(cè)度和評(píng)估方面具有極強(qiáng)的專業(yè)性,在確定研究目標(biāo)和問(wèn)題、設(shè)計(jì)研究方案、進(jìn)行數(shù)據(jù)收集與分析、分析和解釋研究結(jié)果方面均有獨(dú)特科學(xué)的方案。而人工智能往往更專注于數(shù)據(jù)分析而較少關(guān)注其他步驟,這可能導(dǎo)致在關(guān)鍵問(wèn)題上產(chǎn)生誤導(dǎo)性解釋。因此,本文結(jié)合現(xiàn)有研究對(duì)數(shù)據(jù)科學(xué)的定義和工作步驟,從研究問(wèn)題、數(shù)據(jù)收集、數(shù)據(jù)質(zhì)量、數(shù)據(jù)分析、結(jié)果解釋等方面系統(tǒng)探討統(tǒng)計(jì)學(xué)在人工智能中的作用與應(yīng)用。

2.1 確定研究問(wèn)題

人工智能的核心是機(jī)器學(xué)習(xí),根據(jù)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)概念,機(jī)器學(xué)習(xí)從給定的數(shù)據(jù)或公開(kāi)數(shù)據(jù)中提取信息和知識(shí),對(duì)經(jīng)驗(yàn)的依賴性很強(qiáng),結(jié)論的有效性和普適性也因此受到影響。統(tǒng)計(jì)學(xué)的研究問(wèn)題從理論問(wèn)題中衍生出來(lái),實(shí)證研究檢驗(yàn)的變量具有概念化和可操作性,分析遵循“初步的定性認(rèn)識(shí)—科學(xué)的定量分析—理性的定性認(rèn)識(shí)”過(guò)程,研究結(jié)果服務(wù)于特定目標(biāo)。通過(guò)背景分析、確定研究問(wèn)題進(jìn)而形成初步的定性認(rèn)識(shí),將為科學(xué)的定量分析奠定良好的基礎(chǔ),從而消除系統(tǒng)性誤差、減少隨機(jī)誤差,提高分析推斷精度,使得結(jié)論更加有效和實(shí)用。

確定研究問(wèn)題還有助于選擇更合適的理論框架和方法。統(tǒng)計(jì)學(xué)具有處理隨機(jī)性或部分隨機(jī)性問(wèn)題和數(shù)據(jù)的豐富經(jīng)驗(yàn),這些數(shù)據(jù)和問(wèn)題更加關(guān)注概率、誤差等方面,具有確定性背景的圖論結(jié)構(gòu)數(shù)據(jù)和問(wèn)題則更加關(guān)注魯棒性或敏感性。

2.2 設(shè)計(jì)數(shù)據(jù)收集方案

2.2.1 人工智能中的數(shù)據(jù)及其特征

人工智能背景下的數(shù)據(jù)通常具有以下特征:(1)常規(guī)數(shù)據(jù)。人工智能不會(huì)基于特定目標(biāo)或特定研究問(wèn)題收集數(shù)據(jù),例如出于日常存儲(chǔ)或記賬目的而收集數(shù)據(jù)。將這些常規(guī)數(shù)據(jù)用于科學(xué)研究是人工智能的典型應(yīng)用,例如使用醫(yī)療賬單數(shù)據(jù)預(yù)測(cè)醫(yī)療事故。這樣的數(shù)據(jù)大多是二手?jǐn)?shù)據(jù),不但存在大量冗余數(shù)據(jù),而且數(shù)據(jù)的邏輯關(guān)系模糊。(2)方便數(shù)據(jù)。被用于科學(xué)研究的數(shù)據(jù)并非隨機(jī)抽取的樣品,而是基于可獲取性收集的方便樣品,例如在線問(wèn)卷收集的數(shù)據(jù)僅僅是由訪問(wèn)該主頁(yè)并愿意花時(shí)間填寫問(wèn)卷的用戶提供的。這樣的樣本數(shù)據(jù)往往缺乏代表性,可能導(dǎo)致系統(tǒng)性統(tǒng)計(jì)誤差。(3)高維數(shù)據(jù)。醫(yī)療數(shù)據(jù)、城市數(shù)據(jù)、體育數(shù)據(jù)等往往是高維數(shù)據(jù),人工智能具有處理高維數(shù)據(jù)的先天優(yōu)勢(shì),但是輸入高維數(shù)據(jù)有可能觀察到大量特征值,復(fù)雜且具有相互作用的非線性關(guān)系也經(jīng)常被用于預(yù)測(cè)。高維數(shù)據(jù)不但會(huì)導(dǎo)致不確定性增加,而且還可能面臨“維數(shù)災(zāi)難”,一方面,數(shù)據(jù)降維會(huì)導(dǎo)致稀疏性,即高維空間中的樣本變得極度稀疏,造成過(guò)度擬合;另一方面,有時(shí)即使輸入數(shù)百萬(wàn)量級(jí)的數(shù)據(jù),也只有少數(shù)變量跟結(jié)果相關(guān)。較簡(jiǎn)單的模型無(wú)法捕捉高維數(shù)據(jù)的復(fù)雜性,過(guò)于復(fù)雜的模型和稀疏的訓(xùn)練數(shù)據(jù)又容易導(dǎo)致訓(xùn)練誤差較大,從而影響預(yù)測(cè)效果。

2.2.2 人工智能數(shù)據(jù)特征對(duì)研究結(jié)果的影響

數(shù)據(jù)收集方案是整個(gè)研究順利開(kāi)展的基礎(chǔ),由于人工智能存在上述數(shù)據(jù)特征,因此如果缺乏精心設(shè)計(jì)的數(shù)據(jù)收集方案,將會(huì)影響人工智能系統(tǒng)或算法。

(1)效度。包括內(nèi)部效度和外部效度,從而影響研究結(jié)果的唯一性、普適性和可推廣性。效度無(wú)疑是非常重要的,人工智能的通常做法是基于大規(guī)模benchmarking測(cè)試數(shù)據(jù)集驗(yàn)證該算法模型的優(yōu)越性,由于人工智能程序開(kāi)發(fā)是動(dòng)態(tài)迭代的且周期越來(lái)越短,尤其是在與移動(dòng)應(yīng)用程序或在線學(xué)習(xí)系統(tǒng)相關(guān)的領(lǐng)域,相應(yīng)系統(tǒng)、算法和模型的驗(yàn)證難度越來(lái)越大,因此需要對(duì)其不斷地進(jìn)行有效性驗(yàn)證。

(2)代表性。實(shí)踐證明并非數(shù)據(jù)規(guī)模越大代表性就越強(qiáng)以及帶來(lái)的預(yù)測(cè)率更高,而是可能會(huì)帶來(lái)“假規(guī)律”和“偽相關(guān)”,導(dǎo)致研究結(jié)果失真。例如,深度學(xué)習(xí)中基于相關(guān)性的理論很難高效獲取知識(shí),在認(rèn)知智能方面的效果有限,同時(shí)還出現(xiàn)了兩個(gè)典型悖論:辛普森悖論和伯克森悖論。

(3)模型質(zhì)量和效果。通常用偏差、方差、欠擬合、過(guò)擬合來(lái)判斷和描述人工智能模型的質(zhì)量。一般來(lái)說(shuō),當(dāng)數(shù)據(jù)集數(shù)據(jù)規(guī)模足夠大且準(zhǔn)確時(shí),人工智能模型越復(fù)雜,偏差和方差越小,模型擬合效果越好。但是對(duì)于有噪聲的數(shù)據(jù)集來(lái)說(shuō),更高的模型復(fù)雜度并不意味著更低的估計(jì)誤差。由于量化、傳感器限制等因素,實(shí)際生活中的數(shù)據(jù)通常是含有噪聲的。此外,數(shù)據(jù)的收集方式,例如時(shí)間軸、人工智能中的種族、性別、年齡地位等偏見(jiàn)也會(huì)導(dǎo)致結(jié)果產(chǎn)生偏差。所以,缺乏良好的數(shù)據(jù)收集方案可能導(dǎo)致測(cè)試數(shù)據(jù)集的錯(cuò)誤較多,人工智能無(wú)法捕捉數(shù)據(jù)潛在分布,結(jié)果往往帶有某種傾向或偏見(jiàn)[3]。

(4)穩(wěn)定性。無(wú)論是預(yù)測(cè)模型還是描述性模型,穩(wěn)定性都非常重要,主要反映為模型在面對(duì)輸入數(shù)據(jù)的微小變動(dòng)時(shí)是否依然能保持判斷的準(zhǔn)確性,通常用魯棒性來(lái)評(píng)價(jià)和衡量,魯棒性的高低直接決定了機(jī)器學(xué)習(xí)模型的泛化能力。當(dāng)模型缺乏魯棒性時(shí),在現(xiàn)實(shí)中面對(duì)紛繁復(fù)雜的應(yīng)用場(chǎng)景時(shí),模型的性能會(huì)大打折扣,甚至不可用。

此外,結(jié)果還可能面臨“可重復(fù)性危機(jī)”(Replication Crisis)。結(jié)果的可復(fù)制性是科學(xué)方法的重要組成部分,無(wú)法復(fù)制的研究可能會(huì)對(duì)許多科學(xué)領(lǐng)域產(chǎn)生嚴(yán)重影響。事實(shí)上,許多研究,特別是在醫(yī)學(xué)和社會(huì)科學(xué)領(lǐng)域,其結(jié)果是難以或不可能復(fù)制的。因此,研究人員開(kāi)展大量研究來(lái)驗(yàn)證以前的發(fā)現(xiàn),以確定這些結(jié)論的可靠性。

2.2.3 基于統(tǒng)計(jì)學(xué)設(shè)計(jì)數(shù)據(jù)收集方案的結(jié)果

采用統(tǒng)計(jì)學(xué)的概念、技術(shù)、模型、方法等可以優(yōu)化數(shù)據(jù)收集方案,包括樣本設(shè)計(jì)、樣本規(guī)模和權(quán)重確定、數(shù)據(jù)集限制、抽樣誤差控制等,從而有助于人工智能系統(tǒng)和算法的優(yōu)化。

(1)提高模型的有效性和準(zhǔn)確性。獨(dú)立數(shù)據(jù)檢驗(yàn)、外部驗(yàn)證等在人工智能中起著至關(guān)重要的作用,但是在許多應(yīng)用中,最初算法被替換從而導(dǎo)致外部數(shù)據(jù)評(píng)估階段從未實(shí)現(xiàn)。統(tǒng)計(jì)學(xué)提供了可以驗(yàn)證人工智能模型內(nèi)部和外部有效性的設(shè)計(jì),例如使用靈敏度、特異性、ROC曲線和校準(zhǔn)曲線等質(zhì)量測(cè)度統(tǒng)計(jì)指標(biāo)對(duì)人工智能模型進(jìn)行評(píng)估,數(shù)據(jù)生成過(guò)程建模、數(shù)據(jù)集的限制、析因?qū)嶒?yàn)法等統(tǒng)計(jì)模型、方法和技術(shù)則有助于收集和處理人工智能程序所需要的訓(xùn)練數(shù)據(jù)。

(2)提高樣本的準(zhǔn)確性和代表性。借助統(tǒng)計(jì)技術(shù)、模型和方法可以提高人工智能訓(xùn)練樣本的表現(xiàn),一方面控制抽樣誤差,增加數(shù)據(jù)樣本,通過(guò)抽取足量準(zhǔn)確樣本減少噪聲;另一方面加強(qiáng)數(shù)據(jù)代表性,在確保訓(xùn)練樣本量充足的同時(shí)保證足夠的特征。

(3)優(yōu)化模型的擬合效果。統(tǒng)計(jì)學(xué)提供了最小化統(tǒng)計(jì)誤差的方法、技術(shù)和原則,例如統(tǒng)計(jì)控制、設(shè)計(jì)控制等優(yōu)化設(shè)計(jì)方法,(部分)隨機(jī)化、(部分)盲法、匹配等專為數(shù)據(jù)收集設(shè)計(jì)的技術(shù),以及偏好風(fēng)險(xiǎn)評(píng)估、層別法、邊際分析、元分析等不同領(lǐng)域的應(yīng)用案例。此外,統(tǒng)計(jì)學(xué)通過(guò)對(duì)樣本的學(xué)習(xí)進(jìn)行擬合,從而求得較好的參數(shù)集擬合,最小二乘法、無(wú)偏估計(jì)、有偏估計(jì)等統(tǒng)計(jì)思想和概念在模型的擬合優(yōu)化中得到了充分體現(xiàn)和應(yīng)用。需要注意的是:機(jī)器學(xué)習(xí)高維空間結(jié)構(gòu)處理高維稀疏數(shù)據(jù)需要大量訓(xùn)練數(shù)據(jù),還需要大量統(tǒng)計(jì)模型和相應(yīng)的數(shù)學(xué)近似值或數(shù)值模擬,更需要具有高級(jí)統(tǒng)計(jì)素養(yǎng)和經(jīng)驗(yàn)豐富的統(tǒng)計(jì)學(xué)專家評(píng)估訓(xùn)練數(shù)據(jù)用于人工智能應(yīng)用程序的可能性、限制條件和數(shù)量。

(4)增強(qiáng)算法的穩(wěn)定性。統(tǒng)計(jì)學(xué)提供的變量選擇方法可以提高人工智能算法的穩(wěn)定性。模型的復(fù)雜程度影響模型的變量選擇方法,而變量選擇可能會(huì)影響模型的穩(wěn)定性、回歸系數(shù)的無(wú)偏性、P 值或置信區(qū)間的有效性以及對(duì)模型的解釋。因此,許多學(xué)者強(qiáng)調(diào)了穩(wěn)定性調(diào)查的重要作用,并在人工智能算法中引入統(tǒng)計(jì)學(xué)概念,認(rèn)為穩(wěn)定性調(diào)查和推斷是比較變量選擇策略的主要目標(biāo)參數(shù)之一[4]。

(5)提升模型的魯棒性。好的數(shù)據(jù)收集設(shè)計(jì)方案可以抵消所謂的可復(fù)制危機(jī),為了使人工智能系統(tǒng)和算法能更好地應(yīng)用于真實(shí)場(chǎng)景,需要提升模型的魯棒性,并將魯棒性作為模型評(píng)估的必要維度。

2.3 評(píng)價(jià)和提高數(shù)據(jù)質(zhì)量

2.3.1 數(shù)據(jù)質(zhì)量在人工智能中的重要性和影響

數(shù)據(jù)質(zhì)量和相關(guān)性在所有數(shù)據(jù)分析中都非常重要,直接關(guān)系到研究結(jié)果的效度、代表性、偏差、穩(wěn)定性、可復(fù)制性等。人工智能系統(tǒng)或算法的成功從根本上取決于數(shù)據(jù)質(zhì)量,將高質(zhì)量數(shù)據(jù)與數(shù)據(jù)思維相結(jié)合可以產(chǎn)生新的、應(yīng)用范圍更加廣泛的算法[5]。但人工智能算法從數(shù)據(jù)湖中提取相關(guān)測(cè)量數(shù)據(jù),即從高維數(shù)據(jù)中提取相關(guān)的影響變量,“維數(shù)災(zāi)難”不可避免。此外,數(shù)據(jù)量大不一定就具有代表性,足夠多的數(shù)據(jù)并不能自動(dòng)導(dǎo)致理想的預(yù)期。

數(shù)據(jù)質(zhì)量對(duì)人工智能系統(tǒng)和算法的影響主要表現(xiàn)在以下兩個(gè)方面。

(1)準(zhǔn)確性。隨著數(shù)據(jù)收集自動(dòng)化程度的提高,人工智能能夠以經(jīng)濟(jì)、高效且簡(jiǎn)便的方式提高測(cè)量精度,但是否能夠?qū)崿F(xiàn)數(shù)據(jù)質(zhì)量其他維度的目標(biāo)還有待驗(yàn)證。如何處理缺失值是一個(gè)常見(jiàn)問(wèn)題,人工智能只能進(jìn)行正向思維,根據(jù)所輸入的數(shù)據(jù)進(jìn)行學(xué)習(xí)推斷,而且其數(shù)據(jù)收集方法允許冗余數(shù)據(jù)存在,雖然對(duì)冗余數(shù)據(jù)可以進(jìn)行預(yù)處理,即通過(guò)適當(dāng)?shù)谋尘爸R(shí)使數(shù)據(jù)集變得完整,但首先要能夠?qū)⒈尘爸R(shí)恰當(dāng)?shù)卣系綌?shù)據(jù)提取過(guò)程中。

(2)相關(guān)性和及時(shí)性。人工智能算法常常先假設(shè)數(shù)據(jù)符合一種模型,例如假設(shè)基于隱藏在數(shù)據(jù)中的模式未來(lái)將繼續(xù)存在,再依據(jù)數(shù)據(jù)樣本估計(jì)模型的部分參數(shù)及統(tǒng)計(jì)量,以此了解數(shù)據(jù)特征。但是在實(shí)踐中,往往有很多數(shù)據(jù)并不符合假設(shè)的模型分布,從而導(dǎo)致數(shù)據(jù)分析的結(jié)果不理想。

2.3.2 基于統(tǒng)計(jì)學(xué)方法評(píng)價(jià)和提高人工智能的數(shù)據(jù)質(zhì)量

數(shù)據(jù)質(zhì)量是統(tǒng)計(jì)的生命力,相關(guān)性、準(zhǔn)確性和可靠性、及時(shí)性和準(zhǔn)時(shí)性、一致性和可比性、可訪問(wèn)性和清晰度是數(shù)據(jù)質(zhì)量的重要維度。統(tǒng)計(jì)學(xué)提供了評(píng)價(jià)數(shù)據(jù)質(zhì)量和提高數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)和方法。

(1)診斷與測(cè)度數(shù)據(jù)質(zhì)量。統(tǒng)計(jì)學(xué)的重要貢獻(xiàn)之一是提出了分布的概念,探索性數(shù)據(jù)分析提供了一系列將數(shù)據(jù)經(jīng)驗(yàn)分布可視化并得出適當(dāng)度量的工具,這些工具可用于檢測(cè)異常值、確定典型值和標(biāo)準(zhǔn)值、檢測(cè)和處理缺失值、糾正輸入錯(cuò)誤,結(jié)合數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn),數(shù)據(jù)測(cè)度過(guò)程中的誤差可以盡早得到檢測(cè)和修正。

(2)提供評(píng)價(jià)標(biāo)準(zhǔn)并評(píng)估數(shù)據(jù)質(zhì)量。通過(guò)上述方法,統(tǒng)計(jì)學(xué)可以幫助評(píng)價(jià)數(shù)據(jù)質(zhì)量,包括系統(tǒng)化、標(biāo)準(zhǔn)化、記錄完整化等。此外,統(tǒng)計(jì)調(diào)查方法主要關(guān)注數(shù)據(jù)質(zhì)量,統(tǒng)計(jì)調(diào)查研究通過(guò)數(shù)據(jù)內(nèi)部和外部的有效性確保數(shù)據(jù)質(zhì)量,這為人工智能算法發(fā)展奠定了基礎(chǔ)。

(3)處理數(shù)據(jù)缺失問(wèn)題。統(tǒng)計(jì)學(xué)思維同時(shí)具有正逆向思維,既可根據(jù)已掌握數(shù)據(jù)推斷未知數(shù)據(jù),也可對(duì)缺失數(shù)據(jù)進(jìn)行推斷。統(tǒng)計(jì)調(diào)查中缺失數(shù)據(jù)的現(xiàn)象較為普遍,統(tǒng)計(jì)學(xué)家針對(duì)非隨機(jī)缺失、隨機(jī)缺失、完全隨機(jī)缺失、無(wú)應(yīng)答偏差、選擇偏差、測(cè)量誤差等情況對(duì)缺失值處理進(jìn)行了深入研究,在缺失數(shù)據(jù)處理方面積累了大量經(jīng)驗(yàn),有許多成熟的處理方法和輸入缺失數(shù)據(jù)的程序,例如插補(bǔ)法及其程序、數(shù)據(jù)增強(qiáng)方法等,人工智能算法可以根據(jù)現(xiàn)有的背景和專業(yè)知識(shí)處理缺失數(shù)據(jù)從而實(shí)現(xiàn)數(shù)據(jù)的完整性。

2.4 推動(dòng)從關(guān)聯(lián)分析到因果分析

2.4.1 人工智能的關(guān)聯(lián)分析

30多年前人工智能研究的一個(gè)主要挑戰(zhàn)是如何對(duì)機(jī)器進(jìn)行編程,從而將潛在原因與一組可觀察到的特征值相互關(guān)聯(lián)起來(lái),例如通過(guò)貝葉斯網(wǎng)絡(luò)方案解決該問(wèn)題。隨著人工智能的快速發(fā)展,現(xiàn)在已經(jīng)產(chǎn)生了大量可以完成該項(xiàng)任務(wù)的算法和方法,例如,被用于機(jī)器人、自動(dòng)駕駛、計(jì)算機(jī)輔助檢測(cè)和診斷系統(tǒng)、藥物研究和發(fā)現(xiàn)、農(nóng)業(yè)等領(lǐng)域的深度學(xué)習(xí)可以根據(jù)關(guān)聯(lián)分析發(fā)現(xiàn)和揭示大量數(shù)據(jù)中的事物、特征、結(jié)構(gòu)和數(shù)據(jù)之間的關(guān)聯(lián)。

除了超強(qiáng)的預(yù)測(cè)能力,人工智能還具有處理大數(shù)據(jù)集的優(yōu)異性能,因此被廣泛用于觀測(cè)、處理、分析和記錄工業(yè)大數(shù)據(jù)、醫(yī)療大數(shù)據(jù)、零售大數(shù)據(jù)等。但這些數(shù)據(jù)并非按照隨機(jī)研究設(shè)計(jì)的嚴(yán)格框架收集,即使兩個(gè)變量之間存在很強(qiáng)的相關(guān)性,也并不等同于他們之間存在因果關(guān)系。大量研究表明,如果缺乏因果關(guān)系考慮,那么從數(shù)據(jù)中學(xué)習(xí)到的相關(guān)性可能是錯(cuò)誤的,相關(guān)性學(xué)習(xí)模型由于泛化能力和穩(wěn)定性較差容易受到場(chǎng)景變化或數(shù)據(jù)中異常值的影響,過(guò)度依賴數(shù)據(jù)擬合的結(jié)果往往缺乏可解釋性。因此,許多學(xué)者認(rèn)為當(dāng)前的機(jī)器學(xué)習(xí)是對(duì)數(shù)據(jù)和概率分布曲線的擬合,尋找的是變量之間的相關(guān)性,變量的內(nèi)在因果關(guān)系被忽略和簡(jiǎn)化,算法缺乏處理歸納推理、因果推理和過(guò)程解釋的能力,這不但使科學(xué)研究停留在較淺的關(guān)聯(lián)層面,而且還可能導(dǎo)致模型的魯棒性和可解釋性喪失。

2.4.2 因果分析的重要性

貝葉斯網(wǎng)絡(luò)之父、人工智能領(lǐng)域的先驅(qū)Pear(l2010)[6]指出因果和關(guān)聯(lián)的區(qū)別:關(guān)聯(lián)主要根據(jù)觀察變量的聯(lián)合分布來(lái)定義相關(guān)關(guān)系或反映事物間的相互依存關(guān)系;而因果不能單獨(dú)通過(guò)計(jì)算數(shù)據(jù)獲得,也不能單獨(dú)從控制觀測(cè)數(shù)據(jù)的分布中確定。他提出了因果階梯論(Pearl Causal Hierarchy,PCH),認(rèn)為因果推斷有相關(guān)、干預(yù)和反事實(shí)三個(gè)層級(jí),而機(jī)器學(xué)習(xí)僅實(shí)現(xiàn)了第一個(gè)層級(jí)——關(guān)聯(lián),應(yīng)該使用因果推斷模型從因果而非單純的數(shù)據(jù)角度開(kāi)展研究,建議將因果框架與機(jī)器學(xué)習(xí)算法相結(jié)合,使機(jī)器能夠得出因果結(jié)論并模擬干預(yù)。

科學(xué)研究的本質(zhì)是探究變量之間的因果關(guān)系,因果關(guān)系是一種穩(wěn)定的機(jī)制,不會(huì)隨環(huán)境變化而變化,而且也只有這種穩(wěn)定的結(jié)構(gòu)才是可解釋的。因果關(guān)系可以通過(guò)因果推斷實(shí)現(xiàn),因果推斷是指在現(xiàn)象已經(jīng)發(fā)生的情況下推出因果關(guān)系結(jié)論的過(guò)程,是一種通過(guò)事物發(fā)生的原因推導(dǎo)至某個(gè)肯定結(jié)果的邏輯方式,在生物醫(yī)學(xué)、經(jīng)濟(jì)管理和社會(huì)科學(xué)中有著廣泛應(yīng)用。因果推斷被認(rèn)為是人工智能領(lǐng)域的一次范式革命,是近年來(lái)人工智能領(lǐng)域的研究熱點(diǎn)之一,也是當(dāng)前學(xué)術(shù)界面臨的難題之一。因果推斷既可以發(fā)現(xiàn)現(xiàn)象背后的深層原因或究其根源,也可以估計(jì)定量的因果效應(yīng),分析當(dāng)原因改變時(shí)結(jié)果變量的響應(yīng),從而幫助人們更科學(xué)地做出決策干預(yù),更好地解決生活和科學(xué)研究中遇到的問(wèn)題。

2.4.3 統(tǒng)計(jì)學(xué)推動(dòng)人工智能理解因果分析

因果推斷是統(tǒng)計(jì)學(xué)的核心問(wèn)題之一,學(xué)者們進(jìn)行了大量相關(guān)探索與研究。例如,1965 年流行病學(xué)與醫(yī)學(xué)統(tǒng)計(jì)學(xué)專家Bradford Hill提出一套用來(lái)判斷某事件與其可能結(jié)果的因果聯(lián)系的標(biāo)準(zhǔn),并對(duì)必要證據(jù)提出具體要求,正式確立了隨機(jī)對(duì)照方法,建立多項(xiàng)隨機(jī)對(duì)照臨床試驗(yàn)的早期研究方法。1974 年著名統(tǒng)計(jì)學(xué)家唐納德·魯賓提出反事實(shí)框架[7],闡述了潛在結(jié)果的概念,并將其推廣到觀察性數(shù)據(jù)中,開(kāi)啟統(tǒng)計(jì)學(xué)界對(duì)因果推斷的廣泛研究。潛在結(jié)果框架(Potential Outcome Framework)也叫魯賓因果模型(Rubin Causal Model),其基于潛在結(jié)果框架進(jìn)行因果推斷,是偏向計(jì)量的統(tǒng)計(jì)分析方法。之后幾十年,現(xiàn)代社會(huì)科學(xué)研究人員基于此框架并借助統(tǒng)計(jì)學(xué)對(duì)因果關(guān)系的認(rèn)識(shí),發(fā)展出包括實(shí)驗(yàn)與準(zhǔn)實(shí)驗(yàn)、匹配和傾向值匹配、工具變量、倍差法、斷點(diǎn)回歸等適用于不同情境的因果推斷方法。

(1)控制協(xié)變量的不良影響。與隨機(jī)控制試驗(yàn)不同,協(xié)變量效應(yīng)(Covariate Effect)在隨機(jī)對(duì)照試驗(yàn)中非常重要卻常常被忽略。協(xié)變量雖然不為實(shí)驗(yàn)者所控制,但會(huì)影響實(shí)驗(yàn)結(jié)果,不合理地考慮協(xié)變量會(huì)導(dǎo)致對(duì)因果效應(yīng)的估計(jì)失真,因此在進(jìn)行隨機(jī)對(duì)照試驗(yàn)研究設(shè)計(jì)和分析時(shí)必須考慮協(xié)變量的影響。當(dāng)隨機(jī)對(duì)照研究出現(xiàn)分組不均衡時(shí),協(xié)變量可能帶來(lái)結(jié)果偏倚,此時(shí)的協(xié)變量變?yōu)榛祀s因素(Confounder),會(huì)帶來(lái)混雜偏倚,導(dǎo)致結(jié)論偏倚乃至錯(cuò)誤,所以需要正確區(qū)分處理因素和混雜因素。有兩類統(tǒng)計(jì)方法可以用來(lái)調(diào)整處理分組間潛在或?qū)嶋H存在的不平衡,從而控制協(xié)變量帶來(lái)的偏倚。一是事先控制法,包括完全隨機(jī)分組、分層隨機(jī)化、匹配隨機(jī)化等方法,主要用來(lái)強(qiáng)制使處理組間在重要和事先指定的協(xié)變量上達(dá)到平衡,從而防止實(shí)驗(yàn)設(shè)計(jì)階段出現(xiàn)不平衡。二是事后控制法,根據(jù)協(xié)變量的性質(zhì)和需考慮的協(xié)變量數(shù)目的不同,采用差值法、協(xié)方差分析法、分層分析法、回歸分析法等方法對(duì)協(xié)變量進(jìn)行校正,從而調(diào)整在實(shí)驗(yàn)分析階段出現(xiàn)的不平衡。此外,還可以在評(píng)價(jià)階段通過(guò)傾向評(píng)分匹配、邊際結(jié)構(gòu)模型、多元線性回歸模型等對(duì)混雜因素進(jìn)行調(diào)整和均衡。總之,在觀察性數(shù)據(jù)研究中,識(shí)別因果關(guān)系比較困難,在進(jìn)行實(shí)驗(yàn)設(shè)計(jì)和分析評(píng)價(jià)時(shí),一定要選用正確的統(tǒng)計(jì)方法,盡可能地控制和消除混雜因素的影響,改善因果效應(yīng)估計(jì),提高研究結(jié)論的效度和信度。

控制混雜因素、碰撞因素和中介因素對(duì)因果效應(yīng)估計(jì)的影響是不同的。與混雜因素會(huì)同時(shí)影響處理變量和結(jié)果變量不同,碰撞因素(Colliders)會(huì)同時(shí)被處理變量和結(jié)果變量影響,對(duì)其加以控制會(huì)削弱因果關(guān)系推理;而中介因素(Mediator)受處理變量影響,同時(shí)又影響結(jié)果變量,會(huì)“阻斷”處理變量影響結(jié)果變量的路徑,控制中介因素會(huì)改變對(duì)兩者之間因果關(guān)系的解釋,導(dǎo)致只能解釋部分因果機(jī)制或因果效應(yīng)估計(jì)產(chǎn)生偏差。因此,在數(shù)據(jù)分析中,特別是在縱向數(shù)據(jù)分析中,要重視從理論形成視角區(qū)分觀察數(shù)據(jù)中協(xié)變量與處理和結(jié)果變量的關(guān)系,從而避免因果效應(yīng)估計(jì)中的偏差。

(2)回答因果問(wèn)題和模擬干預(yù)。因果關(guān)系錯(cuò)綜復(fù)雜,需要考慮的變量可能不計(jì)其數(shù),將合適的統(tǒng)計(jì)學(xué)理論和方法整合到人工智能模型和算法中有助于回答因果問(wèn)題和模擬干預(yù)?,F(xiàn)實(shí)中最直接、最理想判斷干預(yù)與效應(yīng)之間因果效應(yīng)的估計(jì)方法是隨機(jī)實(shí)驗(yàn)。然而由于隨機(jī)實(shí)驗(yàn)不可行、不合倫理或需要很長(zhǎng)時(shí)間才能完成,有時(shí)必須依賴真實(shí)世界的觀察數(shù)據(jù)做出因果推論,包括確定因果問(wèn)題并做出回答。對(duì)于應(yīng)用觀察數(shù)據(jù)的研究人員而言,確定和回答因果問(wèn)題的一個(gè)有效方法是設(shè)計(jì)可回答該問(wèn)題的目標(biāo)實(shí)驗(yàn)方案,包括定義和闡明數(shù)據(jù)收集標(biāo)準(zhǔn)、分組、因果對(duì)比、數(shù)據(jù)分析計(jì)劃、因果問(wèn)題及回答方式等要素,并根據(jù)該研究方案進(jìn)行模擬干預(yù),這也體現(xiàn)了科學(xué)設(shè)計(jì)研究方案的重要性。

(3)提高模型和算法透明度:將統(tǒng)計(jì)方法整合用于檢測(cè)和理解人工智能模型與算法中的因果關(guān)系還有助于提高其透明度,從而提高人工智能方法的接受度。已有研究表明,基于因果關(guān)系或因果效應(yīng)的解釋比基于概率或統(tǒng)計(jì)相關(guān)性的解釋更有效,也更具說(shuō)服力。

2.5 量化不確定性

2.5.1 人工智能中的不確定性

由于認(rèn)知、數(shù)據(jù)、模型和預(yù)測(cè)存在不確定性,因此從數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、選擇模型從數(shù)據(jù)中學(xué)習(xí)、選擇學(xué)習(xí)算法訓(xùn)練所需模型,到從所學(xué)習(xí)的模型中得出推論,人工智能算法的每一個(gè)環(huán)節(jié)都存在固有的不確定性。由于依賴大數(shù)據(jù)、不確定性評(píng)價(jià)方法復(fù)雜等,因此不確定性問(wèn)題常常被忽略。事實(shí)上為了實(shí)現(xiàn)高度準(zhǔn)確預(yù)測(cè)目標(biāo),人工智能應(yīng)用程序可能過(guò)于注重底層的性能而忽略中間層和web層的性能,雖然使得程序更靈活,但也讓程序的不確定性精確量化變得更加復(fù)雜。由于參數(shù)的可變性和參數(shù)、結(jié)構(gòu)、算法、實(shí)驗(yàn)和插值的不確定性,因此人工智能系統(tǒng)做出的預(yù)測(cè)結(jié)果并不完全可靠,在現(xiàn)實(shí)中部署時(shí)也面臨著失敗風(fēng)險(xiǎn)。

2.5.2 人工智能的不確定性量化

人工智能的不確定性量化大致包括兩類:一類是解決不確定性的正向傳播問(wèn)題的方法,例如:蒙特卡羅模擬、重要性抽樣、自適應(yīng)抽樣等基于模擬的方法,使用學(xué)習(xí)代理模型或完全貝葉斯方法等基于代理的通用方法,泰勒級(jí)數(shù)、攝動(dòng)法等基于局部展開(kāi)的方法,Neumann展開(kāi)、正交或Karhunen-Loeve 展開(kāi)(KLE)等基于函數(shù)展開(kāi)的方法,一階可靠性方法(FORM)、二階可靠性方法(SORM)等基于最可能點(diǎn)(MPP)的方法,全因子數(shù)值積分(FFNI)、降維(DR)等基于數(shù)值積分的方法。另一類是解決反向不確定性問(wèn)題的方法,例如:解決偏差校正和參數(shù)校準(zhǔn)問(wèn)題的貝葉斯框架、模塊化貝葉斯方法、針對(duì)模型和差異函數(shù)的高斯過(guò)程建模、用于計(jì)算未知參數(shù)的后驗(yàn)分布等。

由于這些方法有的需要嚴(yán)格執(zhí)行才能得到精確的置信區(qū)間,有的基于較為理想的假設(shè)條件開(kāi)發(fā),因此還需要在實(shí)踐中驗(yàn)證其可操作性和理論有效性。此外,選擇特定的不確定性量化方法受到基礎(chǔ)模型、學(xué)習(xí)任務(wù)類型、數(shù)據(jù)特征、學(xué)習(xí)模型的透明度、最終目標(biāo)等諸多因素影響,如果使用不當(dāng),可能因產(chǎn)生較差的不確定性估計(jì)而誤導(dǎo)用戶。當(dāng)然,如果溝通不暢,即使是高度準(zhǔn)確的不確定性估計(jì)也可能產(chǎn)生誤導(dǎo)。

2.5.3 基于統(tǒng)計(jì)學(xué)的不確定性量化

學(xué)者們普遍認(rèn)為綜合數(shù)據(jù)分析無(wú)法打破不確定性原理,需要對(duì)不確定性進(jìn)行量化,從而提高估計(jì)和預(yù)測(cè)的有效性和可靠性,防止數(shù)據(jù)欺騙[8]。雖然將人工智能算法嵌入統(tǒng)計(jì)模型可能影響其靈活度,但是可以通過(guò)指定有效的預(yù)測(cè)區(qū)間和置信區(qū)間更好地實(shí)現(xiàn)不確定性量化或提高結(jié)果的可解釋性。例如:在生存分析(time-to-event analyses)中將Kaplan-Meier 或Aalen-Johansen 非參數(shù)估計(jì)和機(jī)器學(xué)習(xí)重采樣方法結(jié)合起來(lái)構(gòu)造出累積發(fā)生率函數(shù)(cumulative incidence functions,CIF)的同時(shí)置信帶;在時(shí)間序列預(yù)測(cè)中,將人工神經(jīng)網(wǎng)絡(luò)與ARIMA 模型混合或者基于多階層結(jié)構(gòu)有助于得到更好的解釋。

研究表明,通過(guò)統(tǒng)計(jì)學(xué)的不確定性量化方法也可以提高人工智能算法的可解釋性和效度。例如:在人工智能背景下假設(shè)特定的概率統(tǒng)計(jì)模型或依存結(jié)構(gòu)并開(kāi)展魯棒性調(diào)查、漸近一致性或(有限)誤差界證明等數(shù)學(xué)研究,對(duì)(隨機(jī))模擬設(shè)計(jì)和易于解釋的輔助統(tǒng)計(jì)模型進(jìn)行探索和闡述,對(duì)準(zhǔn)確性、靈活性、特異性等人工智能算法的質(zhì)量標(biāo)準(zhǔn)進(jìn)行詳細(xì)分析和評(píng)價(jià)。

2.6 解釋結(jié)果

2.6.1 可解釋性在人工智能中的重要性

由于許多人工智能程序和算法的估計(jì)參數(shù)難以解釋,輸入的數(shù)據(jù)和輸出的答案之間存在“黑箱”,因此人工智能往往缺乏透明度和可解釋性。可解釋性衡量的是用戶可以理解模型預(yù)測(cè)背后原因的程度,從而影響用戶對(duì)人工智能的信任,并帶來(lái)算法歧視、算法安全、算法責(zé)任等問(wèn)題。因此,需要進(jìn)一步研究以增加其可解釋性,進(jìn)而幫助研究人員更有效地理解人工智能做出的決策,及時(shí)對(duì)決策偏差進(jìn)行糾正,提升算法的可信任性、安全性和性能??山忉尩娜斯ぶ悄懿粌H有助于促進(jìn)最終用戶的信任、模型可審計(jì)性和人工智能的高效使用,還能降低使用人工智能所面臨的合規(guī)性、法律、安全和聲譽(yù)問(wèn)題。

2.6.2 基于統(tǒng)計(jì)學(xué)提高結(jié)果的可解釋性

研究表明,統(tǒng)計(jì)學(xué)習(xí)方法和人工智能學(xué)習(xí)方法相輔相成,與不確定性量化一樣,可解釋性提高也高度依賴統(tǒng)計(jì)技術(shù)。使用統(tǒng)計(jì)模型作為輔助可以使人工智能算法更具解釋力,例如回歸算法、決策樹(shù)、分類規(guī)則等傳統(tǒng)的相對(duì)簡(jiǎn)單的統(tǒng)計(jì)模型不僅能夠更好地描述人工智能算法的重要模式,而且能幫助人工智能實(shí)現(xiàn)高度的可解釋性;圖像模型、支持向量機(jī)、隨機(jī)森林等集成算法以及神經(jīng)網(wǎng)絡(luò)等不僅可以實(shí)現(xiàn)可解釋性,還可以用于不確定性量化,從而提高算法的準(zhǔn)確性。

影響人工智能算法可解釋性的一個(gè)重要因素是模型的復(fù)雜度。一般來(lái)說(shuō),簡(jiǎn)單模型具有更高的透明度,復(fù)雜模型可以提高性能,復(fù)雜度越高,準(zhǔn)確度越高,但同時(shí)也意味著模型越難以解釋。因此,制定算法解釋權(quán)和算法說(shuō)明義務(wù)等規(guī)則、減少計(jì)算量、降低模型復(fù)雜度已成為人工智能不可或缺的一部分。模型復(fù)雜度和可解釋性的權(quán)衡方法也是統(tǒng)計(jì)學(xué)面臨的問(wèn)題,規(guī)則化、降低模型復(fù)雜度使模型具有更好的可解釋性是現(xiàn)代統(tǒng)計(jì)學(xué)的基本準(zhǔn)則,有許多方法可供借鑒,例如經(jīng)驗(yàn)貝葉斯、估計(jì)量收縮處理等方法。

3 統(tǒng)計(jì)學(xué)推動(dòng)人工智能發(fā)展的展望

人工智能所要研究的是如何讓計(jì)算機(jī)或機(jī)器去完成過(guò)去只有人才能做的智能工作,分類是人工智能研究的一個(gè)重要分支,目前對(duì)于弱人工智能和強(qiáng)人工智能這一分類基本達(dá)成共識(shí),并對(duì)應(yīng)形成了弱人工智能觀和強(qiáng)人工智能觀。弱人工智能是指能夠以人類方式思考并執(zhí)行特定任務(wù)的機(jī)器、系統(tǒng)或算法等,由于這些機(jī)器、系統(tǒng)或算法只能完成程序所賦予的特定任務(wù),無(wú)法超越其限制,因此即便是目前人類已經(jīng)創(chuàng)造的最為復(fù)雜且具有超級(jí)自學(xué)習(xí)能力的人工智能系統(tǒng),也只是某一特定領(lǐng)域的可追蹤程序。強(qiáng)人工智能是指能夠像人類一樣獨(dú)立思考并高效執(zhí)行任何智力任務(wù)的機(jī)器、系統(tǒng)或算法等,這些機(jī)器、系統(tǒng)或算法經(jīng)過(guò)適當(dāng)編程后就是具有精神狀態(tài)的人腦,強(qiáng)人工智能有可能制造出有知覺(jué)和自我意識(shí)的、真正能推理和解決問(wèn)題的智能機(jī)器。

缺乏穩(wěn)定性、透明度和可解釋性極大地限制了人工智能模型和算法的落地。實(shí)踐表明,人工智能已經(jīng)在近十幾年的快速發(fā)展中逐漸陷入僵局。機(jī)器學(xué)習(xí)只是數(shù)據(jù)到概率的一個(gè)工具,從概率到真正理解,還需要預(yù)測(cè)行動(dòng)的效果、進(jìn)行反事實(shí)想象[9]。因此,因果推理取代關(guān)聯(lián)推理,教會(huì)機(jī)器理解問(wèn)題背后的根源,最終理解現(xiàn)實(shí),成為人工智能進(jìn)一步發(fā)展的關(guān)鍵,“可信任”與“可解釋”已成為人工智能發(fā)展的主要方向。實(shí)現(xiàn)強(qiáng)人工智能的突破口在于因果推斷的發(fā)展,強(qiáng)人工智能階段的本質(zhì)就是基于數(shù)據(jù)的學(xué)習(xí)和推理,將統(tǒng)計(jì)學(xué)應(yīng)用到人工智能改進(jìn)中的目標(biāo)是促進(jìn)或支持對(duì)模型和數(shù)據(jù)的解釋,并從中獲得知識(shí),提高結(jié)果的可解釋性。

猜你喜歡
解釋性變量人工智能
抓住不變量解題
論行政自由裁量的“解釋性控權(quán)”
法律方法(2021年4期)2021-03-16 05:35:16
也談分離變量
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
英漢互譯中的認(rèn)知隱喻翻譯探究
文教資料(2018年30期)2018-01-15 10:25:06
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
融媒體時(shí)代解釋性報(bào)道的發(fā)展之路
傳播力研究(2017年5期)2017-03-28 09:08:30
下一幕,人工智能!
非解釋性憲法適用論
阿瓦提县| 虞城县| 陵川县| 开化县| 清原| 毕节市| 民县| 格尔木市| 五大连池市| 民勤县| 祁东县| 阿瓦提县| 张家港市| 博白县| 峨边| 青冈县| 鸡西市| 合肥市| 漳州市| 虞城县| 霞浦县| 北川| 马尔康县| 高要市| 唐河县| 衡水市| 昌都县| 三门峡市| 丽水市| 莫力| 拜泉县| 东兴市| 垣曲县| 徐闻县| 正蓝旗| 遂平县| 榆树市| 张家港市| 周口市| 邓州市| 长乐市|