何華燦
(西北工業(yè)大學 計算機學院,陜西 西安 710072)
近十年來在大數據處理、云計算和深度神經網絡的推動下,人工智能從低谷走向了第三次發(fā)展高潮期,以AlphaGo為代表的研究成果創(chuàng)造了許多驚世駭俗的奇跡!不同于以往的兩次高潮,這次世界各主要大國都紛紛制定國家戰(zhàn)略,把AI列為未來爭霸世界的國之重器:2017年7月20日國務院發(fā)布了《新一代人工智能發(fā)展規(guī)劃》,計劃到2030年我國AI理論、技術和應用要處于國際領先地位;緊接著2017年9月1日俄羅斯總統(tǒng)普京強調“未來誰率先掌握了AI,誰就能稱霸世界”;2018年4月16日英國議會AI特別委員會發(fā)布報告認為,英國在AI方面有能力成為世界領導者和AI創(chuàng)新中心;2018年4月25日歐盟委員會計劃2018—2020年在AI領域投資240億美元,確保其世界領先地位;2018年5月10日美國白宮為在未來的AI領域“確保美國第一”成立了AI專門委員會。與此形成鮮明對照的是不少著名的AI學者紛紛指出,當今AI已陷入概率關聯(lián)的泥潭,所謂深度學習的一切成就都不過是曲線擬合而已,它是在用機器擅長的關聯(lián)推理代替人類擅長的因果推理,這種“大數據小任務”的智能模式并不能體現人類智能的真正含義,具有普適性的智能模式應該是“小數據大任務”。他們認為基于深度神經網絡的AI是不能解釋因而無法理解的AI,如果人類過度依賴它并無條件地相信它,那將是十分危險的。特別是,在司法、法律、醫(yī)療、金融、自動駕駛、自主武器等人命關天的領域,更是要慎之又慎,千萬不能放任自流?;谶@個大的認識和反思背景,本文擬集中討論為什么深度神經網絡會讓人工智能研究喪失可解釋性?我們如何才能重新找回人工智能研究的可解釋性?文中所涉及的“可解釋性”滿足一種強定義:它要求從前提到結論的推理全過程都能用理論上成熟可靠的邏輯語言描述清楚。
人工智能學科和產業(yè)已走過整整一個甲子的成長之路,圖1是這60年AI發(fā)展的整體態(tài)勢示意圖,其中:曲線①是主波,它說明人類社會已不可逆轉地進入到信息社會,智能化是當今時代的主旋律,它必然會扶搖直上九重天,勢不可擋;曲線②是疊加在主波上的次波,它說明各個時期推動AI走向發(fā)展高潮的基本原理和關鍵技術,雖然在一定范圍內能夠解決某些智能模擬問題,效果突出,但是一旦把它推廣到更大范圍使用時,因缺乏人類智能活動的某些重要屬性,效果會立馬下降,甚至鬧出大笑話。這說明,人的智能活動并不是由幾個確定性因素決定的簡單信息處理過程,而是由眾多不確定性因素參與的復雜信息處理過程,廣泛存在非線性涌現效應。所以研究AI是一個由點到面、由淺入深、長期試錯、不斷發(fā)現、不斷完善的演化過程,任何AI產品都需要在其生命周期內反復學習提高、不斷演化發(fā)展,不會一成不變[1]。
圖 1 人工智能學科和產業(yè)60年發(fā)展態(tài)勢圖Fig. 1 Development tr end of the AI discipline and in- dustry in 60 years
具體來看,AI學科的孕育和早期發(fā)展都是在布爾信息處理級別上完成的,當時出現了兩個不同但是相互等價的視角[2]:從邏輯角度看,人類智能活動過程可用剛性邏輯(即數理形式邏輯、標準邏輯)的布爾算子組描述;從神經元角度看,人腦的智能活動過程可用二值神經元的MP模型描述。布爾邏輯算子組由英國數學家G.Boole于1854年在《思維規(guī)律》中提出:任意x, y, z∈{0,1}, 非算子¬x=1-x, 與算子x∧y=Γ[x+y-1], 或算子x∨y=Γ[x+y], 蘊涵算子x→y=Γ[-x+y-1]。其中z=Γ[v]是0,1限幅函數,當v<0時z=0,當v>1時z=1; 否則z=v。二值神經元模型MP(又稱感知機,閾元)由心理學家Mc Culloch和數學家W.Pitts于1943年共同提出,是一種最簡單的神經元模型(見圖2),依靠帶閾值的0,1限幅運算z=Γ[ax+bye]可以完成各種二值信息變換過程,其中x, y∈{0,1}是輸入變量,z∈{0, 1}是輸出變量,a是輸入x的連接權系數,b是輸入y的連接權系數,e是神經元的激活閾值,Δt是神經元的處理延遲時間。
圖 2 二值神經元的MP模型Fig. 2 MP model of two valued neurons
對只有1個輸入和1個輸出的神經元z=f(x),x, z∈{0, 1}來說,只有4個可能的排列組合狀態(tài)(稱為信息處理模式):z=f0(x)≡0; z=f1(x)=x;z=f2(x)=1-x; z=f3(x)≡1。這4種神經元信息處理模式都有對應的剛性邏輯表達式:z≡0=x∧¬x;z=x; z=¬x;z≡1=x∨¬x。
在研究一個神經元內部信息處理模式時,沒有必要考慮神經元的多輸出問題,因為它只關系到一個神經元的輸出z將被多少個別的神經元共享,與本神經元內部的信息處理模式毫無關系。
有2個輸入和1個輸出的神經元z=fi(x, y), x,y, z∈{0, 1}比較典型,是我們研究的重點,因為其他更多輸入的神經元,都可以轉化為2個輸入神經元組成的神經網絡,如:z=f(x1, x2, x3)=fj(fi(x1, x2),
x3), x1, x2, x3, z∈{0, 1}; z=f(x1, x2, x3, x4)=fk(fi(x1, x2),fj(x3, x4)), x1, x2, x3, x4, z∈{0, 1}。其他以此類推,所以證明了兩輸入布爾信息處理的完備性就等于證明了任意多輸入布爾信息處理的完備性。對2輸入神經元z=fi(x, y), x, y, z∈{0, 1}來說,總共只有16種不同的信息處理模式i=0, 1, 2, 3, ···, 15,這16種信息處理模式的0,1限幅運算表達式z=Γ[ax+by-e],不論對于布爾邏輯算子還是二值神經元來說,都是完全相同的(傳統(tǒng)的真值表表示法掩蓋了這個等價關系),誰也沒比對方多提供更多的信息處理能力。所以不難得出:剛性邏輯的布爾算子組和二值神經元MP模型具有相同的計算公式,兩者完全等價,詳細細節(jié)見圖3。以后將把模式狀態(tài)參數作為區(qū)分不同信息處理模式的標志性參數使用,通過計算z=Γ[ax+by-e]可唯一確定一個二值神經元或者布爾算子組。
圖3 剛性邏輯算子和MP神經元模型等價Fig.3 Equivalence of the rigid logic operator and MP neuron model
顯然,上述的等價關系可推廣到由任意基本單元組成的復雜網絡之中,下面通過一個實例來說明:如果有一個復雜的剛性命題邏輯表達式F=((p∨q)∧(¬q∨r))∧(¬p∨¬r),它可用一些邏輯算子組成的邏輯網絡來描述(見圖4(a)), 一定存在一個由二值神經元組成的神經網絡與之對應(見圖4(b)),兩者使用的0,1限幅運算公式z=Γ[ax+by-e]完全對應相同。
圖4 邏輯網絡和神經網絡等價的一個實例Fig.4 An example of the equivalence between logical and neural networks
數學理論和計算機的軟硬件設計原理都是嚴格按照剛性邏輯建立的,不曾有半點逾越。可是人工智能學科的誕生卻是因為計算機科學中出現了“算法危機”[3]而促成的!傳統(tǒng)計算機應用都遵循“數學+計算機程序”的信息處理模式,要解決任何一個問題都必須滿足3個先決條件:1)能找到該問題中輸入和輸出之間的數量關系,建立數學模型;2)能找到該數學模型的算法解;3)根據算法解能編制出在計算機上可實際運行的程序。上述3點都沒有逾越剛性邏輯的約束,但是理論計算機科學家研究發(fā)現:1)人腦思維中的大部分智能活動無法建立數學模型;2)能找到的數學模型大部分都不存在算法解;3)能找到的算法解大部分都是指數型的,實際不可計算。為什么人腦智能可以解決的問題,數學+計算機程序的模式卻解決不了?這說明計算機僅僅依靠“數學+計算機程序”的模式還不夠聰明和有用,人工智能學科的創(chuàng)始人希望通過對人腦智能活動規(guī)律的研究和模擬,來克服上述“算法危機”,使計算機更聰明和有用。這就是狹義人工智能學科誕生的原由。由此可見,當時的科學家已經發(fā)現,僅僅依靠數學+程序是無法模擬人腦智能的。人工智能工作者最早發(fā)現的智能因素就是帶有經驗色彩的“啟發(fā)式搜索原理”,它對剛性邏輯的有效使用具有必不可少的輔助作用。進而人們又通過專家系統(tǒng)的成功發(fā)現,各專門領域中通過經驗歸納形成的專家知識,它們雖然不滿足剛性邏輯的約束,卻是“人更聰明”的重要因素,驗證了“知識就是力量”的真理。
20世紀80年中期代爆發(fā)的人工智能“理論危機”無情地揭露了剛性邏輯、啟發(fā)式搜索原理和經驗知識推理的應用局限性:首先,剛性邏輯本身的推理效率十分低下,如果沒有啟發(fā)式知識的引導,單純機械式地按照剛性邏輯的規(guī)則進行推理,算法的指數復雜度必然帶來組合爆炸,計算機的時空資源迅速被吞噬殆盡;其次,在啟發(fā)式搜索和經驗知識推理中,客觀存在的各種不確定性和演化過程都超出了剛性邏輯的有效適用范圍,盡管出現了一些非標準邏輯(如模糊邏輯、概率邏輯和有界邏輯等)能解決某些實際問題,但有時會出現違反常識的異常結果,這說明非標準邏輯在理論上并不成熟可靠,無法在人工智能中安全可靠地使用。要有效解決包含各種不確定性和演化的現實問題,只能寄希望于盡快建立數理辯證邏輯理論體系,可是在當時的情況下,學術界的思想和理論準備都嚴重不足,建立數理辯證邏輯談何容易!
在這種數理辯證邏輯嚴重缺位的背景下,人工智能研究的主流不得不偏離剛性邏輯和經驗性知識推理的老方向,轉入到完全不依賴邏輯和經驗知識支撐,僅僅依靠數據統(tǒng)計的神經網絡、計算智能、多Agent和統(tǒng)計機器學習的新方向。應該說這個研究新方向的出現也是具有積極意義的,它體現了人類智能另外的某些特征,能夠有效地解決一些智能模擬問題,所以曾經推動人工智能的發(fā)展進入第二次高潮。后來人們?yōu)榱丝朔窠浘W絡、計算智能、多Agent和統(tǒng)計機器學習中的“局部極值”瓶頸,又在深度學習和深度神經網絡中,依靠大數據和云計算,不惜耗費巨大的計算資源,義無反顧地連續(xù)使用數據統(tǒng)計法來增加神經網絡的中間層次,從幾層、幾十層增加到幾百層甚至幾千層來擬合海量數據,根本忘記了二值神經元和布爾邏輯算子原本具有等價關系的基本屬性。深度神經網絡這種不惜一切代價取得的成功,反過來鼓勵一些學者產生臆想:“深度神經網絡的中間層次越多,獲得的結果會越精準!”,而且“神經網絡是無需邏輯和知識的智能,沒有發(fā)展瓶頸”。這種盲目樂觀的思潮彌漫在當今的人工智能學界,似乎現在的深度神經網絡能夠把第三次浪潮一直推動下去,它是人工智能學科發(fā)展的最終方向!
“物極必反”是自然的一條重要發(fā)展規(guī)律,在盲目樂觀思潮彌漫的今天,已有一些著名的人工智能學者在討論現有人工智能面臨的局限性[4]:1)有智能沒有智慧,無意識和悟性,缺乏綜合決策能力;2)有智商沒有情商,機器對人的情感理解與交流還處于起步階段;3)會計算不會“算計”,人工智能可謂有智無心,更無人類的謀略;4)有專才無通才,會下圍棋的不會下象棋。歸納起來說,目前人工智能發(fā)展正面臨著六大發(fā)展瓶頸:1)數據瓶頸,需要海量的有效數據支撐;2)泛化瓶頸,深度學習的結果難于推廣到一般情況;3)能耗瓶頸,大數據處理和云計算的能耗巨大;4)語義鴻溝瓶頸,在自然語言處理中存在語義理解鴻溝;5)可解釋性瓶頸,人類無法知道深度神經網絡結果中的因果關系;6)可靠性瓶頸,無法確認人工智能結果的可靠性。由此可知,人工智能的發(fā)展正面臨又一次的發(fā)展瓶頸,本文統(tǒng)稱為“可解釋性瓶頸”。這些應用局限性和發(fā)展瓶頸對于人類智能來說并不明顯存在,為什么卻在當今的人工智能研究中成了難以逾越的巨大困難?筆者認為這些困難是由無視邏輯和知識在智能中的重要價值,過度依賴數據統(tǒng)計和深度神經網絡引起的。
2011年圖靈獎得主Judea Pearl是曾在20世紀80年代推動機器以概率(貝葉斯網絡)方式進行推理的領頭人,現在他卻指出:深度學習所取得的所有成就都只是根據(有效)數據進行的曲線擬合,AI已陷入概率關聯(lián)泥潭,它不能完全體現智能的真正含義。跳出泥潭的關鍵措施是用因果推理來代替關聯(lián)推理,在AI中一旦因果關系就位,機器就有可能提出反事實問題,詢問因果關系在某些干預下會如何變化,這才是科學思考的基礎。所以只有因果推理才能使機器具有類人智能,有效地與人類交流互動。也只有這樣,機器才能獲得道德實體的地位,具有自由意志和運用人類謀略的能力。
人類智能的第一個重要特征是:在智能活動中需要機動靈活且恰如其分地使用各種行之有效的方法,相互配合起來才能取得事半功倍的效果。例如:人在識別漢字的過程中,會合理使用數據統(tǒng)計法和結構分析法(邏輯關系)于不同場合,以便獲得最佳識別效果。又如:在認識漢字的基本筆劃(如丶、ー、〡、ノ、ヽ)階段,最有效的方法是圖像數據統(tǒng)計法,而在此基礎上進一步有效區(qū)分不同的漢字(如一、二、三、十、土、王、玉、五、八、人、入、大、太、天、夫等)階段,最有效的方法則是結構分析法(邏輯關系),如果一味使用圖像數據統(tǒng)計法一竿子插到底,在區(qū)分復雜結構的漢字(如逼、逋、迥、遒)時,速度和識別率會嚴重下降,事倍功半。
圖5 村落地圖和與/或決策樹Fig.5 Village map and AND/OR decision tree
人類智能的第二個重要特征是:為有效管理和使用已知的各種知識,必須把它們分門別類地一層一層向上分類、歸納、抽象,形成由不同粒度知識組成的多層次網狀結構。比如大家熟悉的地圖知識,在范圍最小的村落里,每戶人家可是一個原子結點,它們通過原子道路相互連通。圖5是一個高度簡化了的村落級地圖,圖中用5個原子結點代表有限n戶人家,用全互連圖代表原子道路的分布狀況(wi=1表示此路通暢,wi=0表示此路不通),形成了一個村落內部的剛性關系網絡。利用這個關系網絡可以解決村落內部的各種交通路徑規(guī)劃問題,圖5中畫出來的因果決策樹就是為規(guī)劃“從d家到a家”去做客的最佳路徑規(guī)劃,它可根據任務從剛性關系網絡中誘導出來,并按照道路的實時通暢情況,選擇完成任務的最佳路徑。
這個決策過程可用剛性邏輯或二值神經網絡來實現: 1)決策樹中有16條不同的路徑可供選擇,彼此之間是“或”的關系,即只要有一條路徑暢通這個問題就有解;2)如果一條路徑經過的所有邊都是暢通的,則這條路徑是暢通的,即同一個路徑中經過的不同邊之間是“與”的關系;3)在多條路徑都暢通時,選擇經過邊數最少的路徑為“最佳解”。
在一個自然村落范圍內,上述用原子級關系網絡誘導出與/或決策樹來尋找最佳路徑的過程是絕對有效的,并在理論上有剛性邏輯和二值神經網絡的支撐。那么,是否能夠無限制擴大這種絕對有效方法的應用范圍呢?人類的社會實踐早已做出了否定的回答,因為隨著決策范圍的不斷擴大,涉及的原子信息(結點和邊)會成幾何級數地增多,其中絕大部分是與待解問題毫無關系的因素,如果把它們全部牽扯進來,不僅于事無補,反而使問題的復雜度成幾何級數快速增大,成為一個實際難解、解了也無法說清楚的笨方法。人類使用的有效方法是:在有關村落級地圖的基礎上,進一步利用粒度更大的鄉(xiāng)鎮(zhèn)級地圖(其中的觀察粒度增大到一個村落)和地市級地圖(其中的觀察粒度增大到一個鄉(xiāng)鎮(zhèn))來分層次地逐步解決“從d″鎮(zhèn)d′村d家到a″鎮(zhèn)a′村a家”的最佳路徑規(guī)劃問題(見圖6)。
圖6 鄉(xiāng)鎮(zhèn)地圖和地市地圖的簡化表示Fig.6 Simplified representation of district map and municipal map
圖6是一個高度簡化了的鄉(xiāng)鎮(zhèn)級地圖和地市級地圖,圖中仍然用5個結點代表有限n個觀察結點,不同的是它們都是有內部結構的分子結點,仍然用全互連圖代表分子結點之間的連通狀況,不同的是wi內部可能存在復雜的分子結構,不是簡單的通或不通關系。這樣就把一個在原子層面十分復雜的最佳路徑規(guī)劃問題,轉化成幾個相對簡單得多的3個不同層面內部和層面之間的最佳路徑規(guī)劃子問題進行求解,整體的復雜度可以大大降低。請讀者注意:圖6里的分子結點“d′村”有兩層含義,對內講它包含村落里的全部內容,對外講它是一個代表本村落與其他村落的聯(lián)通結點(如村政府、公交車站、水運碼頭等),d″鎮(zhèn)的含義也與此類似。利用圖6來分層求解最佳路徑的過程:首先在地市級地圖上解決“從d″鎮(zhèn)到a″鎮(zhèn)”的最佳路徑規(guī)劃問題,然后分別去到兩個鄉(xiāng)鎮(zhèn)級地圖上解決“從d′村到d″鎮(zhèn)”的最佳路徑規(guī)劃問題和“從a″鎮(zhèn)到a′村”的最佳路徑規(guī)劃問題,最后再分別到兩個村落級地圖上解決“從d家離開d′村”的最佳路徑規(guī)劃問題和“從a′村進入a家”的最佳路徑規(guī)劃問題。
當今社會每天都在成億次地產生制定國際國內旅游路徑規(guī)劃問題,對人類社會來講這個過程已經十分輕松,沒有太大的困難。這是如何做到的呢?首先是因為各國已經事先準備好了各個地區(qū)不同層面的交通路線圖備客戶使用,其次是因為各個業(yè)務部門都有實時更新的交通工具運行時間和價格等信息發(fā)布。有這些背景知識和信息的存在,即可快速支持任意范圍內任意兩點之間的旅游路徑規(guī)劃問題。例如:有人要從中國西安市西北工業(yè)大學去美國匹茲堡市匹茲堡大學講學,其旅游路徑規(guī)劃不必從包含每家每戶的世界地圖上(當今世界每一個自然村落都有詳細的地圖,只要你不計成本和時空開銷,一定可把它們全部拼接在一張世界地圖上)去尋找,因為這個“最佳解”即使你用深度神經網絡和云計算不計成本地找到了,它肯定是人類難以理解和解釋清楚的“黑箱解”,在這個“黑箱解”的某個小環(huán)節(jié)突然出現異常時,更無法知道如何調整這個最佳路徑規(guī)劃。人類的做法不會如此愚鈍,首先,他會根據頂層子任務“從中國到美國”在世界級地圖和國際航空信息網站上找到從中國到美國的最佳航線和最佳航班信息,比如選擇了某日某某航班從北京市的首都國際機場飛美國紐約市的紐瓦克機場;其次,根據兩個中層子任務“從西安市到北京市首都國際機場”和“從紐瓦克機場到匹茲堡市”,分別在兩個國家級地圖和國內航空信息網站上找到最佳航線和最佳航班信息;最后,根據兩個底層子任務“從西北工業(yè)大學到西安市咸陽機場”和“從匹茲堡機場到匹茲堡大學”,分別在兩個城市級地圖上根據當地實時發(fā)布的道路交通狀況找到最佳的開車路線。
這種通過多層規(guī)劃來解決復雜問題的聰明做法本質上是一種主動引入和合理利用不確定性的方法,它突破了傳統(tǒng)問題求解觀念的約束。傳統(tǒng)問題求解觀念認為,在解決問題時應努力消除各種不確定性,實在不能消除也要盡可能地避免不確定性推理,以便使用有可靠數學基礎的剛性邏輯或二值神經網絡解決。但是隨著問題復雜度的不斷增長,其時空開銷會迅速達到無法實際操作的程度,人們不得不適時地進行分類、歸納和抽象,主動離開具有最細粒度和確定性的原子信息狀態(tài),果斷進入具有較粗粒度和不確定性的分子信息狀態(tài)。圖7從時空開銷(即易操作性)的角度給出了詳細解釋。通過歸納不難發(fā)現,n原子信息系統(tǒng)會形成由N=2n個不同狀態(tài)組成的偏序空間,其復雜度會迅速增加到天文數字。如果忽略這些精確的偏序關系,用統(tǒng)計原子信息出現數目的方法把它映射到全序空間,其狀態(tài)數可立即降低為N=1+n的線性復雜度(信息壓縮了2n/(1+n)倍)。所以,在眾多原子信息組成的系統(tǒng)中,除了特殊需要外,人們會主動離開過度精細的偏序空間,大膽進入到比較實用的全序空間,而不在乎它帶來的不確定性, 這是人類智慧的高度體現,深度神經網絡忽略了這個重要的人類智慧。
為讓讀者增強對主動引入和合理利用不確定性意義的認識,圖8給出了學生們十分熟悉的“理想試卷模型”。設卷中有100道原子狀態(tài)的是/非題(答對一道題得1分,否則得0分,沒有中間過渡分數存在),用具有確定性的剛性邏輯來描述這個試卷,它是一個100維的二值邏輯,可精確描述到每一道題的得分情況,排列組合共有2100=126 7650 6002 2822 9401 4967 0320 5376≈1.267 65×1030種不同的答題狀態(tài),它們組成了一個100維的偏序空間。在現實生活中需要知道如此精準狀態(tài)描述的只有閱卷老師和學生本人,其他人只需要知道他在101種不同狀態(tài)組成的全序空間中的某個分數狀態(tài)(圖中是90分)即可,信息壓縮比是(1.267 65×1030)/101=1.255 099×1028倍。而且就是這個90分本身也包含不確定性,因為盡管你確切知道他有10道題答錯了,但仍然不知道錯的是哪10道題,只知道它是210=1 024種不同錯誤狀態(tài)中的一種。可見,在人類智能活動中,不僅客觀上無法避免不確定性,而且為了提高決策效率需要忽略大量無關信息,主動引入不確定性。不難理解:決策的抽象層次越高,涉及的知識粒度越大,其中忽略的無關信息就越多,引入的不確定性就越大。由此可見,在深度神經網絡中,有意無視邏輯和知識的作用是一種方向性錯誤。
圖7 從確定的原子狀態(tài)進入不確定性的分子狀態(tài)Fig.7 From the determined atomic state to the molecular state of uncertainty
圖8 從試卷模型看確定性和不確定性的關系Fig.8 A test paper model is used to illustrate the relation- ship between certainty and uncertainty
從更廣泛的應用背景看,圖8給出的“理想試卷模型”還可以嵌套升級成為“超級試卷模型”,即試卷中的每一道題可不是是/非題(原子題),而是具有中間過渡分數的復雜題(分子題),相當于每一道1分的題都是一個像圖8一樣的“理想試卷模型”,由100個原子題目組成,其得分可在0,0.01, 0.02, ···, 0.99, 1分之間變化。這種“超級試卷模型”有什么用?用處太廣泛著呢,它幾乎無處不在!如我國教育部正在考慮從幼升小到高考都要全面改革,把綜合素質教育和評價納入其中。在高考錄取中對學生綜合素質評價的規(guī)定如下:1)學業(yè)水平。重點是學業(yè)水平考試成績、選修課程內容和學習成績、研究性學習與創(chuàng)新成果等,特別是具有優(yōu)勢的學科學習情況。2)藝術素養(yǎng)。重點是在音樂、美術、舞蹈、戲劇、戲曲、影視、書法等方面表現出來的興趣特長,參加藝術活動的成果等。3)思想品德。重點是學生參與黨團活動、有關社團活動、公益勞動、志愿服務等的次數、持續(xù)時間。4)身心健康。重點是《國家學生體質健康標準》測試主要結果,體育運動特長項目,參加體育運動的效果,應對困難和挫折的表現等。5)社會實踐。重點是學生參加實踐活動的次數、持續(xù)時間,形成的作品、調查報告等。這個評價模型就是“超級試卷模型”,它需要考察學生的5個關鍵信息,如果每個關鍵信息又分20方面,一共是100個方面(相當于100個1分題)。而這100個方面又是根據學生過去在學校學習各種課程的歷次成績、在社會實踐和公益活動中的歷次表現、在科研活動中的創(chuàng)新性表現、本人的團隊精神、在經受挫折時表現出堅韌性、面試中獲得的各種印象等組成(其中的每一個原子事件都相當于0.01分題)。所以這個“超級試卷模型”也是從原子信息開始評分的,不同的是評分者不是一個人,而是由不同時期的負責人或任課老師一級一級不斷抽象上來的,大部分的中間分數已經反映在學生的檔案材料之中,招生錄取老師只是完成最后的分數匯總,一般不需要深入到原子信息層面去了解詳細細節(jié)。
當然,要解決比原子信息處理層次更高的分子信息處理問題,就需要抽象層次更高的柔性邏輯和柔性神經元的參與,這是重新找回人工智能可解釋性的理論關鍵。
要妥善解決好不確定性的描述和信息處理過程,首先需要把建立在剛性集合(即分明集合、經典集合)基礎上的剛性命題的真值x∈{0, 1},擴張到建立在柔性集合(即不分明集合、模糊集合)基礎上的柔性命題的真度x∈[0, 1]。在邏輯上應該如何來實現這種擴張呢?本文使用的方法就是從“理想試卷模型”中抽象出來的(見圖9)。
圖 9 柔性命題真度的邏輯意義Fig. 9 Logical meaning of the truth degree of the flexible proposition
在對象空間U內, ?是邊界不清晰的柔性集合(類似于一個班級的數學成績單),任意元素(類似于一個學生)u∈?的隸屬度(類似于這個學生的數學成績,可在0%~100%之間變化)μ(u),需要在因素空間(類似于“理想試卷模型”)E中去找到與對象u對應的剛性集合(即學生u的數學答卷)X,求出X的概率測度m(X)來(類似于評出學生u答對試題所占的百分比)。用邏輯語言描述是:U中柔性命題的真度為
即E中謂詞公式 ? xP(x)的滿足度。
回過頭來總結我們團隊20余年來的探索經歷,完成剛性邏輯到柔性邏輯擴張的總路線圖(見圖10),其起點是完全承認剛性信息處理理論在柔性信息處理理論中基礎平臺的核心地位,根本不需另起爐灶,推倒重來。
擴張的第一步是把剛性命題的真值x∈{0,1}擴張為柔性命題的真度x∈[0, 1],而各種算子的計算公式z=Γ[ax+by-e]仍然保持不變。這樣就把剛性信息處理的16種模式(見圖3)直接擴張為柔性信息處理基模型中的16種信息處理模式(見圖11)。在圖11中另外增加了4種新的信息處理模式,它們都是由于中間過渡值的參與而形成的,其中包括平均運算z=Γ[0.5x+0.5y]和非平均運算 z=1-Γ[0.5x+0.5y],組合運算 z=Γ[x+y-e]和非組合運算z=1-Γ[x+y-e],這里的決策閾值可連續(xù)變化e∈[0, 1],不再是固定的整數。這20種基模型的信息處理模式在圖11中有詳細描述,以后還會重點講解。
圖 10 從剛性邏輯到柔性邏輯的擴張總路線圖Fig. 10 General line map from rigid logic to flexible logic
圖 11 柔性信息處理中的20種基本模式Fig. 11 The 20 basic modes in flexible information processing
后面的3步是在這20種基模型信息處理模式基礎上,逐步引入誤差系數k∈[0, 1], 廣義相關系數h∈[0, 1]和權系數β∈[0, 1]的影響,利用三角范數理論和有關的公理,證明這些不確定性參數對基模型的調整程度和方式(見圖12),它們是[5-7]:
1)命題真度的誤差系數k∈[0, 1],其中k=1表示最大正誤差,k=0.5表示無誤差,k=0表示最大負誤差。k對基模型的影響完全反映在N性生成元完整簇 Φ(x, k)=xn,n∈(0, ∞)上,其中 n=-1/log2k。當 n→0 時,Φ(x, 0)=ite{0|x=0; 1}; 當n=1時,Φ(x, 0.5)=x; 當 n→∞時,Φ(x, 1)=ite{1|x=1;0}。Φ(x, k)對一元運算基模型N(x)的作用方式是N(x, k)=Φ-1(N(Φ(x, k)), k),對二元運算基模型 L(x, y)的作用方式是 L(x, y, k)=Φ-1(L(Φ(x, k), Φ(y, k)), k)。
圖 12 3種不確定性參數及其調整函數Fig. 12 Three kinds of uncertainty parameters and their adjustment functions
2)廣義相關系數h∈[0, 1],其中:h=1是最大的相吸關系或者最大的相容關系;h=0.75是獨立相關關系;h=0.5是最大的相斥關系或者最小的相容關系,也就是最弱的敵我關系或者最小相克關系;h=0.25是敵我僵持關系;h=0是最強的敵我關系或者最大的相克關系。廣義相關系數h對基模型的影響全部反映在T性生成元完整簇F(x, h)=xm, m∈(-∞, ∞)上,其中:m=(3-4h)/(4h(1-h))。當m→-∞時,F(x, 1)=ite{1|x=1; ±∞}; 當 m→0-時,F(x,0.75-)=1+lg x; 當 m→0+時,F(x, 0.75+)=ite{0|x=0; 1};當 m=1時,F(x, 0.5)=x; 當 m→∞時,F(x, 0)=ite{1|x=1; 0}。
F(x, h)對6種二元運算基模型L(x, y)的影響是
3)權系數 β∈[0, 1],其中:β=1表示最大偏x;β=0.5表示等權;β=0表示最小偏x。權系數β對基模型的影響完全反映在二元運算模型上,其對基模型L(x, y)的作用方式是:
k, h, β三者對二元運算模型L(x, y)共同的影響方式是:
如此就獲得了20種柔性信息處理算子的完整簇,它包含了柔性信息處理所需要的全部算子,可根據應用需要(反映在模式參數和模式內部的調整參數
圖13~22是這20種柔性信息處理模式的擴張過程和結果圖,下面重點介紹幾個模式。
圖 13 恒0模式和恒1模式Fig. 13 Constant 0 pattern and constant 1 pattern
圖 14 非或模式和或模式Fig. 14 N-OR pattern and OR pattern
圖 15 非蘊涵2模式和蘊涵2模式Fig. 15 N-IMP-2 pattern and IMP-2 pattern
圖 16 非x模式和指x模式Fig. 16 NOT -x pattern and IND -x pattern
圖 17 非蘊涵1模式和蘊涵1模式Fig. 17 N-IMP-1 pattern and IMP-1 pattern
圖 18 非y模式和指y模式Fig. 18 NOT-y pattern and IND-y pattern
圖 20 非與模式和與模式Fig. 20 N-AND pattern and AND pattern
圖 21 非平均模式和平均模式Fig. 21 N-AVE pattern and AVE pattern
圖13中的2種模式的共同特點是不管輸入如何變化,輸出是恒定不變的,也就是平常理解的“輸出的結果與輸入的變化沒有關系”。
圖14中的或運算是最常用的邏輯運算之一,可受k、h、β的聯(lián)合影響,是一個運算模型完整簇:
當β=0.5時權系數的影響消失,S(x, y, k, h)=(1-(max(0, (1-xn)m+(1-yn)m-1))1/m)1/n;
當k=0.5時誤差系數的影響消失,S(x, y, h)=(1-(max(0, (1-x)m+(1-y)m-1))1/m。
S(x, y, h)有4個特殊算子: Zadeh或算子S(x,y, 1)=max(x, y) ;概率或算子S(x, y, 0.75)=x+yxy;有界或算子S(x, y, 0.5)=min(1, x+y);突變或算子 S(x, y, 0)=ite{max(x, y)|min(x, y)=0;1}。
圖15中的非運算是常用的邏輯運算之一,它只受誤差系數k的影響,是一個N范數完整簇:
其中:N(x, 1)=ite{0|x=1; 1}是最大非算子,N(x,0.5)=1-x是中心非算子, N(x, 0)=ite{1|x=0; 0}是最小非算子。
圖17中的蘊涵運算是常用邏輯運算之一,它可受k、h、β的聯(lián)合影響,是一個運算模型完整簇:
當β=0.5時權系數的影響消失,I(x, y, k, h)=(min(1, 1-xnm+ynm))1/mn;
當k=0.5時誤差系數的影響消失,I(x, y, h)=(min(1, 1-xm+ym))1/m。
從表3可以看出,比較了所有的模型之后,peleg模型在整個水活度范圍內對金銀花的吸濕數據擬合的最好,Peleg模型的E值4.59%~6.33%,吸濕的平均值為5.66%。Ferro-Fontan模型、GAB模型、Mod-BET模型、Halsey模型、Oswin模Henderson模型不能很好地擬合金銀花的吸濕等溫線。GAB模型對試驗數據擬合的最差,Smith模型無法擬合金銀花的吸附等溫線。
I(x, y, h)有4個特殊算子: Zadeh蘊涵I(x, y,1)=ite{1|x≤y; y};概率蘊涵 I(x, y, 0.75)=min(1, y/x) ;有界蘊涵I(x, y, 0.5)=min(1, 1-x+y);突變蘊涵I(x,y, 0)=ite{y|x=1; 1}。
圖19中的等價運算是常用的邏輯運算之一,它可受k、h、β的聯(lián)合影響,是一個運算模型完整簇:
當β=0.5時權系數的影響消失,Q(x, y, k, h)=ite{(1+|xnm-ynm|)1/mn|m≤0; (1-|xnm-ynm|)1/mn};
當k=0.5時誤差系數的影響消失,Q(x, y, h)=ite{(1+|xm-ym|)1/m|m≤0; (1-|xm-ym|)1/m}。
Q(x, y, h)有4個特殊算子: Zadeh等價Q(x, y, 1)=ite{1|x=y;min(x, y)};概率等價Q(x, y, 0.75)=min(x/y, y/x);有界等價 Q(x, y, 0.5)=1-|x-y|;突變等價Q(x, y, 0)=ite{x|y=1;y|x=1;1}。
圖20中的與運算是常用的邏輯運算之一,它可受k、h、β的聯(lián)合影響,是一個運算模型完整簇:
當β=0.5時權系數的影響消失,T(x, y, k, h)=(max(0, xnm+ynm-1))1/mn;
當k=0.5時誤差系數的影響消失,T(x, y, h)=(max(0, xm+ym-1))1/m。
圖21中的平均運算是常用的邏輯運算之一,它可受k、h、β的聯(lián)合影響,是一個運算模型完整簇:
當β=0.5時權系數的影響消失,M(x, y, k, h) =(1-((1-xn)m+(1-yn)m)1/m)1/n;
當 k=0.5 時誤差系數的影響消失,M(x, y, ···,h)=1-((1-x)m+(1-y)m)1/m。
M(x, y, h)有4個特殊算子: Zadeh平均M(x, y,1) =max(x, y);概率平均 M(x, y, 0.75)=1-((1-x)(1-y))1/2;有界平均 M(x, y, 0.5)=(x+y)/2;突變平均M(x, y, 0)=min(x, y)。
常見的平均算子還有:幾何平均1-M(1-x,1-y, 0.75)=(xy)1/2;調和平均1-M(1-x, 1-y,0.866)=2xy/(x+y)。可見柔性命題邏輯的平均運算完整簇能夠包容各種平均算子。
圖22中的組合運算是常用的邏輯運算之一,它可受k、h、β的聯(lián)合影響,是一個運算模型完整簇:
當β=0.5時權系數的影響消失,Ce(x, y, k, h)=ite{min(e, (max(0, xnm+ynm-enm))1/mn|x+y<2e; (1-(min (1-en, (max(0, (1-xn)m+(1-yn)m-(1-en)m))1/m))1/n))|x+y>2e; e};
當k=0.5時誤差系數的影響消失,Ce(x, y, h)=ite{min(e, (max(0, xm+ym-em))1/m|x+y<2e; (1-(min(1-e,(max(0, (1-x)m+(1-y)m-(1-e)m))1/m)|x+y>2e; e}。
Ce(x, y, h)有4個特殊算子: Zadeh組合Ce(x, y,1)=ite{min(x, y)|x+y<2e; max(x, y)|x+y>2e;e};概率組合Ce(x, y, 0.75)=ite{xy/e|x+y<2e;(x+y-xy-e)/(1-e)|x+y>2e;e};有界組合 Ce(x, y, 0.5)=Γ[x+y-e];突變組合Ce(x, y, 0)=ite{0|x, y
圖23是閾值參數e∈[0, 1]對有界組合Ce(x, y,0.5)=Γ[x+y-e]的影響圖。
圖 23 在組合運算中決策閾值e的影響Fig. 23 Influence of decision threshold e on the combinatorial operation
由于上述擴張過程都是在邏輯算子和神經元共同的0,1限幅函數z=Γ[ax+by-e]基礎上完成的,所以它不僅是對剛性邏輯算子的柔性擴張,而且是對二值神經元的柔性擴張,兩者完全一一對應,具有等價關系,詳見圖24。
圖 24 柔性神經元的信息處理全過程Fig. 24 Entire process of information processing of flexible neurons
下面通過兩個典型的柔性命題邏輯譜來了解其包容性:在一維命題邏輯譜L(x, y, h)中(見圖25),不僅包含了已知的非標準邏輯模糊邏輯、概率邏輯、有界邏輯、僵持邏輯和突變邏輯,而且還包含了分布在這些邏輯之間的無窮多個未知的非標準邏輯(在概率論中它們只能用條件概率描述,不能構成邏輯形態(tài))。整個邏輯譜按照基本屬性分成兩大類:朋友之間的相生相關(1≥h≥0.5),它滿足相容律,即T(x, y, h)+S(x, y, h)=x+y;敵我之間的相克相關(0.5≥h≥0), 它滿足相克律,即在x+y>1時,因為有相互殺傷,推遲出現下飽和效應,T(x, y, h)=0;在x+y<1時,因為擴軍備戰(zhàn),提前出現上飽和效應S(x, y, h)=1。再細分有4小類:相吸關系(1≥h>0.75), 它滿足T(x, y, h)>xy;相斥關系 (0.75>h≥0.5), 它滿足 T(x, y, h)
圖 25 一維命題邏輯譜L(x, y, h)的包容性Fig. 25 Inclusiveness of the one-dimensional propositional logic spectrum L(x, y, h)
在二維命題邏輯譜L(x, y, k, h)中(見圖26),不僅包含了一維命題邏輯譜L(x, y, h)中的全部邏輯算子簇L(x, y, 0.5, h),而且進一步包含了分布于k∈[0, 1]范圍內其他的無窮多個已知和未知的各種非標準邏輯,如圖26左邊已知的可能推理邏輯、似然推理邏輯、信任推理邏輯和必然推理邏輯等[8],而圖右邊尚未開墾的處女地是相克邏輯群,它在研究對抗性行為中將大有可為。子簇具有完備性,它包含了所有命題級的柔性信息處理算子,理由有3條(見圖27)。
圖 27 使用柔性邏輯算子如同查三角函數表一樣方便Fig. 27 Using flexible logic operators is as convenient as looking at trigonometric functions
圖 26 二維命題邏輯譜L(x, y, k, h)的包容性Fig. 26 Inclusiveness of the two-dimensional propositional logic spectrum L(x, y, k, h)
2.4.1 柔性命題邏輯算子簇的完備性
從上述擴張全過程不難證明柔性命題邏輯算
1)二元布爾信息處理只有16種信息處理模式,二元柔性基模型信息處理只有20種信息處理模式,三元以上的信息處理可以用多個二元信息處理來表示,所以這20種模式是完備的,它們由信息處理模式的狀態(tài)參數唯一確定。
2)在基模型中已經包含了命題真度的不確定性x∈[0, 1],它可以從最大值1連續(xù)變化到最小值0,中間沒有遺漏,具有完備性。
3)能夠對各種基模型產生調控作用的不確定性參數只有 3個,它們是 k∈[0, 1],h∈[0, 1],β∈[0, 1],另外能對組合運算基模型產生調控作用的不確定性還有一個e∈[0, 1],它們形成的算子完整簇都能夠從最大可能的算子連續(xù)變化到最小可能的算子,中間沒有遺漏,具有完備性,它們可由模式內的不確定性調整參數
所以,這個完備的命題級柔性信息處理算子庫可以事先由軟件或者硬件實現后,封閉起來放在后臺讓應用程序直接調用計算結果,如同查三角函數表一樣方便(見圖27)。
請讀者注意:為了幫助有興趣深入理解命題泛邏輯各個算子完整簇的變化細節(jié),包括20種柔性信息處理模式(常用的7種柔性邏輯算子完整簇)、各種算子完整簇內部受不確定性調整參數
2.4.2 柔性命題邏輯算子的應用針對性
在剛性邏輯中,只有16種信息處理模式,用不同的模式特征參數區(qū)分,分別對應16種不同的邏輯算子,它們共同組成了二元剛性邏輯的算子組來完成邏輯推理的職能,在一個信息處理模式內是“一把鑰匙開所有鎖”的關系。在柔性邏輯中由于包含了5種命題級不確定性,情況完全變了,它不僅有20種信息處理模式,用不同的模式特征參數區(qū)分,分別對應20種不同的邏輯算子完整簇,其中包含無窮多個算子,用不確定性調整參數
圖28是一個示意圖,它用“鑰匙”來比喻算子,用“鎖孔型”來比喻算子要完成的信息變換模式。在剛性邏輯中只有16種不同的“鎖孔型”,對應有16種不同的“鑰匙”,沒有進一步的齒形變化。所以,只要知道了“鎖孔型”的(信息處理模式),就可以根據選擇合適的“鑰匙”去完成信息變換過程。這是古代老式鎖的設計原理,一種“鎖孔型”只用一種“鑰匙”即可打開,“一把鑰匙開萬把鎖”。在現代鎖的設計原理中,不僅保留了“鎖孔型”的變化(信息處理模式),還進一步增加了“鑰匙齒形”的變化
圖 28 在柔性邏輯中需要一把鑰匙開一把鎖Fig. 28 A key needed to open a lock in the flexible logic
在人工智能研究中這個問題很重要,可從必要性和可能性兩方面來論述。
必要性可從客觀規(guī)律和主觀需要兩方面來認識。在幾千年漫長的機械工具時代和最近幾百年的動力工具時代,人們面對的工具都是簡單的機械系統(tǒng),這類系統(tǒng)的共同特征是它的確定性:在工具的生命周期內,它面對的應用需求和工作職能都是確定不變的,其工作原理、內部結構和行為方式也是確定不變的。所以在設計、生產、使用和維護工具的過程中,可用決定論的科學觀去完全把握它,用還原論的方法論去有效處理它,整個過程都可用“非真即假”的語言來嚴格地描述,用剛性邏輯予以求解,不會出現例外。這種形而上學的思維方式與數學思維高度一致,以至于這種決定論科學觀和還原論方法論已完全與所謂“現代科學理念”和“標準邏輯思維”緊密融合在一起,滲透到科研活動的方方面面成為鐵律。
現在,人類已進入信息時代,智能機器已成為推動時代發(fā)展的主要工具形式。由于“智能”是人類認識世界和改造世界的核心能力,它本質上不可能是終生確定不變的東西,隨著人類對客觀世界規(guī)律的認識越來越廣泛和深入,人類的智能也會變得越來越強大,不會永遠停留在原始狀態(tài)而一成不變。所以,演化必然是智能工具的核心特征,如同宇宙的演化、生物的演化、人類社會的演化、語言的演化、市場的演化、氣候的演化等一樣的自然而然,這是智能工具不同于機械工具和動力工具的基本特征。按照現代復雜性系統(tǒng)的研究,各種復雜性系統(tǒng)之所以能夠不斷演化發(fā)展,是因為其中包含了眾多的辯證矛盾,系統(tǒng)中每個基本事物的內部都是一個“亦真亦假”的矛盾對立統(tǒng)一體,無處不在的各種不確定性是這種矛盾對立統(tǒng)一關系的外在表現。成千上萬種辯證矛盾集中在一個系統(tǒng)內相互作用、此消彼長,必然會涌現出某些原來沒有的新事物(如恒星系的形成、生命的誕生、人類的誕生、市場的形成、互聯(lián)網的形成等都是非線性系統(tǒng)涌現效應的結果,它們在原有系統(tǒng)中都是“非真非假”的新事物),通過優(yōu)勝劣汰的環(huán)境選擇就能保留或淘汰一些新、老事物,不斷推動復雜性系統(tǒng)的演化發(fā)展。
圖29對比分析了兩種不同科學觀和方法論對邏輯推理范式的內在需求。
圖 29 不同世界有不同的邏輯環(huán)境Fig. 29 Different worlds have different logical environments
在確定性世界假設中,構造的是一個單一封閉的邏輯環(huán)境,其中只存在理想化的“非真即假性問題”,其他的問題都屬于“非邏輯問題”或者“無定義(⊥)問題”被排斥在環(huán)境外。所以,在這個世界中只有真命題和假命題兩種研究對象,可用論域U中的分明集合A來刻畫,U中任意元素u∈A是真命題,當且僅當u是A的元素,否則u∈A是假命題,可見在確定性世界中有剛性推理范式即可解決全部問題。如數學之所以能用剛性推理范式求解問題,是因為它事先已將現實問題中所有不確定性全部忽略,抽象為規(guī)律確定不變、狀態(tài)真假分明、已知條件齊全的理想化問題,可機械式求解。又如在科學問題中,可假設在太陽系的范圍內,在上下一萬年的時期中,系統(tǒng)的各個組成部分(太陽、地球等各大行星、月亮等各個衛(wèi)星)的質量、體積、運動軌道、物體的客觀運動規(guī)律等都是確定不變的,于是萬年歷、潮汐表、一年四季的交替循環(huán)、二十四節(jié)氣等結果都可以計算出來,它們如同鐘表運動一樣準確無誤,利用它們可以精準地追溯過去,預測未來。人們之所以相信決定論科學觀和還原論方法論,其更深層的哲學信念是:人們相信世間萬物都受確定不變的客觀規(guī)律控制,時間是標量,不確定性是人對客觀規(guī)律和問題的狀態(tài)掌握不完全引起的近似性。所以人類認知的前進方向是不斷消除這些認知不確定性,實現對客觀規(guī)律和狀態(tài)參數的全部掌握,最后實現絕對的確定性。這種信念的終極結果就是讓人們堅信,依靠剛性邏輯推理范式一定可實現所謂“數學的終結”和“科學的終結”。
然而,耗散結構理論創(chuàng)立者伊利亞·普里戈金的《確定性的終結》(1996年問世,1998年出中文版)宣告了確定論哲學信念的終結[9],因為它不符合客觀實際情況,犯了認知的方向性誤判。如現代人都知道,上述的萬年歷、潮汐表、一年四季的交替循環(huán),二十四節(jié)氣等所謂精準結果,僅僅是在太陽系范圍內、在上下一萬年的時間內有效的近似結果,因為只有在如此短暫的時空范圍內,各種變化才十分微小,可忽略不計。而在更大的時空范圍內看,所有天體都處在持續(xù)不斷地演化發(fā)展過程之中,太陽系從“無”到今天的“有”也只不過150億年左右,在未來100多億年之后,它一定會塌陷到黑洞之中而回歸于“無”,如同“人生一世,草木一秋”一樣有發(fā)生、發(fā)展和消亡的過程,來去匆匆,沒有永恒。
其實,人類之所以有智能,也是因為他不是用固定的眼光一成不變地看待周圍的一切,他可根據眼前問題的真實狀況和變化趨勢,在已有經驗啟發(fā)下選擇辨證施治對癥下藥的方式解決問題。如失敗可從頭再來反復試探下去,并能通過歷史的經驗教訓進行學習,不斷完善自身發(fā)現問題和解決問題的能力(這就是演化)。人們之所以會相信演化論科學觀和涌現論方法論,其更深層哲學信念是:相信世間萬事萬物都處在由辯證矛盾不斷推動的演化發(fā)展過程中,時間是矢量,過去、現在和未來扮演著不同的角色,不確定性是客觀世界的本質屬性,確定性是人在局部時空環(huán)境內產生的近似性認知。人類認知的前進方向是不斷消除這些近似性認知,精準把握各種不確定性(辯證矛盾)在生態(tài)平衡中的演化發(fā)展規(guī)律和各種影響,理想化只是權宜之計。
所以,人工智能面對的邏輯環(huán)境是一個現實開放的復雜邏輯環(huán)境,其中除了具有“非真即假性”的確定性問題,可用剛性邏輯描述外;更多的是具有“亦真亦假性”的不確定性問題,需要用柔性邏輯描述;特別是具有“非真非假性”的演化問題,需要用S-型超協(xié)調邏輯描述[10-12]。圖30給出了智能信息處理需要的完整邏輯譜,其中:左極限是剛性邏輯(數理形式邏輯),它針對的是全部邏輯要素都受“非真即假性”約束的確定性問題;右極限是完整的數理辯證邏輯,它針對的是全部邏輯要素都具有不確定性的問題。在一般情況下,只有部分邏輯要素具有“亦真亦假性”或者“非真非假性”(涌現出新的對象),需要用柔性邏輯或者S-型超協(xié)調邏輯描述。
圖 30 智能信息處理需要的完整邏輯譜Fig. 30 Complete logic spectrum required for intelligent information processing
下面再從人類認識世界和改造世界的主觀需求來論述主動引入不確定性的重要意義。眾所周知,人類認識世界通常有兩個不同的前進方向:一個方向是自頂向下地逐步深入,逐步具象化;另一個方向是自底向上地逐步擴大,逐步抽象化。這兩種研究方向相互結合交替進行,當獲得的各種有效知識足夠豐富完整之后,自然就形成了一幅完整的多層次、多粒度的知識結構圖(見圖31):選擇其中任意大中小3層來看,中粒度知識子空間中的一個結點,必然對應著一個小粒度知識子空間;若干中粒度知識結點組成的子空間,必然對應著大粒度知識子空間中的一個結點;如此層層累加,就組成了整個知識空間的n層樹形子空間結構。由于每一個知識子空間的結點數目都比較合適,屬于易操作的知識子空間,所以在利用知識空間來解決問題時,這種知識結構十分有利于快速有效地進行求解(如前面討論的制定國際國內旅游路徑規(guī)劃問題)。
圖 31 多層次多粒度的知識結構圖Fig. 31 Multilevel and multigranularity knowledge structure diagrams
一般來說,最底層知識子空間包含的是原子級的知識,它受“非真即假性”約束,只有真、假兩種可能的狀態(tài),不可能再進一步向下分割成為更小粒度的知識了,其中的因果關系可以用剛性邏輯進行描述,求解起來比較簡單快捷。但是這個最底層知識子空間能有效管轄的范圍不應該太大,否則,它包含的原子級的知識太多,會出現因果關系復雜度的幾何級數增長,影響問題求解的效率(如在理想試卷模型中,100個原子信息組成的系統(tǒng)就有2100≈1.267 65×1030種不同的狀態(tài)組合,絕大多數情況下不需要知道這些細節(jié))。在這個問題上“人更聰明”表現在他能夠適時地利用聚類、歸納和抽象等手段,把數目恰當的若干原子信息變換成粒度更大的分子信息(知識),在這些分子級信息(知識)基礎上建立新的相對抽象的因果關系。一般來講,分子級信息(知識)已是具有“亦真亦假性”的不確定性知識,需要用柔性邏輯描述。所以,在許多基于二值信息處理的復雜問題中,為了減少問題的復雜度,提高處理效率,人們需要適時地主動引入不確定性,這是人類智能的一種重要屬性。同樣,當由分子級知識組成的知識空間管轄的范圍太大,包含的分子級知識結點數目太多,影響到問題求解效率時,還可以進一步適時地利用聚類、歸納和抽象等手段,把數目恰當的若干粒度較小的分子級知識變換成粒度較大的分子級知識,在這些較大分子級知識基礎上建立新的更加抽象的因果關系,仍然可用柔性邏輯描述。這種逐級抽象的過程可以不斷進行下去,沒有最高層限制。
下面具體討論本文的核心論題:如何實現智能信息處理過程和結果的強可解釋性?這個問題的本質就是我們在用神經網絡進行數據挖掘和機器學習時,如何適時地把神經網絡參數準確翻譯成可靠的邏輯表達式,這里的所謂可靠邏輯就是指有可靠數學基礎理論證明的剛性邏輯(數理形式邏輯)及其擴張——柔性邏輯(命題級數理辯證邏輯)。
先來討論最簡單的情況——二值信息處理。假設我們需要處理的數據都是“非真即假”的原子信息,且正好是二元信息處理的情況,其中x, y∈{0,1}是輸入信息,z∈{0, 1}是輸出信息。根據圖3它只有16種不同的信息處理模式,通過統(tǒng)計識別具體的函數關系 z=fi(x, y), i∈{0, 1, 2, 3, ···, 15}可把它們準確無誤地用模式狀態(tài)參數區(qū)分開來,利用z=Γ[ax+by-e]公式計算出輸出和輸入的關系,也就是說,可直接獲得每種模式的神經元參數和邏輯表達式,實現強可解釋性。由于圖3已經十分詳盡,這里不再重述。
如果出現多元信息處理的情況,可以參照z=
的方式進行處理(由于在柔性信息處理中也只有20種模式,所以也與只有16種模式的二值信息處理類同)。
在多數情況下,原始數據庫K0中需要處理的數據量非常巨大,如果全部都停留在原子級粒度上進行處理,其復雜度會快速上升到需要消耗計算機的巨大時空資源的程度,得不償失,更會對信息處理過程和結果的可解釋性提出嚴重挑戰(zhàn)。所以人工智能需要學習人類的聰明做法,適時通過聚類、歸納和抽象,把屬于一類原子信息抽象成一個分子結點,把幾個類之間的因果關系抽象為幾個分子結點之間的柔性因果關系,重新建立粒度較大的抽象知識庫K1,在K1中就可以應用柔性邏輯來描述和求解這類柔性的因果關系。
設在K0中我們已經通過某種數據處理手段獲得了一個完整的類E, 它是決定K1中某個柔性命題x真度的因素空間,令柔性命題x在E中的投影是集合X,當X=E時真度x=1;X=Φ時真度x=0;否則真度x=mzd(e P(e)), 其中mzd(*)是謂詞公式*的滿足度,元素e∈E, 謂詞公式P(e)代表e∈X。
有了柔性命題x真度的因素空間定義,就可以根據X在E中的實際變化情況,計算出x真度的變化軌跡,一般用離散點刻畫,如x=0, 0.1, 0.2,0.3, ···, 0.9, 1 的 11 點方案,或者 x=0, 0.05, 0.1,0.15, ···, 0.9, 0.95, 1 的 21 點方案等。當有因果關系的各個柔性命題的真度都在K1中刻畫好后,就可以像二值信息處理一樣,首先按照端點值x, y,z∈{0, 1}之間的關系,確定柔性因果關系的信息處理模式是否屬于16種共有的模式之一,如果它不在16種模式之中,再根據中間過渡值的變化情況來確定,是4種柔性信息處理專有的模式中哪一個,具體的確定方法是:當0=(0, 0), 1>(0, 1)>0,1>(1, 0)>0, 1=(1, 1)時,是平均模式或組合模式中的一個;當1=(0, 0), 1>(0, 1)>0, 1>(1, 0)>0, 0=(1,1)時,是非平均模式或非組合模式中的一個。進一步區(qū)分是平均模式還是組合模式的基本特征是:組合模式有一定程度的上下平臺0=(0+Δ,0+Δ), 1=(1-Δ, 1-Δ)出現,而平均模式根本沒有上下平臺 0<(0+Δ, 0+Δ), 1>(1-Δ, 1-Δ)存在。完成上述柔性信息處理模式的識別非常重要,它可以把柔性信息處理的基本模式嚴格確定下來,準確獲得它的模式狀態(tài)參數和基模型計算公式:
接下來就可以在模式之內根據在K1中的數據確定可能存在的不確定性調整參數
1)誤差系數k的確定。在柔性非運算N(x,k)中,k是不動點N(k, k)=k,所以在K1中非模式的因果關系數據中,如果發(fā)現有輸入和輸出相等的情況x=z=k,這個k就是誤差系數,k=0.5表示沒有誤差。如果沒有發(fā)現完全相等的數據,可以尋找盡可能接近的數據對
2)廣義相關系數h的確定。根據K1中柔性與運算T(x, y, h)的因果關系數據,確定廣義相關系數h的方法主要有兩種:與算子體積法和x=y主平面上的標準尺測量法。
①與算子體積法:
一般m =n=11或者21。只要統(tǒng)計計算出與算子的體積來,乘上3倍,就是h。
② x=y主平面上的標準尺測量法:
在x=y平面上繪制z=T(x, x, h)曲線,這個曲線與x=0.5的垂直線或者z=0的水平線的交點位置(相對于圖32中垂直分布的h標準尺來說),就是這個與算子的廣義相關系數h。
圖 32 h的標準尺測量法Fig. 32 The standard measurement of h
3)相對權重系數β的確定。根據K1中柔性平均運算M(x, y, h, β)的因果關系數據,確定相對權重系數β的方法在M(x, y, 0.5, β)時比較方便,因為這時的 M(1, 0, 0.5, β)=β(見圖 33),而在 K1中尋找這樣的特殊數據是不困難的。
圖 33 相對權重系數β的確定Fig. 33 Determination of coefficient β of the relative weight
4)組合運算中決策閾值系數e的確定。根據K1中柔性組合運算Ce(x, y, h)的因果關系數據,確定決策閾值系數e的方法在Ce(x, y, 0.5)中比較方便,因為這時組合運算的下平臺區(qū)最大邊界線L正好是滿足x+y=e的一條直線(見圖34),這樣的數據在K1中很容易找到。
圖 34 組合運算中決策閾值系數e的確定Fig. 34 Determination of decision threshold coefficient e in the combinatorial operation
最后應該指出,上述不確定性參數確定的方法都是在孤立的理想情況下給出的,它們之所以基本可用,是因為在通常情況下各個不確定性參數都偏離0.5不遠,而且同時出現的概率不大。但是,嚴格地說不確定性參數接近上下極限的可能性還是存在,特別是廣義相關系數h,它除了在基模型中h=0.5外,還經常出現在上極限h=1和中極限h=0.75處。而且其他的不確定性參數k、β、e等一旦同時出現,會對上述不確定性參數確定的結果帶來誤差。所以,在實際系統(tǒng)中,上述確定的不確定性參數只是一個近似值,需要利用某種誤差消除算法來不斷地逼近客觀數據,獲得精確結果。
當然,邏輯和知識信息處理只是智能機制中的一個環(huán)節(jié),他只有與鐘義信的機制主義人工智能通用理論[13]和汪培莊的因素空間理論[14]深度融合,才能共同建立人工智能的通用基礎理論,這是未來人工智能發(fā)展的重中之重。
數學面對的是“非真即假”的理想環(huán)境,可依靠數理形式邏輯(標準邏輯、剛性邏輯)來解決所有的問題。人工智能研究面對的現實環(huán)境要復雜得多,不僅有“非真即假”的理想問題,更多的是具有“亦真亦假性”的不確定性問題,在發(fā)生涌現效應的場合還會出現“非真非假”的域外項問題。依靠柔性邏輯(命題級數理辯證邏輯)可有效解決“亦真亦假”的不確定性問題,依靠S型超協(xié)調邏輯(另有專文介紹),可有效解決“非真非假”的演化問題。人工智能研究的強可解釋性需要上述3種邏輯來保證。進一步的研究方向是建立廣義概率論和全方位的數理辯證邏輯。