,
隨著信息技術(shù)的發(fā)展,信息爆炸帶來(lái)的大數(shù)據(jù)壓力和靈敏性要求都對(duì)情報(bào)工作帶來(lái)了空前挑戰(zhàn),促使情報(bào)工作走向智能化階段,其途徑和重點(diǎn)已成為業(yè)界關(guān)注的焦點(diǎn)。目前,情報(bào)智能化研究大都停留在概念和理論層面。雖在思維方式方法論和技術(shù)研究方向等層面已有一定的相關(guān)研究與頂層設(shè)計(jì)[1-2],但在實(shí)踐層面,尤其是在尋找有效提升情報(bào)智能化發(fā)展突破口上,研究相對(duì)薄弱。美軍近期提出的“算法戰(zhàn)”概念強(qiáng)調(diào)以算法為抓手,為探索情報(bào)工作的智能化發(fā)展路徑提供了借鑒。
當(dāng)前世界強(qiáng)國(guó)都在通過(guò)智能化發(fā)展提升國(guó)力、軍力。2017年4月,美國(guó)防部副部長(zhǎng)羅伯特·沃克宣布成立由國(guó)防部情報(bào)和作戰(zhàn)支援主管約翰·沙納漢中將領(lǐng)導(dǎo)的“算法戰(zhàn)跨職能小組”(AWCFT),啟動(dòng)并統(tǒng)一領(lǐng)導(dǎo)全軍“算法戰(zhàn)”相關(guān)作戰(zhàn)概念與技術(shù)應(yīng)用研究,其目標(biāo)是利用智能化技術(shù)手段將國(guó)防部的大量數(shù)據(jù)快速轉(zhuǎn)換為可付諸于行動(dòng)的情報(bào)與見(jiàn)解,開(kāi)發(fā)先進(jìn)的計(jì)算機(jī)視覺(jué)算法,提升“處理分析與傳送”全動(dòng)態(tài)視頻能力[3]。“算法戰(zhàn)”包含用計(jì)算機(jī)代碼表達(dá)算法和運(yùn)用算法構(gòu)造系統(tǒng)兩個(gè)核心概念[4]。該概念的提出是美國(guó)在深刻意識(shí)到大數(shù)據(jù)壓力已非人力所能承受之后,在綜合考慮軍隊(duì)的戰(zhàn)略需求、面臨的迫切問(wèn)題和自身的技術(shù)水平等多重因素的基礎(chǔ)上,以算法為重要抓手,以情報(bào)分析為試驗(yàn)田,各部門(mén)統(tǒng)一部署、分步實(shí)施,進(jìn)而提高軍隊(duì)整體的智能化水平,從軟實(shí)力方面謀求新軍事優(yōu)勢(shì)的新舉措。
“算法戰(zhàn)”雖立足軍事情報(bào),但它給情報(bào)領(lǐng)域整體的智能化發(fā)展提供了新的思路,極具借鑒價(jià)值,主要體現(xiàn)在以下幾方面。
算法是行為認(rèn)知的根本途徑。情報(bào)以數(shù)據(jù)、信息、知識(shí)、智能與智慧為主要研究對(duì)象,為最終的決策環(huán)節(jié)解決信息不完備的問(wèn)題,所以智能與情報(bào)二者的關(guān)系始終不可分割[5]。對(duì)主體行為的認(rèn)知是智能的重要方面。在認(rèn)知過(guò)程中,無(wú)論是針對(duì)簡(jiǎn)單的個(gè)體動(dòng)作,還是復(fù)雜的國(guó)家行為,都可以結(jié)合不同需求和不同條件,采用不同形式的算法特別是智能算法予以實(shí)現(xiàn)或部分支撐。
參照DIKW轉(zhuǎn)化原則[6],在情報(bào)智能化發(fā)展中,若要將數(shù)據(jù)轉(zhuǎn)換為信息,就必須用算法來(lái)解釋數(shù)據(jù);若要將信息轉(zhuǎn)換為知識(shí),就需要用算法總結(jié)知識(shí);若要將知識(shí)轉(zhuǎn)換為智能,就需要算法來(lái)訓(xùn)練機(jī)器。因此,在智能情報(bào)的工作過(guò)程中,應(yīng)不斷深化智能算法的應(yīng)用。
算法是解決特定計(jì)算問(wèn)題的一組代碼,它既是算法開(kāi)發(fā)者經(jīng)驗(yàn)的總結(jié),也是思維創(chuàng)造的體現(xiàn)和對(duì)信息的一種高度凝練。隨著情報(bào)信息化進(jìn)程的不斷推進(jìn),不同層面的算法在情報(bào)工作各環(huán)節(jié)中發(fā)揮了一定作用,但呈現(xiàn)行為原發(fā)、重視不均、認(rèn)識(shí)不明、利用分散等現(xiàn)象,算法的整體認(rèn)識(shí)和智能水平均有待提升。
從算法應(yīng)用角度看,一些具體問(wèn)題以特定軟件形式零散、重復(fù)、隱性存在,缺少頂層統(tǒng)一認(rèn)識(shí)和規(guī)劃,難以系統(tǒng)地開(kāi)展評(píng)價(jià)、篩選等工作,使用者難以確定現(xiàn)有算法能否滿足應(yīng)用需求、如何選擇不同問(wèn)題的最優(yōu)算法等問(wèn)題,嚴(yán)重降低了工作效率和成效;算法之間的互補(bǔ)性、共享性較弱,算法應(yīng)用的持續(xù)完善較難。
算法開(kāi)發(fā)者大多處于“只見(jiàn)樹(shù)木不見(jiàn)森林”的困境之中,缺乏整體認(rèn)識(shí),導(dǎo)致算法功能交叉重疊,定位混亂;低端重復(fù)現(xiàn)象嚴(yán)重,對(duì)短板弱項(xiàng)認(rèn)知不足,可能出現(xiàn)研究投入的盲目跟風(fēng)現(xiàn)象,造成算法的畸形發(fā)展。
從算法智能化水平看,隨著大數(shù)據(jù)、人工智能的飛速發(fā)展,情報(bào)領(lǐng)域中原有算法普遍面臨淘汰或更新?lián)Q代,需要在新的智能手段基礎(chǔ)上重新考慮算法實(shí)現(xiàn)的方式,研究基于智能技術(shù)的新型算法,策劃并實(shí)現(xiàn)更有應(yīng)用價(jià)值的功能和性能。對(duì)于以前尚未考慮算法應(yīng)用的場(chǎng)景,需要趕上智能化技術(shù)發(fā)展進(jìn)程,快步轉(zhuǎn)變思維,積極創(chuàng)新算法在情報(bào)信息感知獲取、知識(shí)處理、深度挖掘、智能分析、智慧服務(wù)等各流程中的作用點(diǎn)、作用模式和智能化實(shí)現(xiàn)程度,從問(wèn)題、技術(shù)、實(shí)踐等不同角度探索通過(guò)智能化算法推動(dòng)情報(bào)領(lǐng)域智能化的新思路。
基于上述問(wèn)題,通過(guò)算法體系構(gòu)建的體系框架,一方面可將具體算法推而共之,形成整體認(rèn)識(shí);另一方面,可有效加強(qiáng)算法的系統(tǒng)性管理,利于算法評(píng)價(jià)和后期檢索以及高屋建瓴地統(tǒng)一布局。算法體系還應(yīng)充分體現(xiàn)“三性”:一是“先進(jìn)性”,算法體系的先進(jìn)性將促使算法的應(yīng)用過(guò)程更加便捷高效,算法組織更趨合理;二是“完備性”,算法體系的完備性將為情報(bào)工作的開(kāi)展在算法工具層面提供完備的視圖,有利于查找科技情報(bào)工作中是否某個(gè)環(huán)節(jié)出現(xiàn)了算法的缺失或落后,避免重復(fù)開(kāi)發(fā);三是“系統(tǒng)性”,算法體系的系統(tǒng)性有助于系統(tǒng)分析算法,關(guān)系到算法之間聯(lián)系的緊密程度,進(jìn)而對(duì)算法之間的層級(jí)關(guān)系認(rèn)識(shí)以及組合使用產(chǎn)生影響。
此外,算法體系構(gòu)建過(guò)程中運(yùn)用的多種分類方式可以讓算法使用和開(kāi)發(fā)人員從不同角度加深對(duì)算法技術(shù)本質(zhì)的認(rèn)識(shí),便于根據(jù)特殊需求使用和改進(jìn),也有利于算法間的互相借鑒及合并嵌套使用,使研究人員真正地“站在巨人的肩膀上”。
體系是系統(tǒng)的連接,是復(fù)雜的、有目的的整體。算法體系要以體系化的方式對(duì)算法元素進(jìn)行系統(tǒng)的整序,形成統(tǒng)一整體;同時(shí)應(yīng)突出算法之間的內(nèi)部聯(lián)系和外部區(qū)別,從系統(tǒng)和元素兩個(gè)層面幫助情報(bào)人員實(shí)現(xiàn)對(duì)算法的認(rèn)識(shí)。
既突出“智能”又堅(jiān)持兼容并蓄。從本體論角度出發(fā),“智能算法”的提出僅僅是認(rèn)知思維的變化,也就是認(rèn)識(shí)層面的改變。隨著人工智能等計(jì)算機(jī)科學(xué)的快速發(fā)展,眾多“新穎”算法被歸于“智能算法”?!爸悄芩惴ā迸c傳統(tǒng)算法之間并不具有排他性,如堆排序、高斯消去法等經(jīng)典算法乃至數(shù)學(xué)思想在多種算法的融合下具有新的生機(jī),因此智能算法體系是兼容并蓄的。
從體系的角度看,智能情報(bào)算法體系還要著眼于系統(tǒng)性。情報(bào)領(lǐng)域的算法應(yīng)用涉及信息搜集、數(shù)據(jù)加工、情報(bào)分析、情報(bào)服務(wù)等方面,需要從情報(bào)研究與生產(chǎn)的完整生命周期出發(fā),對(duì)體系的內(nèi)容、層次和關(guān)系有系統(tǒng)的認(rèn)識(shí);同時(shí)要考慮算法具有很大的靈活性、分類界限模糊、分類方式不定等因素,結(jié)合客觀工作需要,適當(dāng)把握要素的粒度,完善算法類型,合理解構(gòu)和關(guān)聯(lián)體系內(nèi)各個(gè)層次和類型的算法,系統(tǒng)定位各類型算法在體系內(nèi)的位置,形成相對(duì)系統(tǒng)完備的科學(xué)體系。
在構(gòu)成體系的具體算法的選擇上,情報(bào)工作具有很強(qiáng)的實(shí)踐性,各流程環(huán)節(jié)有自身的核心內(nèi)容也有不同的特殊要求。對(duì)應(yīng)的體系構(gòu)建要緊密結(jié)合情報(bào)工作的科學(xué)性、綜合性、針對(duì)性、及時(shí)性和創(chuàng)造性等特點(diǎn),在整體和個(gè)體兩個(gè)維度上保持實(shí)用性。同時(shí),算法特別是以計(jì)算機(jī)代碼表達(dá)的智能算法,究其本質(zhì)仍屬于技術(shù)的范疇,對(duì)其進(jìn)行體系劃分不能忽略算法的技術(shù)性質(zhì),而要著重體現(xiàn)其科學(xué)技術(shù)內(nèi)涵,構(gòu)建結(jié)果要符合開(kāi)發(fā)、使用人員的技術(shù)性思維。
作為體系還應(yīng)保持開(kāi)放性。算法體系是一個(gè)動(dòng)態(tài)的架構(gòu),其內(nèi)部算法需要根據(jù)技術(shù)發(fā)展、需求變化而不斷調(diào)整。如與目前的先進(jìn)算法技術(shù)相對(duì)接,推陳納新,不斷提高體系的技術(shù)含量。另外,體系的構(gòu)建與完善要向所有的參與人員開(kāi)放,包括情報(bào)領(lǐng)域的算法開(kāi)發(fā)者、使用者、改進(jìn)者。
在同一研究領(lǐng)域下,算法雖然千變?nèi)f化,但又萬(wàn)變不離其宗,具有很強(qiáng)的相似性,有利于體系的形成。所以基于上述原則,針對(duì)情報(bào)領(lǐng)域的具體實(shí)施環(huán)節(jié)和研究對(duì)象,參考構(gòu)建軍事體系的系統(tǒng)工程方法[7]確定以下邏輯步驟。
體系問(wèn)題:明確問(wèn)題所在,尋找主要矛盾。算法體系構(gòu)建的主要問(wèn)題在于合理的層內(nèi)分類方式和層級(jí)劃分標(biāo)準(zhǔn)。
使命分析:貼合情報(bào)工作應(yīng)用場(chǎng)景,確認(rèn)體系的使命。算法體系的主要使命是解決算法的無(wú)序化問(wèn)題,便于管理和評(píng)價(jià),有利于非技術(shù)人員了解體系內(nèi)各算法的技術(shù)情況。
功能缺陷與需求分析:主要進(jìn)行功能分析,確認(rèn)目標(biāo)實(shí)現(xiàn)的功能需求。算法體系在功能上要保證算法技術(shù)本質(zhì)與實(shí)用性,突出層級(jí)關(guān)系。
體系結(jié)構(gòu)方案:在上述分析的基礎(chǔ)上提出體系構(gòu)建方案。
結(jié)果分析與優(yōu)化:對(duì)得到的結(jié)果進(jìn)行分析評(píng)價(jià)并不斷優(yōu)化。
3.3.1 智能情報(bào)算法體系構(gòu)成
在情報(bào)生產(chǎn)過(guò)程中,從數(shù)據(jù)到信息、從信息到情報(bào)等核心的轉(zhuǎn)化過(guò)程中,包含信息搜集、數(shù)據(jù)加工、情報(bào)分析等諸多環(huán)節(jié),智能算法起很大的作用。特別是在信息搜集、處理等環(huán)節(jié),當(dāng)前計(jì)算機(jī)視覺(jué)、自動(dòng)翻譯、文本處理等技術(shù)方面已經(jīng)有大量實(shí)用性工作,可以為智能算法的形成與應(yīng)用提供很好支撐。本文提出的主要算法方案和算法內(nèi)涵包括了經(jīng)典算法和火熱的智能領(lǐng)域算法,最終得到如下算法體系組織關(guān)系視圖(圖1)。
首先是應(yīng)用層。為了體系能更好地服務(wù)于情報(bào)研究的實(shí)際工作,方便情報(bào)研究人員根據(jù)具體操作環(huán)節(jié)對(duì)算法進(jìn)行查詢或整序,在算法層面上設(shè)置了應(yīng)用層,該層對(duì)應(yīng)研究工作中涉及的相應(yīng)操作。在應(yīng)用層的劃分中,根據(jù)不同的細(xì)化程度和工作復(fù)雜性將具體操作繼續(xù)進(jìn)行不同程度地細(xì)分,比如信息搜集包括對(duì)信息查詢和信息推薦,數(shù)據(jù)加工則包括機(jī)器翻譯、數(shù)據(jù)清洗、同異名處理等具體應(yīng)用。
其次是算法層。算法層是指在不同的應(yīng)用過(guò)程中運(yùn)用不同層次的算法,層次劃分是根據(jù)算法功能對(duì)操作的支持直接性進(jìn)行的層間劃分,分為3層。
圖1智能情報(bào)算法體系組織關(guān)系視圖
一是特定算法。根據(jù)算法的實(shí)施進(jìn)行劃分,如在查詢過(guò)程中,算法是采用詞索引思想實(shí)施抑或依照字索引思想實(shí)施。由于實(shí)施思想與應(yīng)用密切相關(guān),所以該層是與應(yīng)用層支持關(guān)系最近的層級(jí)。 二是中間件算法。本文借用了軟件和服務(wù)程序中“中間件”這一概念,意指該層算法可以在不同的特定算法中共享使用,處于算法層的中間層級(jí)。層內(nèi)劃分是根據(jù)所針對(duì)的算法級(jí)別的問(wèn)題不同而劃分的,如優(yōu)化問(wèn)題、排序問(wèn)題等。在功能上對(duì)應(yīng)了細(xì)分問(wèn)題的解決,對(duì)接了基礎(chǔ)算法與特定算法。 三是基礎(chǔ)算法。根據(jù)算法的對(duì)象、實(shí)現(xiàn)結(jié)構(gòu)、邏輯、模型等基礎(chǔ)要素進(jìn)行劃分,如采用了支持向量機(jī)(SVM)模型、神經(jīng)網(wǎng)絡(luò)模型或依照自然進(jìn)化邏輯(遺傳算法)等。這是算法層級(jí)中最底層的一級(jí),但功能是所有算法應(yīng)用的基礎(chǔ)。
3.3.2 體系深化與思考
對(duì)于圖1設(shè)計(jì)的智能情報(bào)算法體系,還有很多細(xì)節(jié)需著重考慮。第一,算法的歸類角度——由上至下。由于分類的顆粒度大小問(wèn)題,每一層算法可能在本層下仍有細(xì)分,存在子類算法(圖2)。
圖2算法層細(xì)分舉例
某一種基礎(chǔ)算法可以為多種上層算法提供支撐,如拓?fù)渑判蛩惴葘儆趫D算法又屬于一種排序算法。某一種復(fù)雜算法同時(shí)由同一層級(jí)或不同層級(jí)的算法組合支撐,很多實(shí)際應(yīng)用的算法都存在這種現(xiàn)象。比如對(duì)于常見(jiàn)的分類算法最終都要進(jìn)行優(yōu)化,或者說(shuō)很多分類算法就是在分類模型的基礎(chǔ)上對(duì)損失函數(shù)做優(yōu)化。
第二,應(yīng)用的算法支撐角度——由下至上。 某一項(xiàng)應(yīng)用由不同層次的算法支撐。以數(shù)據(jù)清洗為例,數(shù)據(jù)清洗可以再細(xì)粒度劃分為異常識(shí)別與異常處理兩種操作。異常識(shí)別要對(duì)屬性異常(空值、錯(cuò)誤、不一致)和重復(fù)異常做出檢測(cè),主要采取智能化算法中既有基于統(tǒng)計(jì)分析和模式的特定算法,也可直接使用聚類、關(guān)聯(lián)規(guī)則和匹配算法等中間件算法;異常處理則主要使用排序、聚類等中間件算法。 某一項(xiàng)應(yīng)用直接由底層算法支撐。同名區(qū)分所采用的方法有直接使用中間件算法的分類、聚類算法,也有直接使用基礎(chǔ)算法的圖算法(圖3)。
圖3 同名區(qū)分應(yīng)用的算法
從個(gè)人發(fā)展角度出發(fā),要及時(shí)通過(guò)高效率的算法工具來(lái)協(xié)助工作,關(guān)注熱點(diǎn)算法的思想和原理,對(duì)算法的靈活運(yùn)用保持充分的敏感性。比如在工作中養(yǎng)成良好的算法習(xí)慣,利用碎片化時(shí)間學(xué)習(xí)算法,多學(xué)習(xí)并掌握一些常見(jiàn)問(wèn)題的通用解決模式,對(duì)于已解決的算法問(wèn)題,要總結(jié)復(fù)盤(pán)實(shí)現(xiàn)思路、優(yōu)缺點(diǎn)和改進(jìn)方法,提高舉一反三的能力,最終實(shí)現(xiàn)個(gè)人技能競(jìng)爭(zhēng)力的提升。對(duì)于團(tuán)體的發(fā)展,目前已有大量的信息資源平臺(tái)。在算法層面可以建立類似的專業(yè)算法庫(kù),將算法作為重要的技術(shù)資源進(jìn)行系統(tǒng)管理與利用;同時(shí)要塑造類似“算法戰(zhàn)”的競(jìng)爭(zhēng)性思維,提高算法意識(shí)。在如今的“智算”時(shí)期,需謹(jǐn)防被競(jìng)爭(zhēng)對(duì)手技術(shù)突襲搶占先手,要把握機(jī)遇,勇攀高峰,逆流而上,力爭(zhēng)在專業(yè)領(lǐng)域內(nèi)獲得更多話語(yǔ)權(quán)。
王延飛教授曾指出,盡管中國(guó)情報(bào)界歷來(lái)對(duì)信息技術(shù)十分關(guān)注,但卻缺乏對(duì)前沿技術(shù)的掌握和精通,人工智能、大數(shù)據(jù)的相關(guān)研究成果也由于缺乏足夠的技術(shù)與數(shù)據(jù)資源支持而使得情報(bào)學(xué)研究很難有大的理論和方法突破[5]。以算法為例,利用計(jì)算機(jī)科學(xué)領(lǐng)域的研究成果,已有大量被進(jìn)一步適用化改造的算法用于情報(bào)工作之中。較之其它研究領(lǐng)域,應(yīng)用于情報(bào)研究領(lǐng)域的算法的深度與廣度均明顯不足,缺乏重大的專業(yè)性應(yīng)用成果。因此,情報(bào)人員要更多地應(yīng)用群體智慧、團(tuán)隊(duì)協(xié)同,最大程度地發(fā)揮工具、模型以及算法的優(yōu)勢(shì),在建模、工具開(kāi)發(fā)和算法開(kāi)發(fā)等方面發(fā)揮重要作用[8]。加強(qiáng)對(duì)前沿技術(shù)的掌握與應(yīng)用,適時(shí)地進(jìn)行技術(shù)遷移,立足迫切的現(xiàn)實(shí)需求,堅(jiān)持以實(shí)踐為導(dǎo)向,進(jìn)行創(chuàng)新性技術(shù)研究與生產(chǎn),以技術(shù)驅(qū)動(dòng)情報(bào)智能發(fā)展。
中華醫(yī)學(xué)圖書(shū)情報(bào)雜志2018年7期