何 婷,徐 峰
(中國科學技術信息研究所,北京 100038)
開源(Open Source)是信息技術領域一種大規(guī)模協(xié)作開發(fā)的創(chuàng)新方式,它改變了信息技術產(chǎn)業(yè)格局和商業(yè)模式。開源模式憑借強大的資源匯集和協(xié)同創(chuàng)新優(yōu)勢,已成為推動人工智能技術快速迭代的關鍵動力和新一代人工智能發(fā)展的全球趨勢[1]。在國家戰(zhàn)略層面,人工智能的開源發(fā)展受到各國政府的高度關注。美國在《人工智能研發(fā)戰(zhàn)略計劃2019更新版》中強調(diào)要大力推進開源軟件和工具;英國《AI路線圖》提出鼓勵開源和標準化的軟件和工具;意大利《國家人工智能戰(zhàn)略》指出要構(gòu)建一個開源的人工智能軟件和數(shù)據(jù)庫。在產(chǎn)業(yè)發(fā)展層面,以谷歌、亞馬遜、Meta、微軟等為代表的頂尖互聯(lián)網(wǎng)企業(yè),正憑借自身的數(shù)據(jù)、技術和資本等優(yōu)勢,搶占人工智能開源平臺的技術和規(guī)則主導權(quán)。
當前,我國在全球人工智能開源領域中的參與度和貢獻度不斷提升,但也面臨著本土開源生態(tài)不完善、國際影響力不足、對外依賴度較高等問題。我國人工智能開源生態(tài)還處在早期成長階段,核心的開源框架主要依靠國外,開源社區(qū)、代碼托管平臺和開源基金會等基本要素,發(fā)展尚不成熟,不同開源主體之間的分工合作模式還在構(gòu)建中。
針對人工智能開源這一話題,國內(nèi)外研究都比較少。國內(nèi)研究主要以高校、科研院所等發(fā)布的研究報告為主。上海交通大學編寫的《激活AI創(chuàng)新之源——上海人工智能開源開放發(fā)展報告》重點介紹了目前國內(nèi)外主要的人工智能開源開放平臺及項目。國家人工智能標準化總體組的《人工智能開源與標準化研究報告》基于典型的人工智能開源項目分析了各開源技術的特點。中國人工智能開源軟件發(fā)展聯(lián)盟重點研究了人工智能開源軟件的發(fā)展現(xiàn)狀和應用案例。綜上,現(xiàn)有文獻更側(cè)重于從技術層面梳理國內(nèi)人工智能開源的發(fā)展現(xiàn)狀,而從體制機制層面研究如何實現(xiàn)我國人工智能開源生態(tài)可持續(xù)運營的研究較為缺乏。鑒于此,本文嘗試從國外人工智能開源實踐中總結(jié)出實現(xiàn)人工智能開源生態(tài)可持續(xù)發(fā)展的關鍵要素,為更好地構(gòu)建我國人工智能開源生態(tài)提供參考。
開源文化起源于國外的軟件行業(yè),至今已有半個世紀的發(fā)展。開源一詞來源于“開源軟件”,由開源軟件促進會(Open Source Initiative,OSI)于1988年正式提出,指的是開放源代碼并遵循開源許可證,可進行自由發(fā)布、自由復制、自由修改、自由使用的軟件[2]。隨著開源軟件的發(fā)展,開源已成為一項全球性的流行運動[3]。從本質(zhì)上看,開源是一種分布式協(xié)作開發(fā)模式,一種大規(guī)模群體依托互聯(lián)網(wǎng)平臺,通過共同參與和協(xié)作,不斷累積智慧、實現(xiàn)持續(xù)創(chuàng)新的方法。實踐表明,開源已經(jīng)成為推動人工智能、區(qū)塊鏈等新興信息技術創(chuàng)新和產(chǎn)業(yè)發(fā)展的有效路徑。其作用主要體現(xiàn)為:集聚全球智力資源,推動技術突破;大幅減少重復性工作,節(jié)約研發(fā)資源和時間成本,加快技術迭代;降低技術研發(fā)門檻,加快新技術的推廣和應用[4]。
關于人工智能開源,從開源內(nèi)容看,根據(jù)國家人工智能標準化總體組發(fā)布的《人工智能開源與標準化研究報告》,人工智能開源全棧包括基礎設施、引擎、應用使能以及人工智能業(yè)務四個層次,既包括人工智能芯片、數(shù)據(jù)集、訓練平臺等基礎設施以及知識圖譜、深度學習和機器學習框架等核心技術,還包括推薦系統(tǒng)、智能問答、語音識別等應用項目[5]。
“開源生態(tài)”是“開源”和“生態(tài)系統(tǒng)”的組合詞?!吧鷳B(tài)系統(tǒng)”最初是生物學領域的一個概念,指的是生物體之間以及生物體與無機環(huán)境之間通過復雜交互作用所形成的統(tǒng)一整體[6]。關于“開源生態(tài)”的概念,目前業(yè)界和學術界并沒有規(guī)范的定義。Jullien等[7]認為,開源生態(tài)系統(tǒng)是開源項目、企業(yè)、開源社區(qū)以及獨立開發(fā)設計者等不同角色之間的復雜網(wǎng)絡關系。有研究者認為,開源生態(tài)包括五個必備要素,分別是開源項目貢獻者和使用者(人)、開源代碼托管平臺和開源組成分析工具等(機)、源代碼(料)、開源許可證和社區(qū)管理辦法等開源生態(tài)規(guī)則(法)、開源社區(qū)(環(huán))[8]。另有研究指出,開源生態(tài)以開源項目為中心構(gòu)建,依托開源社區(qū)協(xié)作形成軟件、硬件等開源項目;涉及開源貢獻者、開源使用者、開源運營者、開源服務者多重角色,包含開源治理、開源運營、開源商業(yè)等多個環(huán)節(jié)[9]。
綜合上述概念,本研究認為,開源生態(tài)是一個匯聚多方資源的技術創(chuàng)新生態(tài)圈。人工智能開源生態(tài)是以人工智能開源項目為中心,由開源貢獻者、開源服務者、開源使用者、開源運營者等參與主體組成的彼此依存、相互影響、共同發(fā)展的人工智能技術創(chuàng)新生態(tài)圈。其中,開源貢獻者主要指最初貢獻開源項目的企業(yè)或個人,開源使用者指開源項目的最終用戶,開源運營者主要指促進開源貢獻者相互協(xié)作的主體,開源服務者主要指負責為開源項目開發(fā)提供相關輔助服務以及為規(guī)范開源生態(tài)發(fā)展而制定相關政策或規(guī)則的主體。人工智能開源生態(tài)的運營模式就是上述開源參與者之間、開源參與者與開源項目之間產(chǎn)生聯(lián)系的路徑,這種路徑?jīng)Q定了人力、資金、基礎設施等要素的投入方式、投入質(zhì)量、投入規(guī)模和投入周期,顯著影響開源項目的成長和商業(yè)價值的傳遞。
通過對人工智能開源實踐的梳理和分析,可以發(fā)現(xiàn),由于開源技術發(fā)展較早,整體開源環(huán)境較為成熟,歐美等發(fā)達國家的人工智能開源生態(tài)已經(jīng)進入到一個元素基本完整、運營基本順暢的發(fā)展階段(見圖1)。不斷完善的開源政策為企業(yè)投身人工智能開源創(chuàng)造了有利的外部環(huán)境,并推動政府從開源項目的使用者向貢獻者轉(zhuǎn)變。開源代碼托管平臺、開源許可證等為人工智能開源提供了標準化的工具和規(guī)則,保障開源的規(guī)模化、規(guī)范化發(fā)展。各開源主體間的良好互動支撐了人工智能開源生態(tài)的可持續(xù)發(fā)展。一方面,企業(yè)、研究機構(gòu)或個人作為開源項目的發(fā)起者或參與者,自發(fā)組建起開源社區(qū),開源基金會作為開源項目的主要運營者,負責為社區(qū)運營和項目管理提供專業(yè)化、多樣化、全周期的服務;另一方面,企業(yè)與開源基金會之間又形成了互利共贏的合作機制,企業(yè)以會員的身份向開源基金會捐贈項目和資金,并影響或主導著基金會的發(fā)展,而基金會則基于資源集聚的優(yōu)勢,能幫助企業(yè)的開源項目發(fā)展成熟,同時給予企業(yè)接觸外部優(yōu)質(zhì)項目和挖掘優(yōu)秀人才的渠道[10]。
圖1 國外人工智能開源生態(tài)運營模式
歐美國家在部署人工智能發(fā)展時十分重視人工智能開源問題,強調(diào)通過政府采購、督促政府部門主動開源等措施推動人工智能開源。美國在2016和2019年的《人工智能研發(fā)戰(zhàn)略計劃》中均提出要開發(fā)開源軟件庫和工具包,要求政府部門不但要支持和使用人工智能開源技術,還要為開源項目貢獻算法或軟件;《2018美國國防部人工智能戰(zhàn)略概要》指出開源社區(qū)是創(chuàng)新思想與人才的孵化器,國防部要加強與開源社區(qū)的合作,一方面要為開源社區(qū)提供數(shù)據(jù)、研究、技術以及挑戰(zhàn)賽等支持,另一方面要積極參與開源生態(tài)的構(gòu)建,發(fā)揮國防部在吸引人工智能人才、突破基于人工智能的國防技術等方面的作用。英國《AI路線圖》(AI Roadmap)提出,應鼓勵開源和標準化的軟件和工具;《公共部門人工智能使用指南》(A Guide to Using AI in the Public Sector)要求確保政府部門使用的人工智能系統(tǒng)代碼是開源的。
除了重視開源在人工智能技術發(fā)展中的重要作用之外,歐美國家還早在本世紀初就開始將推動開源軟件發(fā)展作為一項獨立的戰(zhàn)略行動,通過支持研發(fā)、強制使用、優(yōu)先采購以及推廣應用等措施持續(xù)推動開源軟件的發(fā)展[11]。從2004年起,美國就出臺了一系列指導政府部門使用開源軟件的政策。例如,2004年美國行政管理和預算局(Office of Management and Budget,OMB)發(fā)布備忘錄,要求增加對開源軟件的采購。2016年,美國行政管理和預算局正式發(fā)布《聯(lián)邦源代碼政策》,要求被聯(lián)邦政府資助的網(wǎng)站、應用程序和其他軟件項目發(fā)布源代碼,并且各機構(gòu)需要根據(jù)三年試點計劃向公眾發(fā)布至少20%的代碼。
歐洲方面,2000年歐盟委員會首次制定了開源軟件戰(zhàn)略,此后又分別于2010年、2014年和2017年進行了三次更新,致力于推動開源軟件在歐盟成員國政府內(nèi)部的使用。英國2010年正式發(fā)布《政府的開源戰(zhàn)略》(An Open Source Strategy for Government),提出在開源和非開源軟件產(chǎn)品沒有顯著成本差異的情況下,應根據(jù)靈活性優(yōu)先選擇開源軟件產(chǎn)品;在2012年發(fā)布的《采購政策注明8/11:采購開源信息技術》、2013年發(fā)布的《政府服務設計手冊》等文件中,均強調(diào)政府采購應首選開源軟件;在2019年發(fā)布的最新版《數(shù)字服務標準》中又要求政府開放新的源代碼,并選擇合適的許可證開源。法國在第二個國家開放科學計劃中首次將開源作為科學研究的重要組成部分,提出支持公共資助的研究計劃在開源許可下傳播源代碼,重視高校和科研院所的源代碼生產(chǎn)以及制定開源軟件政策等措施。
2.2.1 開源社區(qū)
開源社區(qū)(Open Source Community)是開源項目的主要開發(fā)組織,一般指以開源項目為核心,由地緣空間分散但擁有共同興趣愛好的開發(fā)者根據(jù)相應的開源軟件許可協(xié)議,以民主、合作的形式,共同進行項目開發(fā)、維護、增強等知識創(chuàng)造與傳播的網(wǎng)絡平臺[12]。開源社區(qū)的功能主要包括為開發(fā)者和用戶提供交流平臺、開源資訊、代碼托管以及軟件下載等。與傳統(tǒng)專有軟件開發(fā)組織(主要是商業(yè)企業(yè))相比,開源社區(qū)具有組織管理松散、沒有明確的層級結(jié)構(gòu)、交流民主等特點,是一種開放式組織。
目前,國外在計算機視覺、自然語言處理、深度學習等人工智能技術領域都存在專門的開源社區(qū)。這類社區(qū)通常專注于某一特定項目的共同研發(fā)。比如大家熟知的深度學習框架TensorFlow,它既是一個開源項目,也是一個開源社區(qū)。為不斷完善TensorFlow,谷歌搭建起TensorFlow社區(qū),吸引來自全球各地的開發(fā)者和使用者通過網(wǎng)絡平臺以及自發(fā)組織的線下活動,進行交流互動、協(xié)作開發(fā),現(xiàn)已形成70多個用戶組、170多個機器學習谷歌開發(fā)者專家組和12個特殊興趣組。OpenNLP既是Apache軟件基金會運營的一個自然語言處理開源項目,也是一個開源社區(qū),其官方網(wǎng)站上不僅提供用于自然語言處理任務的模型、工具包等資源,還設有項目任務開發(fā)專欄,吸引更多開發(fā)者參與其中。由英特爾開發(fā)的計算機視覺項目OpenCV也基于網(wǎng)絡平臺開設了用戶問答論壇以及貢獻者通道,推動OpenCV的應用和研發(fā)創(chuàng)新。
2.2.2 開源基金會
開源基金會是專門為支持開源項目而組建的非營利性組織,旨在為開源項目提供資金、技術、市場等全方位支持,為社區(qū)的建設和運營提供指導。成功的開源基金會一般都有一套較為完整的服務體系,以滿足項目或社區(qū)在不同生命周期的需求。項目初期,Linux基金會、Apache軟件基金會(ASF)、云原生計算基金會(CNCF)等主流基金會均有非常成熟的項目孵化流程,給新項目提供技術研發(fā)、知識產(chǎn)權(quán)管理、社區(qū)建設等方面的指導。項目日常運營過程中,基金會一方面會提供技術開發(fā)必要的基礎設施支撐,包括源代碼管理、代碼審查、問題追蹤以及通信工具,另一方面會借助大型會議、媒體、社交網(wǎng)絡等途徑宣傳項目,吸引更多開發(fā)者和用戶參與項目維護。在資金來源方面,開源基金會的日常運營主要依靠會員企業(yè)的會費,Apache軟件基金會、Linux基金會、OpenStack基金會(現(xiàn)更名為開源基礎設施基金會)最高等級的會員每年會費分別是12.5萬美元、50萬美元、35萬美元。
從國外實踐看,人工智能領域的開源基金會按業(yè)務范圍可分為兩類,一類是設立人工智能子基金或為人工智能開源項目提供孵化服務的老牌綜合類基金會,如Linux基金會、Apache軟件基金會,還有一類是專注于特定技術領域或項目的新興基金會,比如Autoware基金會。
Linux基金會在2018年發(fā)起了一個專注于人工智能方向的子基金會LF Deep Learning Foundation(2019年更名為LF AI Foundation),旨在進一步推動人工智能和機器學習的發(fā)展。目前,該基金會已擁有騰訊、AT&T、諾基亞、華為、中興、百度、愛立信、IBM、滴滴、紅帽等50家公司會員,正孵化和已孵化出的開源項目共計313個,覆蓋機器學習、深度學習、強化學習、分布式計算、自然語言處理等多個領域。
Apache軟件基金會已為超過350個開源項目提供支持,涵蓋人工智能、大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)和邊緣計算等眾多技術領域。該基金會支持的人工智能典型開源項目主要有Apache SINGA、MXNet、Mahout等。其中,由網(wǎng)易研究院和新加坡國立大學發(fā)布的開源分布式深度學習平臺Apache SINGA是基金會資助的第一個深度學習項目,可通過不同的運算符(神經(jīng)網(wǎng)絡層)構(gòu)建深度學習模型,已廣泛應用于科研、醫(yī)療、金融等領域;MXNet是由亞馬遜聯(lián)合華盛頓大學構(gòu)建的深度學習框架,2018年進入Apache孵化器,現(xiàn)已成為基金會的頂級項目;Mahout是一個開源算法庫,集成了一些可擴展的機器學習領域經(jīng)典算法。
Autoware基金會由開源協(xié)作組織96Boards、日本智能駕駛技術公司Tier IV、美國自主移動系統(tǒng)軟件公司Apex.AI于2018年聯(lián)合成立,致力于發(fā)展和資助自動駕駛開源協(xié)作項目Autoware。該基金會是迄今為止全球自動駕駛領域唯一的開源組織,目前已有22家會員,其中包括華為和速騰聚創(chuàng)兩家中國公司。
2.2.3 科技企業(yè)
開源的公益性質(zhì)似乎和企業(yè)追求商業(yè)化的目的相悖,但面對開源軟件不可阻擋的發(fā)展趨勢,出于建立標準、降低成本、戰(zhàn)略考慮和實現(xiàn)兼容性等動機,傳統(tǒng)的IT企業(yè)和新興的平臺企業(yè)都紛紛推進自己的開源戰(zhàn)略[13]。GitHub 2018年的年度分析報告顯示,貢獻者數(shù)量最多的十大機構(gòu)中,排名第一的是曾公開反對開源軟件的微軟,其他還包括谷歌、紅帽、英特爾、Meta等科技企業(yè)以及加州大學伯克利分校、麻省理工學院、斯坦福大學等高校。雖然任何人都可以參與到開源項目開發(fā)中,但由于具有強大的號召力、穩(wěn)定的研發(fā)團隊以及持續(xù)的資金投入,相比獨立的個體程序員而言,科技企業(yè)在人工智能開源生態(tài)中的貢獻度和影響力更大。
在此輪人工智能浪潮興起之際,開源就成為眾多企業(yè)的首選。以谷歌、IBM、Meta、微軟為代表的國際頂尖科技企業(yè),憑借自身的數(shù)據(jù)、技術和資本等優(yōu)勢,持續(xù)在人工智能開源領域發(fā)力,主要通過三種方式參與人工智能開源生態(tài)的建設:一是將自行開發(fā)的人工智能軟件實行開源。2015年以來,美國人工智能研發(fā)巨頭先后宣布開源自研的人工智能平臺、引擎和工具包。Meta開源了一組基于Torch的深度學習工具;谷歌將其開發(fā)的深度學習引擎TensorFlow開源,且據(jù)谷歌官方統(tǒng)計,截至目前,谷歌已開源了50個人工智能項目;微軟開源了分布式機器學習工具包DMTK;IBM將機器學習平臺System ML開源。二是通過開源基金會資助人工智能開源項目。IBM、谷歌、微軟、Meta、亞馬遜等企業(yè)均是Apache、Linux、OpenStack三家頂級開源基金會的高級會員,每年都會投入一定數(shù)量的資金支持開源基金會開展項目孵化等服務。三是收購或投資開源平臺或企業(yè)。2018年,微軟收購了全球最大的開源代碼托管平臺GitHub,IBM收購了全球知名開源解決方案提供商紅帽,谷歌投資了全球第二大開源代碼托管平臺GitLab。
2.3.1 代碼托管平臺
開源既然要開放代碼,讓成千上萬人協(xié)作,就需要一個足夠友好和安全的代碼存儲環(huán)境。在這一背景下,代碼托管平臺應運而生。目前,全球使用率最高的代碼托管平臺主要有GitHub、GitLab等。經(jīng)過十多年的發(fā)展,GitHub已發(fā)展成全球最大的代碼托管平臺,匯集了5 600多萬的開發(fā)者。隨著人工智能的發(fā)展,GitHub上以“深度學習”“自然語言處理”“機器學習”等為主題的存儲庫數(shù)量逐漸增加,存有大量開源框架、算法、工具包以及數(shù)據(jù)集,為人工智能解決方案的開發(fā)提供了基礎支撐。據(jù)經(jīng)濟合作與發(fā)展組織(OECD)統(tǒng)計,2010—2017年間,GitHub上人工智能開源項目提交數(shù)占項目提交總數(shù)的比重從0.26%上升至0.74%,增長幅度大約是其他開源項目的3倍[14]。
2.3.2 開源許可證
開源許可證是對開源核心理念的一種法律保障,保證開源項目能夠合法地被自由使用和共享[15]。開源許可證是一種授權(quán)許可,允許用戶在承認原作者著作權(quán)的基礎上擁有自由復制、修改以及再發(fā)布的權(quán)利。雖然各開源許可證對相關責任義務的約束度不同,但共同點主要包括:(1)承認著作權(quán),要求署上原作者或版權(quán)持有人的姓名,這也是開源許可證最基本的限制;(2)允許私人使用和商業(yè)使用;(3)允許修改及修改后再發(fā)布;(4)免責聲明,原作者或版權(quán)持有人不承擔軟件使用后的風險及產(chǎn)生的后果[16]??梢哉f,開源許可證是解決知識產(chǎn)權(quán)專有性和源代碼共享二者之間矛盾的關鍵。對于開發(fā)者而言,開源許可證賦予了其發(fā)表權(quán)和署名權(quán)等權(quán)利,起到一定的激勵作用;對于使用者而言,開源許可證可以幫助其避免侵權(quán)等可能的法律糾紛;對于整個開源生態(tài)而言,開源許可證規(guī)定了生態(tài)參與者的權(quán)利和義務,是生態(tài)運行的核心規(guī)則,促進了開源項目的規(guī)范化發(fā)展。
以主流的深度學習框架為例(見表1),目前人工智能開源項目主要使用MIT許可證、BSD許可證、Apache許可證等使用度最高也是最利于開源項目商業(yè)化的開源許可證[17]。這些較為成熟的開源許可證為人工智能開源項目的開發(fā)和再傳播提供了規(guī)范的法律環(huán)境和良好的商業(yè)環(huán)境,而這背后則離不開開源基金會、科研院所等機構(gòu)的智慧。MIT許可證是麻省理工學院制定的,BSD許可證是加州大學伯克利分校針對自研的Unix操作系統(tǒng)而推出的,Apache許可證則是由Apache基金會在MIT許可證和BSD許可證基礎上修改發(fā)布的。
表1 主流深度學習框架使用的開源許可證
如何組織并激勵規(guī)模龐大但空間分散的開發(fā)群體進行持續(xù)創(chuàng)新是影響人工智能開源生態(tài)可持續(xù)發(fā)展的關鍵因素。在厘清運營模式的基礎上,筆者嘗試從體制機制的角度梳理出國外人工智能開源生態(tài)的主要特征,探究推動其逐步發(fā)展壯大的關鍵性力量。
“為他人做嫁衣”的憂慮是妨礙商業(yè)企業(yè)參與開源的原因之一。而通過開源基金會這一第三方機構(gòu),實現(xiàn)所有權(quán)中立,則使企業(yè)之間的合作成為可能[18]。開源基金會通過與貢獻者簽訂會員協(xié)議、轉(zhuǎn)讓協(xié)議、許可協(xié)議或根據(jù)開源許可證本身等各種方式,獲得了項目的所有權(quán),并負責管理知識產(chǎn)權(quán)。因此,對任何項目參與者而言,所有權(quán)都是中立的,這便使得所有人員都能平等參與,尤其是避免了商業(yè)公司之間的競爭關系。另外,讓中立的第三方擁有所有權(quán),可以降低責任風險?;饡鳛榉ㄈ藢嶓w,充當著社區(qū)成員的保護盾,保護成員免于承擔合同或與基金會本身有關的責任,還可以保護未參加特定活動的成員免受其他成員行為的影響(例如,將侵權(quán)軟件引入基金會擁有的軟件)。
開源社區(qū)雖然以自組織為典型特征,拒絕封閉式組織的集權(quán)模式,但依然需要一定的治理機制來管理各項事務,以維持組織的存續(xù)。為平衡社區(qū)的過度松散性和商業(yè)公司的過度中心化,國外開源社區(qū)普遍從自發(fā)化、內(nèi)部化進入到機構(gòu)化發(fā)展階段,采用基金會這一組織方式來進行社區(qū)治理[19]?;饡恢苯訁⑴c項目開發(fā)等技術性事務,而是承擔方向把控、組織協(xié)調(diào)、人員培訓以及基礎設施等支持性工作。借助基金會提供的專業(yè)化服務,開源社區(qū)既能保留決策自主并專注于技術創(chuàng)新,又能實現(xiàn)規(guī)范化發(fā)展。
有研究表明,成功的開源社區(qū)需要相關個體或組織進行主導和牽引[20]。從國外實踐看,頂尖企業(yè)依靠自身的技術實力和行業(yè)影響力,正成為推動人工智能開源隊伍不斷壯大的關鍵力量。一方面,人工智能開源市場逐漸呈現(xiàn)出大型平臺企業(yè)間相互競爭的格局。目前最受歡迎的人工智能開源項目主要來源于谷歌、Meta、亞馬遜、微軟等科技巨頭(見表2);Linux人工智能專項基金會已孵化完成的7個人工智能開源項目均來自于Uber、IBM、微軟、騰訊等大型科技企業(yè)。另一方面,頂尖企業(yè)對開源基金會的影響力逐漸擴大。Linux基金會的25位董事中絕大多數(shù)都來自于大型科技企業(yè)的管理層,比如高通技術公司副總裁David Marr、IBM開放系統(tǒng)開發(fā)副總裁Jessica Murillo以及英特爾軟件業(yè)務戰(zhàn)略總經(jīng)理Melissa E. Evers-Hood等。雖然也有不少人工智能初創(chuàng)企業(yè)投身開源,但頂尖企業(yè)顯然能投入更多的資金、人才和基礎設施,支撐大型開源項目的開發(fā),同時由于實力背書,其發(fā)起的開源項目也更能吸引外部開發(fā)群體的參與。
表2 GitHub上最受歡迎的人工智能開源項目
能夠商業(yè)化是推動開源軟件可持續(xù)發(fā)展的重要因素之一。Apache軟件基金會創(chuàng)始人Brain Beelendorf指出,利他主義的開源和利己主義的商業(yè)模式結(jié)合在一起才能為開源做貢獻[21]。商業(yè)化帶來的市場回報對潛在開源參與者形成了一種天然的外部激勵[22]。從國外實踐看,當前人工智能開源項目的商業(yè)模式主要是通過建立生態(tài)圈拓展盈利空間,即發(fā)揮開源業(yè)務的“引流”作用,當開源項目在開發(fā)人員中變得流行甚至成為行業(yè)標準時,再逐步構(gòu)建起人工智能產(chǎn)業(yè)鏈。比如,谷歌已將TensorFlow部署在幾百萬臺設備上,占有深度學習框架市場最大份額,同時不斷加強TensorFlow與自身云計算、芯片等業(yè)務的關聯(lián),比如推出了在谷歌云平臺上運行TensorFlow的付費服務,開發(fā)出專門針對TensorFlow的人工智能芯片。
在政府、高校、科研院所和企業(yè)等產(chǎn)學研力量的共同努力下,我國已建立起一些致力于推動人工智能開源的平臺和組織,包括依托行業(yè)領軍企業(yè)建立的自動駕駛、城市大腦、醫(yī)療影像等新一代人工智能開放創(chuàng)新平臺,新一代人工智能產(chǎn)業(yè)技術創(chuàng)新戰(zhàn)略聯(lián)盟、中國人工智能開源軟件發(fā)展聯(lián)盟等產(chǎn)業(yè)聯(lián)盟,以及啟智社區(qū)(OpenI)、確實社區(qū)(Trustie)、木蘭開源社區(qū)等開源社區(qū)。同時,我國本土的人工智能代碼托管平臺和開源許可證等基礎設施也基本形成,包括由鵬城實驗室推出的匯智開源平臺iHub、由開源中國(目前國內(nèi)最大的開源技術社區(qū))推出的碼云(Gitee)等代碼托管平臺,以及由中國開源云聯(lián)盟制定的中國首個開源許可證“木蘭寬松許可證”。此外,我國開源基金會也進入起步階段,國內(nèi)首個開源基金會——開放原子開源基金會于2020年9月正式成立。
我國人工智能開源生態(tài)的構(gòu)成要素已基本形成,但相比國外,整體生態(tài)還處在早期成長階段,開源社區(qū)、企業(yè)、開源基金會等主要開源主體之間協(xié)同創(chuàng)新的方式并不明晰。因此,有必要借鑒國外人工智能開源生態(tài)的運營模式,聚焦打造良好的人工智能開源政策環(huán)境、推動開源組織有序分工合作、夯實開源基礎設施等方面,推動我國人工智能開源生態(tài)的可持續(xù)發(fā)展。
(1)加強政策的主動性和引導性。
我國人工智能開源頂層設計正在不斷完善,越來越重視開源社區(qū)、代碼托管平臺等的建設以及開源知識產(chǎn)權(quán)保護。但相較歐美國家實行的“優(yōu)先購買”“主動開源”等措施,我國開源政策的激勵性、引導性還不夠強。為帶動各界對人工智能開源項目的研發(fā)熱情,建議增強政府的主動性,一方面加大現(xiàn)有科技計劃對人工智能開源項目的支持力度,并推動在政府資助下形成的人工智能研發(fā)成果的開源,擴大人工智能開源供給;另一方面研究在政務、醫(yī)療、安防、教育等社會民生應用場景中率先使用國產(chǎn)人工智能開源軟件,從需求側(cè)激勵國內(nèi)企業(yè)加大自主研發(fā)。
(2)推動產(chǎn)業(yè)聯(lián)盟和開源基金會并行發(fā)展。
國外開源基金會在人工智能開源生態(tài)的可持續(xù)運營中發(fā)揮著重要的組織支撐作用。在國內(nèi),更多的是由產(chǎn)業(yè)聯(lián)盟扮演這一角色。與開源基金會相比,產(chǎn)業(yè)聯(lián)盟組織較為松散,更側(cè)重于為創(chuàng)新主體之間的信息交流和項目合作提供平臺。而開源基金會基于法人地位,能為開源社區(qū)提供法律保障;利用穩(wěn)定的會費收入,能為開源項目提供更專業(yè)化、規(guī)范化的服務;通過與企業(yè)之間形成的互利共贏模式,能推動開源生態(tài)的良性循環(huán)。要在人工智能開源參與者之間建立起更為牢固的合作紐帶,既需要開源基金會這類第三方服務機構(gòu)提供有效的機制保障和程序化的管理服務,也需要產(chǎn)業(yè)聯(lián)盟作為產(chǎn)學研溝通與合作的橋梁,開展開源技術行業(yè)推廣、開源許可證制定、開源軟件標準研制、開源人才培養(yǎng)等基礎性、公益性服務。因此,建議我國在繼續(xù)發(fā)揮產(chǎn)業(yè)聯(lián)盟作用的同時,強化基金會制度,借鑒國際主流開源基金會的發(fā)展經(jīng)驗,進一步發(fā)展我國本土的人工智能開源基金會。
(3)發(fā)揮領軍企業(yè)的引領作用。
領軍企業(yè)出于構(gòu)建自身商業(yè)生態(tài)的需求,對人工智能底層技術進行開源的意愿較強。同時基于強大的研發(fā)能力、資金保障和行業(yè)影響力,其也能夠主導開源項目的產(chǎn)生、成長和商業(yè)化。目前,百度、騰訊等國內(nèi)大型科技企業(yè)以及商湯科技、曠視科技等人工智能垂直行業(yè)的領軍企業(yè)都紛紛推出了自研的人工智能開源項目。在此基礎上,可以借鑒國外人工智能開源社區(qū)以特定項目為核心的發(fā)展模式,支持領軍企業(yè)圍繞某一項目建立起相應的開源社區(qū),利用自身的行業(yè)號召力吸引更多開發(fā)者加入,探索龍頭企業(yè)牽引型開源社區(qū)的建設。
(4)發(fā)展本土代碼托管平臺和開源許可證。
代碼托管平臺是開源項目協(xié)作開發(fā)的基礎工作環(huán)境,開源許可證是項目開源的核心規(guī)則,但目前兩者基本都被美國壟斷。代碼托管平臺呈現(xiàn)GitHub一家獨大的格局,常用的開源許可證均來自美國。在中美科技競爭日益激烈的背景下,若國內(nèi)在人工智能開源領域繼續(xù)過度依賴美國的基礎設施,可能也會遭遇“斷供”或法律風險。事實上,GitHub已明確表示其企業(yè)服務器及用戶上傳的信息都要接受美國法律監(jiān)管,包括美國出口管制法;而部分開源許可證也規(guī)定其適用法律為美國法。為保障我國人工智能開源環(huán)境的安全性與自主性,需要發(fā)展壯大本土的代碼托管平臺,鼓勵企業(yè)優(yōu)先選擇Gitee等國內(nèi)代碼托管平臺,并推動國家科技計劃下產(chǎn)生的人工智能創(chuàng)新成果適時在本土代碼托管平臺上開源。同時發(fā)揮產(chǎn)業(yè)聯(lián)盟的作用,研制并推廣符合中國開源發(fā)展特點的許可證?!?/p>