国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

思維與智慧科學(xué)及工程

2011-03-26 09:31:34尹紅風(fēng)戴汝為
關(guān)鍵詞:錢學(xué)森海量知識(shí)庫(kù)

尹紅風(fēng), 戴汝為

(1.西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,成都 610030; 2.中國(guó)科學(xué)院 自動(dòng)化研究所 復(fù)雜系統(tǒng)與智能科學(xué)重點(diǎn)實(shí)驗(yàn)室,北京 100190)

從20世紀(jì)80年代起,科學(xué)大師錢學(xué)森提出思維科學(xué)、開(kāi)放復(fù)雜巨系統(tǒng)、人-機(jī)共建的智能系統(tǒng)和綜合集成的大成智慧等一系列的思想和理論,我們與他一起開(kāi)展了這些研究,錢學(xué)森當(dāng)時(shí)預(yù)言:這是科學(xué)的革命,必將帶來(lái)技術(shù)的革命.今天可以更清楚地認(rèn)識(shí)到錢學(xué)森開(kāi)創(chuàng)的思維與智慧科學(xué)革命,這是中國(guó)第一次在重大科學(xué)問(wèn)題上領(lǐng)先突破.本世紀(jì)伊始,認(rèn)識(shí)到思維與智慧科學(xué)思想和理論正是新一代語(yǔ)義智能搜索引擎的理論基礎(chǔ),新一代搜索引擎就是智能計(jì)算機(jī),信息技術(shù)的新發(fā)展使得今天完全可以在工程上實(shí)現(xiàn)這些理論,從而開(kāi)啟新的知識(shí)技術(shù)革命.

1 思維科學(xué)的研究與發(fā)展

1.1 人工智能的困境

物質(zhì)的本質(zhì),宇宙的起源,生命的本質(zhì)和智能的產(chǎn)生是人類科學(xué)所面臨的四大挑戰(zhàn).國(guó)際上對(duì)智能的研究主要是用人工智能的方法.1956年,第一次人工智能研討會(huì)在美國(guó)的達(dá)特茅斯(Dartmouth)大學(xué)舉行,J.McCarthy,H.Simon等倡議開(kāi)展人類思維活動(dòng)規(guī)律的研究,并給予“人工智能”的命名,標(biāo)志著人工智能學(xué)科的誕生.人工智能的實(shí)現(xiàn)主要是基于邏輯符號(hào)處理,并且主要以機(jī)器模擬人的智能為主,但其方法論和目標(biāo)存在著問(wèn)題,為后來(lái)的研究者埋下了束縛思想的桎梏.對(duì)游戲、下棋和機(jī)器定理證明等問(wèn)題容易解決,1958年H.Simon曾樂(lè)觀的預(yù)計(jì):10年之內(nèi)計(jì)算機(jī)將成為世界象棋冠軍、發(fā)現(xiàn)并證明重要數(shù)學(xué)定理、譜寫出優(yōu)秀的樂(lè)曲,到2000年,機(jī)器的智能將超過(guò)人…….但是在自然語(yǔ)言理解和機(jī)器翻譯研究則遇到瓶頸.80年代日本提出第五代智能計(jì)算機(jī)計(jì)劃,主要是提高邏輯運(yùn)算的能力.第五代機(jī)計(jì)劃的失敗是對(duì)傳統(tǒng)的人工智能研究的另一大的沖擊.

1.2 思維科學(xué)

對(duì)智能本質(zhì)的研究,科學(xué)大師錢學(xué)森的思維科學(xué)開(kāi)創(chuàng)了新的科學(xué)革命,錢學(xué)森在20世紀(jì)50年代就開(kāi)始思考思維科學(xué)的研究,20世紀(jì)80年代,錢學(xué)森提出人的思維是有規(guī)律的,可以用科學(xué)的方法研究,思維科學(xué)是可以成立的,并撰寫了著名的《關(guān)于思維科學(xué)》一文[1],文中指出:從廣泛的意義上講,思維當(dāng)然有規(guī)律,因?yàn)樗季S也是一種客觀現(xiàn)象,而一切客觀的東西及其運(yùn)動(dòng)都有自己的規(guī)律,思維當(dāng)然也不例外.可以先從思維是人的中樞神經(jīng)系統(tǒng),特別是大腦受外界各種刺激而引起的這一點(diǎn)看.外界各種刺激又是客觀世界變化和運(yùn)動(dòng)的產(chǎn)物,這些變化和運(yùn)動(dòng)是遵循客觀世界規(guī)律的,即自然界的和社會(huì)的規(guī)律,所以外界各種刺激也是有自己的規(guī)律,而不是無(wú)緣無(wú)故無(wú)章可循的.這樣,人的中樞神經(jīng)系統(tǒng)大腦的活動(dòng)也就當(dāng)然要有規(guī)律,人的思維要有規(guī)律.思維科學(xué)只研究思維的規(guī)律和方法.

錢學(xué)森進(jìn)一步指出“思維”可以分成抽象(邏輯)思維、形象(直感)思維和靈感(頓悟)思維3個(gè)部分.特別強(qiáng)調(diào)要在“形象思維”研究方面有所突破.錢學(xué)森先生還認(rèn)為計(jì)算機(jī)模擬對(duì)研究人的思維有重要的啟發(fā),計(jì)算機(jī)模擬技術(shù)是研究思維的有效工具.

錢學(xué)森先生的思維科學(xué)也得到了人工智能之父、諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)和計(jì)算機(jī)圖靈獎(jiǎng)獲得者司馬賀(Herbet Simon)的高度關(guān)注,他寫信給錢學(xué)森,希望能和錢學(xué)森直接探討思維科學(xué)的問(wèn)題,并認(rèn)為可以和錢學(xué)森共同樹(shù)立一面旗幟.可惜由于各種原因,兩位東西方科學(xué)大師沒(méi)有能夠直接對(duì)話.

錢學(xué)森認(rèn)為,思維科學(xué)的研究將孕育新的科學(xué)革命,另一方面,思維科學(xué)的研究又會(huì)推動(dòng)智能機(jī)的發(fā)展,肯定又將是一場(chǎng)技術(shù)革命.

當(dāng)時(shí)用思維科學(xué)的理論來(lái)分析日本的第五代計(jì)算機(jī)計(jì)劃,就認(rèn)識(shí)到這是一個(gè)失敗的計(jì)劃,因?yàn)樗募軜?gòu)中沒(méi)有模擬形象思維的功能.

思維科學(xué)開(kāi)辟了新的正確的智能研究方向,是發(fā)展智能機(jī)的理論基礎(chǔ).把錢學(xué)森思維科學(xué)的思想深入發(fā)展成科學(xué)的理論和實(shí)現(xiàn),寫了《論思維與模擬智能》一文[2],建立了一個(gè)思維的結(jié)構(gòu)模型,詳細(xì)描述了形象思維、邏輯思維和其對(duì)應(yīng)的存儲(chǔ)、運(yùn)算之間的關(guān)系,更進(jìn)一步實(shí)現(xiàn)了形象思維的聯(lián)想記憶數(shù)學(xué)模型和人工神經(jīng)元網(wǎng)絡(luò)的模擬[3].錢學(xué)森和我們進(jìn)行深入探討并對(duì)我們的工作給出很高的期望[4].

2 從思維科學(xué)到智慧科學(xué)

2.1 開(kāi)放的復(fù)雜巨系統(tǒng)

對(duì)于思維科學(xué)的進(jìn)一步探討,錢學(xué)森在1989年8月24日給的信中指出[5]:“作為物質(zhì)系統(tǒng)如何形容人腦?認(rèn)為應(yīng)該用系統(tǒng)學(xué)的概念,人腦是由幾萬(wàn)億腦細(xì)胞組成的開(kāi)放復(fù)雜巨系統(tǒng)”.錢學(xué)森在20世紀(jì)90年代初進(jìn)一步發(fā)展為開(kāi)放復(fù)雜巨系統(tǒng)理論[6],認(rèn)為開(kāi)放的復(fù)雜巨系統(tǒng)的主要性質(zhì)可以概括為:

a.開(kāi)放性——系統(tǒng)對(duì)象及其子系統(tǒng)與環(huán)境之間有物質(zhì)、能量、信息的交換;

b.復(fù)雜性——系統(tǒng)中子系統(tǒng)的種類繁多,子系統(tǒng)之間存在多種形式、多種層次的交互作用;

c.進(jìn)化與涌現(xiàn)性——系統(tǒng)中子系統(tǒng)或基本單元之間的交互作用,從整體上演化、進(jìn)化出一些獨(dú)特的、新的性質(zhì),如通過(guò)自組織方式形成某種模式;

d.層次性——系統(tǒng)部件與功能上具有層次關(guān)系;

e.巨量性——數(shù)目極其巨大.互聯(lián)網(wǎng)正是一個(gè)“開(kāi)放的復(fù)雜智能巨系統(tǒng)”: a.巨量性——已經(jīng)擁有數(shù)千億的網(wǎng)頁(yè),數(shù)十億的網(wǎng)民,數(shù)億的關(guān)鍵詞概念;

b.復(fù)雜性——互聯(lián)網(wǎng)包括各種不同的系統(tǒng),不同的行業(yè),不同的功用;

c.開(kāi)放性——用戶系統(tǒng)、網(wǎng)頁(yè)系統(tǒng)之間總是在互相作用,交換信息;

d.進(jìn)化與涌現(xiàn)性——這些元素又互相關(guān)聯(lián),這些元素之間關(guān)系也是不斷變化的,人的參與更把這些元素組織成有意義的模式;

e.層次性——概念之間不僅相關(guān),而且有各種層次,網(wǎng)頁(yè)也包含許多層次.

2.2 人機(jī)共建的智能系統(tǒng)

錢學(xué)森在1989年8月24日的信中還指出[6]:“搞模擬智能的起步該在什么地方,如何從人機(jī)結(jié)合一步一步的提高?”1991年4月18日更明確指出:“智能系統(tǒng)是非常重要的,是國(guó)家大事,關(guān)系到下一世紀(jì)我們國(guó)家的地位.如果在這個(gè)問(wèn)題上有所突破,將有深遠(yuǎn)的影響.要研究的問(wèn)題不是智能機(jī),而是人與機(jī)器相結(jié)合的智能系統(tǒng).不能把人排除在外,應(yīng)是一個(gè)人-機(jī)智能系統(tǒng).”

2.3 綜合集成的大成智慧

錢學(xué)森的大成智慧思想是把人的思維、思維的成果、人的知識(shí)、經(jīng)驗(yàn)和智慧以及各種情報(bào)、資料、信息集成起來(lái)[7].顧名思義,稱為“大成智慧工程(Metasynthetic Engineering)”.構(gòu)思是把今天世界上千百萬(wàn)人的聰明才智和智慧都綜合起來(lái).

這樣則把智能的研究的方向從人工地模擬智能的功能轉(zhuǎn)變?yōu)檠芯咳说闹悄茉?從個(gè)體轉(zhuǎn)變?yōu)樯鐣?huì)的智慧,從簡(jiǎn)單算法到復(fù)雜巨系統(tǒng),從以機(jī)器為主到以人為主、人-機(jī)結(jié)合的的智能系統(tǒng).

3 技術(shù)新浪潮

3.1 信息技術(shù)革命和發(fā)展極限

計(jì)算機(jī)的發(fā)明給人類帶來(lái)了信息技術(shù)和信息革命,互聯(lián)網(wǎng)的發(fā)展將信息革命推向新的高潮,信息存儲(chǔ)、運(yùn)算和通訊能力都成指數(shù)性增長(zhǎng),人們同時(shí)也面臨許多垃圾、有害、虛假等信息,現(xiàn)有的信息技術(shù)已使人無(wú)法有效使用已有的信息,信息技術(shù)革命已到了尾聲.

以信息檢索理論為原理的搜索引擎是目前主要的信息尋找方法,它主要是通過(guò)網(wǎng)絡(luò)蜘蛛盡可能搜集互聯(lián)網(wǎng)網(wǎng)頁(yè),然后用超鏈分析等方法給出網(wǎng)頁(yè)排名,再用關(guān)鍵詞來(lái)索引所有的網(wǎng)頁(yè),最后對(duì)用戶輸入的關(guān)鍵詞,搜索引擎從索引數(shù)據(jù)庫(kù)中找到匹配該關(guān)鍵詞的網(wǎng)頁(yè)提供給用戶.搜索引擎通常能夠涵蓋非常大的互聯(lián)網(wǎng)范圍,但是經(jīng)常返回大量的低質(zhì)量網(wǎng)頁(yè).盡管過(guò)去幾年里在搜索引擎技術(shù)和系統(tǒng)上有許多改進(jìn),但是人們搜索網(wǎng)上信息時(shí)還經(jīng)常有很大的挫折感,很多時(shí)候,想要的信息不能夠找到或者需要花很多時(shí)間才能找到,給出的網(wǎng)頁(yè)的數(shù)量通常也很大,并且只能夠給那些它包含搜索詞的網(wǎng)頁(yè).另外,現(xiàn)在的搜索引擎對(duì)所有的人幾乎給出同樣的搜索結(jié)果.雖然過(guò)去十年互聯(lián)網(wǎng)發(fā)生巨大的變化,但搜索引擎還是和十年前幾乎相同.

3.2 新技術(shù)浪潮

近幾年,終端設(shè)備如智能手機(jī)、平板電腦和電子書等迅猛發(fā)展,特點(diǎn)是小屏幕、移動(dòng)、聯(lián)網(wǎng)和個(gè)性化.通訊、計(jì)算機(jī)和媒體的結(jié)合越來(lái)越密切.

在后臺(tái),云計(jì)算是計(jì)算平臺(tái)的革命,通過(guò)Hadoop開(kāi)放平臺(tái)實(shí)現(xiàn)的Map/Reduce算法,可以用數(shù)萬(wàn)臺(tái)機(jī)器來(lái)完成一項(xiàng)工作,幾乎有無(wú)限的計(jì)算、存儲(chǔ)和通訊能力.并且Amazon AWS等提供了硬件服務(wù).可以以低價(jià)格、迅速、靈活地租用.在內(nèi)容方面,用戶產(chǎn)生的內(nèi)容急劇增加:如博客、微搏、社交網(wǎng)絡(luò)等.視頻、圖象等多媒體內(nèi)容也越來(lái)越重要.

互聯(lián)網(wǎng)的用戶大規(guī)模增加,中國(guó)已有4億多互聯(lián)網(wǎng)用戶和將近4億移動(dòng)互聯(lián)網(wǎng)用戶.

而這些技術(shù)浪潮還主要是硬件和環(huán)境的改變,需要通過(guò)一個(gè)新的系統(tǒng)才能把這些資源有機(jī)地整合起來(lái),最大發(fā)揮新技術(shù)的潛力,從而轉(zhuǎn)化為新的技術(shù)革命.錢學(xué)森的思想和理論正是這場(chǎng)新技術(shù)革命的核心和基礎(chǔ),而這些新的計(jì)算、設(shè)備、通訊、互聯(lián)網(wǎng)和媒體的新發(fā)展也為實(shí)現(xiàn)錢學(xué)森的大成智慧工程提供了必要的條件.

4 大成智慧工程的實(shí)現(xiàn)

4.1 信息與知識(shí)

21世紀(jì)伊始,我們認(rèn)識(shí)到錢學(xué)森的思維、智慧科學(xué)思想和理論正是新一代語(yǔ)義智能搜索引擎的理論基礎(chǔ),新一代搜索引擎就是智能計(jì)算機(jī)[8].其目標(biāo)是要建立類似人的世界知識(shí)庫(kù),從而可以提供基于知識(shí)的搜索,或者說(shuō)是知識(shí)引擎.只有像人一樣,理解所有的信息,將巨大的信息轉(zhuǎn)變成有用的知識(shí),才能最好的利用信息,這將開(kāi)啟從信息技術(shù)向知識(shí)技術(shù)的巨大轉(zhuǎn)變,從以數(shù)據(jù)為中心向以人為中心的轉(zhuǎn)變.就探索這些技術(shù)的實(shí)現(xiàn),克服算法和工程方面許多難題.

那么信息和知識(shí)之間的主要區(qū)別是什么呢?表1列出了信息與知識(shí)的比較.

表1 信息與知識(shí)的比較Tab.1 The comparisons of information and knowledge

人工生成的知識(shí)系統(tǒng),如維基百科、網(wǎng)頁(yè)目錄等等很好建立,但這些系統(tǒng)盡管參與者眾多但容納的詞條到底有限,只有區(qū)區(qū)幾百萬(wàn)條.目前國(guó)際上語(yǔ)義搜索引擎還是處在概念化階段,其它的語(yǔ)義搜索引擎如 Wolfram Alpha、Hakia、Powerset、Maholo等只能在較少的領(lǐng)域或較小范圍內(nèi)搜索.最近,Freebase和DBpedia已經(jīng)把大量的網(wǎng)上信息結(jié)構(gòu)化,從而建立關(guān)鍵詞之間的可以用語(yǔ)言描述的關(guān)系,我們則用算法計(jì)算出關(guān)鍵詞之間的聯(lián)系的數(shù)字強(qiáng)度關(guān)系,從而可以對(duì)知識(shí)庫(kù)的結(jié)果進(jìn)行排序,兩者結(jié)合起來(lái)則可提供用戶搜索更精確的、更直接的答案.目前,DBpedia知識(shí)庫(kù)已經(jīng)建立了關(guān)于290萬(wàn)事物的4億8千萬(wàn)條信息.這樣關(guān)于這些上百萬(wàn)的事物的上億的詢問(wèn),就可以給出直接答案.對(duì)中文的這樣詳細(xì)描述關(guān)鍵詞之間關(guān)系的知識(shí)庫(kù),還需要建立.

4.2 建立世界知識(shí)庫(kù)

我們的目標(biāo)是建立任何事物的知識(shí)庫(kù),從而可以對(duì)大部分的搜索,都可以給出直接答案.那么,怎樣建立一個(gè)這樣的人工的開(kāi)放復(fù)雜巨系統(tǒng)?需要應(yīng)用錢學(xué)森的人機(jī)共建的綜合集成理論.目前,互聯(lián)網(wǎng)提供了實(shí)現(xiàn)大成智慧的幾乎所有必要的條件,網(wǎng)上有幾乎人類所有的知識(shí)、數(shù)據(jù)、資料、信息和巨大的用戶,但是都是分散的、無(wú)組織的,我們則可以把這些同各種算法、系統(tǒng)、技術(shù)和設(shè)備集成起來(lái),運(yùn)用云計(jì)算的巨大能力,構(gòu)建一個(gè)海量的知識(shí)庫(kù)和智慧平臺(tái),從而可以提供各樣的智慧服務(wù).圖1顯示建立海量的知識(shí)庫(kù)的綜合集成方法.

圖1 建立海量世界知識(shí)庫(kù)的綜合集成方法Fig.1 Metasynthesis method for building massive world's knowlege system

4.2.1 集成信息、數(shù)據(jù)和系統(tǒng)

首先可以從大量的互聯(lián)網(wǎng)頁(yè)中抽取有用的、結(jié)構(gòu)化的信息,對(duì)所有的網(wǎng)頁(yè)都可抽取重要的鏈接、關(guān)鍵詞信息,對(duì)某些特殊的領(lǐng)域和主要的網(wǎng)站,則可抽取更加精確和結(jié)構(gòu)化的信息,如地址、電話、電影、圖書、生日等.這樣就可把網(wǎng)上的信息轉(zhuǎn)化為知識(shí),這些知識(shí)使得智能搜索可以回答一些經(jīng)過(guò)推理、綜合才能回答的問(wèn)題,如一個(gè)人的年齡,某個(gè)市的主要醫(yī)生等問(wèn)題.這些問(wèn)題是傳統(tǒng)的搜索引擎所不能解決的.

互聯(lián)網(wǎng)上還有許多公司的專業(yè)知識(shí)庫(kù)和數(shù)據(jù),如天氣、股票、旅游等,我們則可把這些數(shù)據(jù)和系統(tǒng)直接集成到建立的智慧平臺(tái)里.

4.2.2 集成人的智慧

人腦也是一個(gè)復(fù)雜巨系統(tǒng),有超過(guò)100億神經(jīng)細(xì)胞,云計(jì)算技術(shù)的發(fā)展可建立一個(gè)人工的這樣大規(guī)模的復(fù)雜巨系統(tǒng),如果每臺(tái)服務(wù)器可以處理100萬(wàn)單元的信息,那么1萬(wàn)臺(tái)務(wù)器組成的云計(jì)算則可以處理100億單元的信息,相當(dāng)于人腦的運(yùn)算能力,因此云計(jì)算可使有和人腦同等量級(jí)的運(yùn)算能力.因此,今天能夠在技術(shù)上實(shí)現(xiàn)開(kāi)放復(fù)雜巨系統(tǒng),這為進(jìn)一步定量研究開(kāi)放復(fù)雜巨系統(tǒng)理論提供了實(shí)驗(yàn)基礎(chǔ).同時(shí)通過(guò)模擬也是了解、認(rèn)識(shí)復(fù)雜巨系統(tǒng)一個(gè)重要途徑.

人使用互聯(lián)網(wǎng)行為如搜索的詞、點(diǎn)擊的網(wǎng)頁(yè)、瀏覽的網(wǎng)頁(yè)等包含了大量信息,可以用算法處理和分析,從而得到集體的智慧,其結(jié)果可以用于內(nèi)容、關(guān)鍵詞推薦等.對(duì)個(gè)人的行為分析、處理則可為每個(gè)用戶建立知識(shí)庫(kù),提供個(gè)性化的服務(wù)和搜索.例如統(tǒng)計(jì)所有人搜索詞的頻率和個(gè)人搜索詞的頻率,則可用于建立高效的、個(gè)性化的輸入法.

數(shù)億用戶的直接輸入是知識(shí)庫(kù)的重要來(lái)源,象百科、復(fù)雜問(wèn)題解答、博客等已經(jīng)是互聯(lián)網(wǎng)重要內(nèi)容來(lái)源,用戶的知識(shí)是用人的智能解決精確的問(wèn)題和復(fù)雜問(wèn)題.目前這些信息還不是結(jié)構(gòu)化的信息,我們則可以設(shè)計(jì)結(jié)構(gòu)化的界面,從而得到結(jié)構(gòu)化的信息,則可以使用戶輸入的信息的搜索和使用的功效大大增加.

數(shù)億互聯(lián)網(wǎng)用戶也可以看作巨大計(jì)算和智力資源,雖然每個(gè)人運(yùn)算速度不快、記憶有限,但是幾億的用戶的計(jì)算量積聚起來(lái)可以是巨量的,像圖像識(shí)別、語(yǔ)音識(shí)別、機(jī)器翻譯、復(fù)雜問(wèn)題回答等,機(jī)器是無(wú)法和人相比的.因此,這是一個(gè)以人為主,人-機(jī)結(jié)合的系統(tǒng).

機(jī)器是要把所有人的智慧綜合集成起來(lái)、把其潛力發(fā)掘出來(lái).

4.2.3 集成自然語(yǔ)言處理

機(jī)器算法可以處理上萬(wàn)億條詞目,自動(dòng)產(chǎn)生知識(shí).到目前為止,人工生成的知識(shí)庫(kù)與機(jī)器生成知識(shí)庫(kù)之間主要的區(qū)別在于后者不如前者精確.自然語(yǔ)言處理最終可以用機(jī)器把大部分網(wǎng)頁(yè)里的文字信息轉(zhuǎn)化為知識(shí).這還需要相當(dāng)長(zhǎng)的時(shí)間研究才能實(shí)現(xiàn),但是我們可以一步一步的來(lái)實(shí)現(xiàn)這個(gè)目標(biāo),先理解一些簡(jiǎn)單的問(wèn)題,抽取一部分知識(shí)豐富知識(shí)庫(kù),或?qū)σ恍┨囟ǖ念I(lǐng)域處理,逐步擴(kuò)大到多較復(fù)雜的問(wèn)題和多領(lǐng)域.另外通過(guò)海量知識(shí)庫(kù)提高對(duì)網(wǎng)頁(yè)自然語(yǔ)言理解的能力,從而抽取更多的知識(shí)豐富知識(shí)庫(kù).

4.2.4 集成數(shù)據(jù)挖掘結(jié)果

互聯(lián)網(wǎng)上早就產(chǎn)生海量數(shù)據(jù),但是幾年前,分析和處理海量數(shù)據(jù)是一個(gè)巨大的工程,往往要耗費(fèi)數(shù)十人,數(shù)個(gè)月甚至一、兩年時(shí)間.研究數(shù)據(jù)挖掘算法大部分時(shí)間是用在產(chǎn)生數(shù)據(jù)上.云計(jì)算提供了方便、快速處理海量數(shù)據(jù)的平臺(tái).可把產(chǎn)生數(shù)據(jù)的時(shí)間從幾個(gè)月縮小到幾天、甚至幾個(gè)小時(shí),這是繼個(gè)人計(jì)算機(jī)后計(jì)算平臺(tái)的一次革命.

海量數(shù)據(jù)還使得許多過(guò)去算法如機(jī)器翻譯、圖象分類、自然語(yǔ)言處理等都會(huì)有新的方法和結(jié)果的突破,把過(guò)去一些規(guī)則、學(xué)習(xí)和分析的方法變?yōu)楹A繕颖镜乃阉骱捅葘?duì).

怎樣從海量數(shù)據(jù)中用數(shù)據(jù)挖掘算法產(chǎn)生知識(shí)、自動(dòng)產(chǎn)生分類、聚類等結(jié)果?互聯(lián)網(wǎng)數(shù)據(jù)有以下特點(diǎn):

特點(diǎn)1 數(shù)億至數(shù)萬(wàn)億條以上信息,如個(gè)人行為信息、網(wǎng)頁(yè)信息、關(guān)鍵詞信息等.

特點(diǎn)2 數(shù)據(jù)特征維數(shù)可達(dá)百萬(wàn)以上,如對(duì)文本,如果每個(gè)關(guān)鍵詞都可看作一個(gè)特征.數(shù)據(jù)非常稀疏.

特點(diǎn)3 可以來(lái)自多個(gè)數(shù)據(jù)源,如人行為數(shù)據(jù)有:搜索詞、瀏覽的網(wǎng)頁(yè)、看到和點(diǎn)擊的廣告、購(gòu)買的產(chǎn)品等.

因?yàn)閿?shù)據(jù)挖掘一般都是非常大的工程項(xiàng)目,并且有很重要的商業(yè)目標(biāo),涉及許多人和各種資源,即使是在工業(yè)界,成功的也是很少.數(shù)據(jù)挖掘項(xiàng)目的成功取決于如下重要因素:

因素1 選擇數(shù)據(jù).因?yàn)楝F(xiàn)代信息技術(shù)可以產(chǎn)生巨量的數(shù)據(jù),有不同的數(shù)據(jù)源,但是要用什么樣的數(shù)據(jù)參與挖掘?數(shù)據(jù)與目標(biāo)的相關(guān)性如何?成本如何?有時(shí)數(shù)據(jù)量巨大但含的有效信息較少,有時(shí)數(shù)據(jù)極為有效但量太少.怎樣取舍?需要事先有定性的分析和判斷,這往往需要很多數(shù)據(jù)挖掘的經(jīng)驗(yàn)和專業(yè)知識(shí)的經(jīng)驗(yàn).同時(shí)也需要先用少量數(shù)據(jù)進(jìn)行分析和驗(yàn)證大的設(shè)想.

因素2 探索數(shù)據(jù).當(dāng)選擇好要用的數(shù)據(jù)后,還需對(duì)數(shù)據(jù)本身進(jìn)行認(rèn)真仔細(xì)觀察、分析、探索、統(tǒng)計(jì)結(jié)果和每一特征的分布等,研究數(shù)據(jù)的可靠性和穩(wěn)定性等,及早發(fā)現(xiàn)數(shù)據(jù)可能存在的問(wèn)題.并且數(shù)據(jù)還需要進(jìn)行變換以符合算法的要求.從數(shù)據(jù)中發(fā)現(xiàn)新的思想.

因素3 產(chǎn)生訓(xùn)練樣本.需要從海量數(shù)據(jù)中選擇一定量的學(xué)習(xí)數(shù)據(jù)和評(píng)價(jià)數(shù)據(jù)的進(jìn)行建模,選擇多少和選擇哪些樣本數(shù)據(jù)對(duì)模型的結(jié)果有很大影響.

因素4 運(yùn)用算法.通常各種數(shù)據(jù)挖掘的算法得出的結(jié)果差別并不是特別大,對(duì)許多實(shí)際問(wèn)題,結(jié)果如能滿足客戶的主要要求,我們主張盡可能用簡(jiǎn)單的算法,如線性回歸算法(Linear Regression)或Logistic Regression,KNN,神經(jīng)元網(wǎng)絡(luò)算法等.

因素5 熟悉運(yùn)算和系統(tǒng)平臺(tái).要了解云運(yùn)算Hadoop平臺(tái)和其他的相關(guān)的系統(tǒng),才能有效地產(chǎn)生數(shù)據(jù),把訓(xùn)練好的模型集成到實(shí)際運(yùn)行的系統(tǒng)中,要考慮和實(shí)現(xiàn)運(yùn)算速度、系統(tǒng)集成等要求.

因素6 了解市場(chǎng)需求.另外,還需了解市場(chǎng)的實(shí)際效果和需求,不斷改進(jìn),設(shè)計(jì)和開(kāi)發(fā)新一代產(chǎn)品.

4.3 知識(shí)庫(kù)的管理

通過(guò)各種方法產(chǎn)生海量知識(shí)后,還需要對(duì)這些知識(shí)有效地管理,主要有以下幾個(gè)方面:

a.知識(shí)的更新.對(duì)從網(wǎng)頁(yè)中抽取的知識(shí)要跟據(jù)網(wǎng)頁(yè)內(nèi)容變化的頻率自動(dòng)下載更新.對(duì)數(shù)據(jù)挖掘算法和自然語(yǔ)言處理算法產(chǎn)生的知識(shí)要根據(jù)需要每個(gè)星期或每天運(yùn)行算法.也可以設(shè)置界面讓用戶直接更新.

b.知識(shí)的排序.為了能夠?qū)A康闹R(shí)有效地查尋,需要進(jìn)行排序,對(duì)每條知識(shí)根據(jù)其來(lái)源、用戶關(guān)注度、搜索頻率以及內(nèi)容的大小等打分,將來(lái)也可通過(guò)學(xué)習(xí)算法打分.根據(jù)分?jǐn)?shù)可對(duì)搜索結(jié)果進(jìn)行排序.

c.知識(shí)的歧義和同義.對(duì)一個(gè)名稱可能有不同的含義,如蘋果可以是公司或水果,同一人名可以是不同的人.另外,對(duì)于同一內(nèi)容也可以有不同的名稱,如北大和北京大學(xué)多是指同一內(nèi)容.

d.知識(shí)推理.綜合多條知識(shí)或數(shù)據(jù)根據(jù)一定的規(guī)則、科學(xué)公式或訓(xùn)練的數(shù)學(xué)模型給出結(jié)果,如從生日給出年齡,數(shù)學(xué)運(yùn)算.

4.4 海量知識(shí)庫(kù)和智慧平臺(tái)的應(yīng)用

當(dāng)建立了這樣的海量知識(shí)庫(kù)和智慧平臺(tái)后,就可以用于不同的方面如圖2所示,首先可以提供快速而準(zhǔn)確的語(yǔ)義智能搜索服務(wù).并且可以自動(dòng)產(chǎn)生數(shù)億的高質(zhì)量的內(nèi)容.也可以進(jìn)行自動(dòng)內(nèi)容分析,并最終實(shí)現(xiàn)人機(jī)自然對(duì)話.

由于在云計(jì)算的平臺(tái)上實(shí)現(xiàn)優(yōu)質(zhì)的服務(wù),有足夠的存儲(chǔ)空間、計(jì)算能力和網(wǎng)路帶寬滿足系統(tǒng)的需要,因?yàn)樵朴?jì)算是根據(jù)實(shí)際的用量來(lái)收費(fèi),這也大大降低了費(fèi)用.

圖2 海量知識(shí)庫(kù)和智慧平臺(tái)的各種應(yīng)用Fig.2 Applications of massive world's knowledge and intellgence platform

5 結(jié)束語(yǔ)

可以看到,錢學(xué)森晚年的思維科學(xué)、開(kāi)放復(fù)雜巨系統(tǒng)、人機(jī)共建的智能系統(tǒng)和綜和集成的大成智慧等研究對(duì)人工智能、計(jì)算機(jī)科學(xué)、信息科學(xué)等的新發(fā)展有著奠基性的指導(dǎo)意義,是中國(guó)第一次在重大科學(xué)問(wèn)題上領(lǐng)先突破.目前互聯(lián)網(wǎng)終端和云計(jì)算技術(shù)的發(fā)展終于可以實(shí)現(xiàn)他的這些的理論和思想,建立海量的知識(shí)庫(kù)和智慧平臺(tái).這將是一個(gè)用云計(jì)算集成幾十億終端、和幾乎所有人類信息和數(shù)據(jù)以及幾十億的網(wǎng)民行為和智慧的開(kāi)放復(fù)雜的海量系統(tǒng),從而帶來(lái)從信息到知識(shí)的技術(shù)革命.錢學(xué)森的研究將對(duì)人類的思想、科學(xué)和技術(shù)作出偉大的貢獻(xiàn).

[1] 錢學(xué)森.關(guān)于思維科學(xué)[M].上海:上海人民出版社,1986.

[2] 尹紅風(fēng),戴汝為.論思維及模擬智能[J].計(jì)算機(jī)研究與發(fā)展,1990(4):1-16.

[3] 尹紅風(fēng),戴汝為.一種聯(lián)想記憶模型及附加節(jié)點(diǎn)方法[J].計(jì)算機(jī)學(xué)報(bào),1990,13(5):331-340.

[4] 錢學(xué)森.致戴汝為——1989年5月14日[M]//涂元季.錢學(xué)森書信(4).北京:國(guó)防工業(yè)出版社,2010: 484-487.

[5] 錢學(xué)森.致戴汝為——1989年8月24日[M]//涂元季.錢學(xué)森書信(5).北京:國(guó)防工業(yè)出版社,2010: 23-26.

[6] 錢學(xué)森,于景元,戴汝為.一個(gè)科學(xué)新領(lǐng)域——開(kāi)放的復(fù)雜巨系統(tǒng)及其方法論[J].自然雜志,1990(1): 1-10.

[7] 戴汝為.錢學(xué)森論大成智慧工程[J].中國(guó)工程科學(xué), 2001,3(2):14-20.

[8] 戴汝為,尹紅風(fēng).從思維科學(xué)到知識(shí)技術(shù)革命[N].科學(xué)時(shí)報(bào),2009-12-29(A2).

猜你喜歡
錢學(xué)森海量知識(shí)庫(kù)
錢學(xué)森
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
錢學(xué)森之答
做人與處世(2022年2期)2022-05-26 22:34:53
錢學(xué)森:四菜一湯就挺好
海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
一個(gè)圖形所蘊(yùn)含的“海量”巧題
高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
錢學(xué)森
基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
圖書館研究(2015年5期)2015-12-07 04:05:48
石门县| 开远市| 青海省| 航空| 读书| 潢川县| 宁河县| 若尔盖县| 洪湖市| 墨竹工卡县| 拉萨市| 三河市| 肇庆市| 托克逊县| 康平县| 潞城市| 靖安县| 咸宁市| 奉节县| 资中县| 防城港市| 蒙山县| 临朐县| 河津市| 彝良县| 周宁县| 彰化市| 蒙山县| 进贤县| 藁城市| 汶上县| 临洮县| 松滋市| 车致| 洪江市| 元江| 农安县| 拜泉县| 宝丰县| 宁陵县| 嫩江县|