李露
12歲女孩造出機(jī)器人畫家
無人控制的“水彩機(jī)器人”!能用滑竿固定的畫筆蘸取不同的顏料,還能對照電腦屏幕上的原畫(雄獅)進(jìn)行臨?。∵@“水彩機(jī)器人”有條不紊地先畫獅頭,后畫獅身,最后再細(xì)致地點(diǎn)描雄獅的鬃毛。不到五分鐘,一頭氣宇軒昂,悠然散步的雄獅便躍然紙上!
那是2013年11月,某次午飯后我在UCSD(美國加州大學(xué)圣地亞哥分校)校園中散步,被計(jì)算機(jī)樓外的這款“水彩機(jī)器人”深深吸引。當(dāng)時我粗略估計(jì),創(chuàng)作這款“水彩機(jī)器人”至少運(yùn)用了大學(xué)課堂中機(jī)械學(xué)、電子工程學(xué)、計(jì)算機(jī)學(xué)、物理學(xué)等學(xué)科的知識。首先,制作者需要在電腦上用Linux操作系統(tǒng)編寫軟件程序,使之能夠從網(wǎng)絡(luò)、電腦文件夾中任意調(diào)用想繪制的畫作。其次,一條帶有USB插口的數(shù)據(jù)線將電腦與集成好的硬件電路模塊Eibotboard相連,電腦上抽象的圖像信息就轉(zhuǎn)化成了硬件命令。Eibotboard模塊簡稱EBB,它是一個5cmx5cm的小型單片機(jī),專門用于控制步進(jìn)電機(jī)的機(jī)械運(yùn)動。步進(jìn)電機(jī)(stepper motor)是一個利用電磁效應(yīng)帶動其中齒輪轉(zhuǎn)動的動滑輪。從它的英文名稱來看,不就暗示著這是個執(zhí)行一步一步機(jī)械動作的小型機(jī)器嗎?這正好完全符合我們繪圖時畫筆的機(jī)械操作呀!我們在繪畫時,不論勾勒還是染色,不也是分為不同的步驟嗎?每一次蘸取相應(yīng)的顏料,在畫紙上輕點(diǎn)或重抹。因此,步進(jìn)電機(jī)在接收到來自EBB的指令后,帶動用繩線鏈接的交叉的滑竿。綁定在垂直滑竿上的畫筆就在每一個時間單位,在圖紙上相應(yīng)的二維坐標(biāo)點(diǎn)處描畫指令中要求的圖案與顏色。
在我驚嘆于這款設(shè)計(jì)精妙的“水彩機(jī)器人”時,設(shè)計(jì)者正好從樓中出來設(shè)置下一幅待繪的圖畫。設(shè)計(jì)者是一個名叫Sylvia Todd(西爾維婭·托德)的12歲美國小女孩。她在2013年8月創(chuàng)作出這款發(fā)明后,便受到了美國很多媒體的關(guān)注。此時她正在UCSD的校園里講解、展示她的作品呢!我情不自禁詢問尚未踏入大學(xué)校園的她,如何能將許多專業(yè)的學(xué)科理論應(yīng)用到實(shí)際,實(shí)現(xiàn)自己新奇的想法呢?她說,網(wǎng)絡(luò)上有那么多學(xué)習(xí)資源,不懂的就學(xué)唄!比如一開始對于編寫機(jī)器人的程序無從下手,可以在網(wǎng)絡(luò)上找到很多相似應(yīng)用的開源代碼。從模仿到創(chuàng)造,一邊學(xué)習(xí)一邊進(jìn)步,遇到困難可以向網(wǎng)友求助,與不認(rèn)識的人在線探討、解決共同的技術(shù)難題,這是一個快樂的過程!西爾維婭無形中利用了互聯(lián)網(wǎng)時代的無限的數(shù)據(jù)資源,巧妙地融合了各個學(xué)科的知識,發(fā)明出為自己繪畫的新“畫家”。
互聯(lián)網(wǎng)爆炸式發(fā)展的當(dāng)下,我們大學(xué)生的學(xué)習(xí)途徑從課本、圖書館拓寬到了網(wǎng)絡(luò)平臺。對于大數(shù)據(jù)的有效利用,甚至可以將我們所學(xué)的不同學(xué)科的知識進(jìn)行融合,創(chuàng)作出新的發(fā)明發(fā)現(xiàn)。我在UCSD交流學(xué)習(xí)期間,對此感觸頗深。
游戲設(shè)備與醫(yī)學(xué)難題
西爾維婭利用看起來毫不相干的學(xué)科知識實(shí)現(xiàn)了她的娛樂發(fā)明,我卻利用一項(xiàng)娛樂產(chǎn)品拓展了其在醫(yī)療上的應(yīng)用。整個2013年暑假,我都在UCSD視頻處理實(shí)驗(yàn)室(Video Processing Lab)進(jìn)行科學(xué)研究。當(dāng)時UCSD電子電腦工程學(xué)院(Electrical and Computer Engineering Department)的副主任,也是該實(shí)驗(yàn)室的主任,Professor Truong Nguyen(阮·紐彥教授)分配給我的一個交叉學(xué)科的科研項(xiàng)目,是利用視覺技術(shù)鑒別帕金森疾病。
剛剛接到研究任務(wù),我苦思冥想,覺得直接利用普通攝像機(jī)拍攝病人再分析圖像、設(shè)計(jì)模式識別的算法,工程量太過龐大。我家里有微軟公司發(fā)行的體感游戲設(shè)備KINECT XBOX,功能之一就是能夠鑒別玩家的舞蹈動作,為何不借助它現(xiàn)有的技術(shù)輔助我的科研項(xiàng)目呢?于是我找到了微軟官方網(wǎng)站提供的KINECT的兩個程序包OpenNi+Nite.2和Windows SDK,研究它提供的部分開源代碼。鉆研過程中,我驚喜地發(fā)現(xiàn)我逐漸揭開了這款游戲設(shè)備背后神秘的技術(shù)面紗。
為什么游戲玩家在KINECT的攝像頭前做出任意的動作,KIENCT都好像記在“心”里,并且能跟屏幕上標(biāo)準(zhǔn)的舞蹈動作相比較,看看匹配的程度有多高,以此打分呢?又為什么游戲玩家揮手指示“開啟”、“關(guān)閉”等命令,KINECT就聰明地理解了指令,打開新的菜單欄或關(guān)閉當(dāng)前的游戲項(xiàng)目?原來,KINECT的軟件系統(tǒng)中,有圖像處理、模式識別的算法。它先通過深度攝像機(jī)提取出游戲玩家的深度圖像數(shù)據(jù)輪廓。一個圖像有基本的彩色數(shù)據(jù),我們稱之為標(biāo)準(zhǔn)RGB圖像,比如我們看到的由紅、綠、藍(lán)三原色組成的五顏六色的海報、照片。圖像的深度數(shù)據(jù)則僅僅含有攝像頭與物體之間的距離信息。KINECT提取的玩家的深度圖像僅有單原色比如藍(lán)色。但是用戶身體各個部位距離攝像頭有細(xì)微的空間差異,所以我們看到的是一個大致的輪廓剪影,剪影中的淺藍(lán)、深藍(lán)反映了身體不同部位和攝像頭之間的距離。接下來,經(jīng)過圖像去噪等預(yù)處理步驟,不必要的干擾被去除,KINECT估計(jì)出由剪影代表的玩家頭部、肩膀、脊椎、臀部、膝蓋、手腳等關(guān)鍵點(diǎn)的位置。那就是人體骨架!
半個月后,我提取出了含有15個身體關(guān)節(jié)點(diǎn)的人體骨架。盡管圖像的輪廓看起來十分粗糙,提取出的骨架的部分人體關(guān)節(jié)點(diǎn)隨時間的運(yùn)動并不穩(wěn)定,但我在攝像頭前較為緩慢地做出一些基本動作,如抬腿、抬腳、大步小步走、轉(zhuǎn)身等等,軟件系統(tǒng)仍能識別出來。我把這一初步結(jié)果展示給自己的教授,他十分欣喜,帶著我一同去參加和醫(yī)學(xué)博士、運(yùn)動學(xué)專家、生物醫(yī)學(xué)系的教授們的組會。但是在組會上,幾乎所有的專家都堅(jiān)持研究接觸式的傳感技術(shù)。這情有可原,因?yàn)槿缃衩绹渌芯繖C(jī)構(gòu)都在使用該技術(shù)鑒別、治療運(yùn)動類醫(yī)學(xué)疾病。該技術(shù)的主要思想是讓病人在身體的某些部位戴上或安裝不同的傳感器,病人在進(jìn)行身體活動時,這些傳感器便將檢測到的行為通過數(shù)據(jù)線輸送到電腦,電腦再進(jìn)行后續(xù)分析。但是,這種成本十分高昂,按照醫(yī)學(xué)博士的話說“說真的,我可不想再在一個病人身上安裝一百個傳感器了!”鑒別一個病人的病癥就需要如此復(fù)雜、高額的方法,所以想要在美國各大醫(yī)院大規(guī)模低成本地鑒別帕金森綜合癥可能性極低。這也是我們這個交叉學(xué)科項(xiàng)目組想尋求技術(shù)突破的地方。
在那次組會上,我甚至都沒來得及展示自己階段性的成果,骨架識別帕金森疾病的科研方向就被打入冷宮。我還清楚地記得當(dāng)時其他人都離開了會議室,我還一個人孤單地坐在轉(zhuǎn)椅上,心情十分低落。
但是我并沒有放棄自己選擇的研究方向,我只想進(jìn)一步論證我的想法,希望在一個半月后下一次正式會議時說服大家,確定下全組“利用視覺技術(shù)鑒別帕金森疾病”的大體科研方向。我自己的力量如此渺小,一個半月的研究時間并不寬裕,我如何能同時實(shí)現(xiàn)科研上的進(jìn)展以及一鳴驚人的科研展示效果?我發(fā)現(xiàn)當(dāng)前的問題在于,首先我提取出的骨架在手肘、膝蓋、腳踝等位置的關(guān)節(jié)點(diǎn)并不十分穩(wěn)定,尤其當(dāng)用戶做快速運(yùn)動的時候;其次,我只展示出了深度圖像的人體骨架。
UCSD圖書館內(nèi)自然藏有不少關(guān)于圖像處理、模式識別的經(jīng)典書籍。我在從頭學(xué)起的同時,卻發(fā)現(xiàn)所接觸的知識太過寬泛,對我當(dāng)前科研項(xiàng)目的針對性并不強(qiáng)。UCSD早已為學(xué)生購買了IEEE Xplore等免費(fèi)的數(shù)據(jù)庫,國內(nèi)也有最大的程序員平臺CSDN,為什么不加以利用?于是我經(jīng)過精確的搜索,找到了專門研究人體步態(tài)識別、帕金森疾病的行為癥狀以及KINECT工作原理的專業(yè)論文。
仔細(xì)閱讀后,受益良多。對于帕金森綜合癥,我著眼于抖動(Tremor)、運(yùn)動緩慢(Bradykinesia)、僵硬(Rigidity)、身體失衡(Postural Instability)等四個最為顯著的行為癥狀。從模式識別中人體行為研究的分支出發(fā),結(jié)合KINECT的硬件構(gòu)造、識別算法,我重點(diǎn)研究了關(guān)節(jié)點(diǎn)處抖動平滑處理方法。也就是在每一個關(guān)節(jié)點(diǎn)都設(shè)置一個微小的活動半徑。用戶在運(yùn)動時,關(guān)節(jié)點(diǎn)也在運(yùn)動。如果這個關(guān)節(jié)點(diǎn)的運(yùn)動處在這個預(yù)估半徑之內(nèi),那么把它“拉回”該預(yù)估圓的圓心;如果關(guān)節(jié)點(diǎn)超出了半徑范圍,則視為新的點(diǎn),說明該關(guān)節(jié)在做一個新的、甚至大幅度的運(yùn)動。并且,我從KINECT深度攝像機(jī)和彩色RGB攝像機(jī)中,分別提取了深度圖像數(shù)據(jù)流和彩色圖像數(shù)據(jù)流,希望人體骨架可以在兩種數(shù)據(jù)流中顯示。
正式組會前的一周,我終于提取出了更為完善、穩(wěn)定,增加了腳踝、手腕、臀部中心這5個點(diǎn)的20個點(diǎn)的人體骨架,并且可以讓人體骨架分別顯示在深度圖像和RGB標(biāo)準(zhǔn)(紅、綠、藍(lán)色彩模式)圖像里面!這樣一來,展示效果更加清晰、貼近生活。在這一過程中,我甚至鉆研出通過膚色匹配、曲率比較等方法大體實(shí)現(xiàn)部分肢體如手、腳的識別。
科研目標(biāo)完成,剩下一周時間,我便潛心準(zhǔn)備報告展示技巧的訓(xùn)練。擅長演講的美國白人小伙伴們向我推薦了加州大學(xué)系統(tǒng)的一系列網(wǎng)絡(luò)演講訓(xùn)練資源,曾經(jīng)一起在CSDN程序員論壇上探討過技術(shù)難題、卻遠(yuǎn)在美國東部上學(xué)的朋友甚至幫助我改進(jìn)了報告的PPT。在這一周,借助YouTube上TED的視頻資源、加州大學(xué)系統(tǒng)數(shù)據(jù)庫中關(guān)于口語提升的資源,我克服了自己作為一個剛到美國半年的中國學(xué)生的膽怯,努力地適應(yīng)、學(xué)習(xí)了白人“包裝”的技術(shù),提高了自己的語言展示能力。
最終,在正式的組會上,短短的十分鐘內(nèi),我自信、高效、清晰、準(zhǔn)確地做了我的科研成果報告,并且現(xiàn)場試驗(yàn)了骨架檢測的效果。UCSD運(yùn)動紊亂研究中心(Movement Disorder Center)的主任Irene Litvan博士和步態(tài)實(shí)驗(yàn)室(EPARC LAB)的主任David Wing十分驚喜,直呼:“That's definitely beautiful and efficient?。ㄟ@真是漂亮又高效!)”也就是在這次組會后,我們?nèi)M最終確定下了視覺技術(shù)鑒別帕金森疾病的大致科研方向。我的實(shí)驗(yàn)室導(dǎo)師還給我買了一臺筆記本電腦作為獎勵,實(shí)驗(yàn)室的博士師兄們告訴我,這還從來沒有過!導(dǎo)師和Litvan博士鼓勵我主筆項(xiàng)目經(jīng)費(fèi)申請書,向美國醫(yī)療健康研究資金委員會(Health Science Research Grant Committee)申請項(xiàng)目資金。
可以說,我通過自己的努力讓堅(jiān)持的想法變成了現(xiàn)實(shí)。但是在這過程中,我清楚這并不是完完全全靠我一個人的努力。如果我不聯(lián)想到游戲設(shè)備KINECT在生物醫(yī)療上的潛在應(yīng)用,也許我會漫無目的而喪失明確的科研切入點(diǎn);如果我不懂得利用現(xiàn)有的數(shù)據(jù)庫、專業(yè)論壇,只是一個人天天在實(shí)驗(yàn)室里悶頭搗鼓,也許我的進(jìn)展會十分緩慢甚至鉆入錯誤的牛角尖,人也變得更加灰心;如果我沒有借助優(yōu)秀的網(wǎng)絡(luò)平臺,提升我的英文科研表達(dá)能力,即使我有實(shí)際的科研成果也不能將它良好地展示出來。我清楚地意識到,把觀點(diǎn)執(zhí)行成現(xiàn)實(shí),甚至讓不了解你的美國專家尊重并接受你的觀點(diǎn),需要堅(jiān)持、勇敢、獨(dú)立、勤奮,更離不開日新月異的大數(shù)據(jù)資源,它讓我明白了我永遠(yuǎn)不是一個人在奮斗。
美國方言原來可以這樣解讀
我在UCSD學(xué)習(xí)專業(yè)課程、進(jìn)行視覺技術(shù)研究的同時,也沒有放棄對人文學(xué)科的關(guān)注。在秋季學(xué)期快結(jié)束時聽了一個語言學(xué)研究者利用Twitter研究美國方言分布的報告,感覺十分有趣。
UCSD語言學(xué)院的語言學(xué)博士Gabriel Doyle(加布里埃爾·多伊爾),對美國方言的地區(qū)分布及地域傳播進(jìn)行了長時間的研究。即使是美國的標(biāo)準(zhǔn)語言美式英語,在不同的地域和不同時期都有特定的說法。他目前的研究方向,是借助社交媒體上來自美國各個區(qū)域的人們的表達(dá)方式,利用數(shù)據(jù)庫自動地繪制出方言隨時間、地域變化的分布圖。通過實(shí)地考察、文字記錄變化等舊的人工方法需要3~5年才能繪制出粗略的方言分布圖。而他巧妙地利用Twitter上用戶的個人地域信息及他們的推文建立了龐大的數(shù)據(jù)庫,并對同一個詞語的不同方言進(jìn)行了分類總結(jié),用時極短。舉個例子,“你們”這一稱呼在美國是常用語,出現(xiàn)在了大量用戶的推文中,Gabriel用了五天時間借助電腦搜索、統(tǒng)計(jì)軟件的搜集、整理分類,發(fā)現(xiàn)美國北部的人傾向于說“You guys”,中部的居民會說“You”,而南部的居民則大多說“Y'all”。三種方言出現(xiàn)的數(shù)量、頻率被以數(shù)據(jù)形式保存在Gabriel的數(shù)據(jù)庫中,并轉(zhuǎn)化成密度分布圖。Gabriel把自己的這一發(fā)現(xiàn)同傳統(tǒng)的研究數(shù)據(jù)進(jìn)行對比,發(fā)現(xiàn)相似度高達(dá)80%,自己的新圖更呈現(xiàn)了舊圖不具備的近年來的方言地域傳播和變化趨勢。
另一個例子是“高速公路”,最普遍的用詞是“Highways”,這一說法貫穿美國東西各大洲。美國西南地區(qū)的人們則傾向于說“Freeways”,而加利福尼亞州北部地區(qū)的學(xué)生則有另一個特別的稱呼“Hella”。這是Gabriel通過Twitter獲取的方言研究的一個新發(fā)現(xiàn)。這一以精確詳細(xì)的密度圖表呈現(xiàn)的發(fā)現(xiàn)和語言學(xué)相關(guān)的報道完全吻合!他的這項(xiàng)借助Twitter研究美國方言分布的新科研方向,在UCSD的大數(shù)據(jù)研究中心進(jìn)行了展示。
更加廣泛的應(yīng)用又何止方言?Gabriel還嘗試了利用Twitter進(jìn)行了美國地域降雨量的估計(jì)。他匯集了一段時間內(nèi)Twitter用戶推文中關(guān)于“雨”的信息,也許是用戶對于雨量的客觀描述、幾句抱怨或期待。他也將數(shù)據(jù)結(jié)果呈現(xiàn)在一張地域分布圖上面,這和雷達(dá)所獲取的精確信息在誤差范圍的允許內(nèi)吻合。不過在研究的過程中,他還是發(fā)現(xiàn)了利用大數(shù)據(jù)平臺進(jìn)行相關(guān)研究的問題。首先,他只能獲得Twitter使用頻繁地區(qū)的有效數(shù)據(jù),例如互聯(lián)網(wǎng)普及的大城市。對于Twitter用戶很少的欠發(fā)達(dá)地區(qū)則缺乏有效數(shù)據(jù)。另一個問題是在獲得的原數(shù)據(jù)推文的處理上面,Gabriel使用了現(xiàn)有的高斯函數(shù)消除誤差,但這一定是最準(zhǔn)確的糾正函數(shù)嗎?他期待著更加完備的數(shù)據(jù)處理函數(shù)出現(xiàn),消除不必要的信息以及錯誤數(shù)據(jù)。
Gabriel的展示會場,觀眾頻頻發(fā)出會心的笑聲。也許大家都和我一樣,覺得自己看似毫無重要信息的推文,和千百萬用戶的推文匯聚到一起,竟然“創(chuàng)作”了這樣新奇有趣的科研工作吧!
責(zé)任編輯:張婷