編譯 思羽
杰夫·迪恩(Jeff Dean)是谷歌公司的人工智能項(xiàng)目負(fù)責(zé)人,他與《美國科學(xué)家》(American Scientist)主編費(fèi)內(nèi)拉·桑德斯(Fenella Saunders)對談,討論了當(dāng)前人工智能研究所面臨的若干重大進(jìn)展和擔(dān)憂,以及這種局面會如何影響人類社會。
機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)取得許多進(jìn)展,你認(rèn)為其發(fā)展方向在哪?
我們已經(jīng)在深度學(xué)習(xí)方面取得重要進(jìn)展。深度學(xué)習(xí)本質(zhì)上是人工神經(jīng)網(wǎng)絡(luò)的重塑。人工神經(jīng)網(wǎng)絡(luò)已經(jīng)出現(xiàn)三四十年,作為從相關(guān)的輸入和輸出信息中進(jìn)行抽象學(xué)習(xí)的方式。但現(xiàn)在證明,深度學(xué)習(xí)可用于計(jì)算機(jī)視覺、語音識別、語言理解和語言翻譯領(lǐng)域中的各種問題。
現(xiàn)在,依靠機(jī)器學(xué)習(xí),我們突然之間能攻克設(shè)計(jì)和工程領(lǐng)域的許多重大挑戰(zhàn)。諸如“我們?nèi)绾巫屓藗兊尼t(yī)療保健更好?”或者“我們?nèi)绾伟l(fā)展或重建都市的基礎(chǔ)設(shè)施?”的問題是機(jī)器學(xué)習(xí)能夠解答的。例如,在重新思考應(yīng)當(dāng)如何設(shè)計(jì)城市時(shí),自動駕駛車輛將會是重要的考慮因素,因?yàn)樽詣玉{駛車輛與我們現(xiàn)在駕駛的車輛截然不同。
機(jī)器學(xué)習(xí)建立在這樣模型上,即向計(jì)算機(jī)展示許多實(shí)例,直到計(jì)算機(jī)明白其中的關(guān)聯(lián)?,F(xiàn)在還有其他學(xué)習(xí)機(jī)制嗎?
各種最為成功的機(jī)器學(xué)習(xí)都是這種形式的:收集你感興趣的輸入和輸出信息,形成大型數(shù)據(jù)集。數(shù)據(jù)集也許是許多圖片,每張圖片上標(biāo)示著“這是卡車”“這是鴿子”“這是一種猴子”。通過暴露在許多這樣的實(shí)例下,系統(tǒng)就能學(xué)會歸納一張全新的圖片。現(xiàn)在它可以說“哎,那張圖片也是卡車”。這個(gè)過程被稱為監(jiān)督式機(jī)器學(xué)習(xí)。
然而,其他類型的機(jī)器學(xué)習(xí)方法也在取得重大進(jìn)展。在一項(xiàng)被稱為強(qiáng)化學(xué)習(xí)的技術(shù)中,你可以實(shí)施一組行動,每一步你試圖預(yù)測:什么行動最合理。在行動過程中,你開始明白你采取的那組行動是好還是壞。
如何使數(shù)據(jù)集和算法不易受到無意識偏差(unconscious bias)的影響?
機(jī)器學(xué)習(xí)算法中的偏差是個(gè)大問題,我們需要意識到這個(gè)問題。關(guān)于我們?nèi)绾巫屵@些系統(tǒng)以自動方式減少偏差的問題是非?;钴S的研究領(lǐng)域。問題之一是:有時(shí)候訓(xùn)練使用的數(shù)據(jù)本身具有偏差。
或你已經(jīng)收集到一組數(shù)據(jù)集,但它不匹配你訓(xùn)練模型的數(shù)據(jù)分布。比如說,假如你以北美婚禮的照片來訓(xùn)練模型,然后開始試圖識別印度婚禮,數(shù)據(jù)集的分布和你可能看到的圖像是迥然不同的。所以,對于你關(guān)注的問題,收集到具有正確分布性質(zhì)的數(shù)據(jù)集是機(jī)器學(xué)習(xí)的重要技巧。
還有一項(xiàng)技術(shù)是讓你能從算法層面調(diào)整機(jī)器學(xué)習(xí)模型,達(dá)到所需的結(jié)果。譬如說,當(dāng)所有其他條件相同時(shí),你希望這兩組實(shí)例擁有獲得某種結(jié)果的相同概率。這樣就能采用在訓(xùn)練時(shí)具有偏差的模型,從算法層面調(diào)整它的結(jié)果,使得它的偏差變小。
在機(jī)器學(xué)習(xí)的時(shí)代,你對隱私有什么見解?
當(dāng)民眾利用許多新式在線服務(wù)時(shí),他們生成了如何使用那些服務(wù)的許多數(shù)據(jù)。商業(yè)公司常常利用這些數(shù)據(jù)來改善服務(wù),比如通過理解“人們觀看這類視頻時(shí),也許對那類視頻也感興趣”的現(xiàn)象改善服務(wù)?;蛘?,當(dāng)用戶誤輸入這個(gè)單詞、接著又糾正單詞時(shí),我們也許能學(xué)習(xí)到一種拼寫糾正機(jī)制。
我相信,對于是否收集那些數(shù)據(jù),民眾應(yīng)該有控制權(quán);假如用戶同意收集數(shù)據(jù),他們也應(yīng)該有刪除數(shù)據(jù)的能力。而且數(shù)據(jù)的刪除應(yīng)該及時(shí)生效,像人們更新他們的機(jī)器學(xué)習(xí)系統(tǒng)一樣快捷。
機(jī)器學(xué)習(xí)有沒有方法幫助人類突破樊籠?
我認(rèn)為:在算法上存在這樣的機(jī)遇,即促進(jìn)用戶接觸事物的多樣性。這肯定是我們在產(chǎn)品層面上思考的東西,我們想讓用戶接觸到一些讓他們思維激蕩的信息,而不是接觸完全符合他們當(dāng)前思維的東西。
盡管機(jī)器現(xiàn)在可以自我訓(xùn)練,但機(jī)器學(xué)習(xí)程序仍然是人類創(chuàng)造的。你是否強(qiáng)調(diào)團(tuán)隊(duì)成員背景和文化的多樣性,借此確保團(tuán)隊(duì)能誕生更強(qiáng)健的研究?
是的,絕對是這樣。計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)正在全球范圍創(chuàng)造出有趣的新產(chǎn)品與應(yīng)用,它們在影響幾十億人。于是,你會希望那些服務(wù)由使用它們的廣泛人群所創(chuàng)造。對我來說,重要的是我們要在全球范圍尋找有才華的人,他們有各種各樣的背景,幫助創(chuàng)造出新的機(jī)器學(xué)習(xí)算法、新的研究手段、新的產(chǎn)品。
我希望,研究人員和背景的多樣性能有助于機(jī)器學(xué)習(xí)和計(jì)算領(lǐng)域。