嚴梓峻 王志酉 劉慧
上海對外經(jīng)貿(mào)大學(xué),上海 201620
在現(xiàn)今社會中用戶習(xí)慣通過搜索引擎來解決一些生活中的難題,然而很少有人思考搜索引擎所提供的知識在多大程度上是有用的。在本文中,作者將探討這樣一個問題:普通人與搜索引擎的組合是否在某些領(lǐng)域,能夠解決一定程度上的難題?換言之,作者希望了解不具備完整領(lǐng)域知識的普通人在擁有搜索引擎工具后,其在某些特定任務(wù)中能力可以在何等程度上接近一個領(lǐng)域?qū)<业乃疁?。作者將用“可用度”來描述通過搜索引擎獲得的專業(yè)知識在解決實際問題時的可用性。
本項目研究的結(jié)果將對問答系統(tǒng)的發(fā)展起到積極作用。基于全自動的問答系統(tǒng)(如AnswerBus、維基百科)目前尚只能回答簡單的問題,對于復(fù)雜具體的問題就捉襟見肘。而對基于社會化網(wǎng)絡(luò)的問答系統(tǒng)[1](如百度知道、騰訊問問、Quora等)而言,其中許多問答者并非精通專業(yè)知識,結(jié)果也未必理想。那么,是否可以通過搜索引擎的幫助,根據(jù)人的常識來選取搜索引擎的結(jié)果、找到解決方案?這也就是本文研究的背景之一。
作者將采用類似于圖靈測試的方法來比較專家和擁有搜索引擎的普通人在完成特定領(lǐng)域任務(wù)上的差距。采取此方法原因有二,一是受到了圖靈測試的啟發(fā),作者認為通過人的智能與電腦的大信息量結(jié)合,通過人的判斷,就能較為高效地解決大量問題,甚至超過部分領(lǐng)域的專家;二是通過圖靈測試中的實驗方法,可以更好得控制變量,提高實驗結(jié)論結(jié)果的準確性,并且具有可操作性。
本文結(jié)構(gòu)如下:在第二節(jié)作者將介紹圖靈測試的基本情況,然后在第三節(jié)作者介紹本文提出的“類圖靈測試”的設(shè)計與實現(xiàn),然后在第四節(jié)中作者對于實驗數(shù)據(jù)進行了分析。最后一節(jié)是實驗小結(jié)。
圖靈測試探討機器在什么情況下“擁有人的智能”。圖靈測試是在1950年由著名的“計算機之父”阿蘭·圖靈(Alan Turing)設(shè)計的實驗。具體實施方案是一個人在與被測試者(一個人和一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。問過一些問題后,如果測試人不能確認被測試者的答復(fù)哪個是人、哪個是機器的回答,那么這臺機器就通過了測試,并被認為具有人類智能[2]。在當今世界的圖靈測試比賽中,最佳的談話機器人也很難瞞過人類。也有研究者提出在一個限定的領(lǐng)域或者任務(wù)中來進行圖靈測試[4]。在國內(nèi)也有研究者對這個問題進行研究。陸汝鈐[5]提到過人工智能能達到人類多少程度的問題,但是發(fā)現(xiàn)許多機器永遠不會做到的特質(zhì),像和藹、美麗、創(chuàng)新精神以及幽默感等。
作者設(shè)計的測試方法可以稱之為“類圖靈測試”,整體實驗框架與圖靈測試類似,但是不同的在于其中一組不是計算機,而是“計算機+人”,也就是擁有搜索引擎工具的普通人,而另一組是擁有領(lǐng)域知識的專家。作者通過比較這兩組在完成任務(wù)上的差異來分析搜索引擎的可用度問題。
在實驗階段,作者選擇了英語作為主要研究領(lǐng)域、以分組別完成英語問卷的方式,展開設(shè)計“類圖靈測試”的實驗。
實驗總?cè)藬?shù)即樣本總體約為120人,剔除異常數(shù)據(jù)后(如實驗個體交白卷與全選同一選項)收集到問卷100份。其中分為A、B、C三個組別,A、B兩組實驗人員是來自某校初二學(xué)生,A組允許使用計算機網(wǎng)絡(luò)檢索而B組則不能,C組是專業(yè)組,即來自我校的大二學(xué)生,各個組別中分別隨機抽樣15份作為樣本進行試驗。
表1 實驗人群與數(shù)據(jù)個數(shù)
實驗工具方面,英語問卷難度處于大學(xué)英語專業(yè)六級水平,題目分20題單選題(占50%)以及20空的閱讀題(占50%),滿分為100分。
先選取A、B兩組實驗人員,分發(fā)實驗用英語問卷讓其完成。抽樣統(tǒng)計兩組人員的問答情況得出搜索引擎對于英語能力的提升程度。隨后,我們再取以上A組實驗人群的數(shù)據(jù),將B組人員換成的專業(yè)組C組,給他們做同樣的問卷,收集整理數(shù)據(jù)進行抽樣統(tǒng)計,通過分析正確率和分布情況以及“偽專家”可回答的問題類型做統(tǒng)計。
首先分析總體情況:
設(shè)定業(yè)余組,即未通過搜索,為A組;搜索組,即業(yè)余人員通過搜索引擎參與問卷的為B組;專業(yè)組為C組。調(diào)查結(jié)果的總體分布如下:
圖1 成績的總體分布情況
在均值方面, C組為70.50分,A組與B組數(shù)據(jù)分別為55.67分和72.67分,可得B組的均值為最高、超過專業(yè)組C組均值,其中前者最高分為92.5分、后者最高分達到95分,意味著在搜索引擎的幫助下,業(yè)余組在某領(lǐng)域的解決問能力有可能超過專業(yè)組。
圖2 均值分析情況
橫向分析方差,C組為215.36,A組和B組的數(shù)據(jù)分別為188.27和267.38,比較A組和B組,搜索引擎幫助下的非專業(yè)測試者雖然總體提高,但成績方差較小。根據(jù)結(jié)果推測造成這種結(jié)果的原因在于業(yè)余組的實驗人群對于搜索引擎利用能力方面水平不一,造成成績上的提升也不相同,這表示,在人與搜索引擎合作中,并沒有專業(yè)組穩(wěn)定,對于網(wǎng)絡(luò)信息篩選與渠道選擇有較大影響。
作者縱向比較,研究數(shù)據(jù)中各樣本的分布情況。標記區(qū)間1為≥85、區(qū)間2為75~85、區(qū)間3為60~75、區(qū)間4為45~60、區(qū)間5為<45,分別得到下列數(shù)據(jù)。
專業(yè)組的分數(shù)分布從區(qū)間1到5分別為17%、29%、37%、13%、4%,A組數(shù)據(jù):7%、13%、20%、40%、20%,B組數(shù)據(jù):40%、13%、34%、13%、0%。專業(yè)組分數(shù)主要處于60~75分段、75~85分段占大部分,業(yè)余組搜索前分數(shù)處于45~60分段,圖形曲線都接近正態(tài)分布,而B組搜索后分數(shù)竟然達到85及以上分段,分布巔峰高于專業(yè)組,顯示在搜索引擎的幫助下,業(yè)余人員在高分段人數(shù)上超過了較專業(yè)人員、但兩者的總體平均水平相近。
圖3 總體分數(shù)分布情況
進一步分項比較單選和閱讀的錯誤率狀況分布。由于都是20題,標記錯題0~4個、5~8個、9~12個、13~16個、17~20個分別為區(qū)間1、區(qū)間2、區(qū)間3、區(qū)間4、區(qū)間5。單選方面,區(qū)間1到區(qū)間5業(yè)余組A錯題數(shù)分布為:0%、20%、40%、33%、7%,業(yè)余組B錯題數(shù)分布為:20%、46%、27%、7%、0%,查看其趨勢,分數(shù)分布提升了一個分段,意味著搜索引擎能對此類題目的正確率有顯著提高。
圖4 兩業(yè)余組的單選錯題數(shù)分布對比
在閱讀方面,區(qū)間1到區(qū)間5業(yè)余組A錯題數(shù)分布為:0%、6%、63%、25%、6%,業(yè)余組B錯題數(shù)分布為:26%、27%、27%、20%、0%,查看其趨勢,分數(shù)從主高錯誤數(shù)(9~12個錯誤)變得更平均,提升不如單選顯著。
圖5 兩業(yè)余組的閱讀錯題數(shù)分布對比
就結(jié)果而言我們推斷:首先由于選擇題的題干較短,只需搜索出相關(guān)的知識點或生詞就能夠很好地解決問題;而閱讀題的信息量較大、生詞和詞組之間的聯(lián)系較為緊密,所以即便是知道解釋,也難以從整體上去理解、進而得出正確答案,其次來說,在語言學(xué)方面,對于段落語義的理解,知識層面更深奧,難以通過單詞拼接完成整篇文章的主體把握,需要專業(yè)知識與經(jīng)驗融入理解,才能更好地解決難題。
根據(jù)以上結(jié)果,作者得到以下推斷:
1)就總體而言,借助因特網(wǎng),普通人解決問題的能力(就英語學(xué)習(xí)方面)的水平是完全可以達到甚至超越專業(yè)人員的水平的。
2)就個體而言,鑒于檢索與篩選能力的參差不齊,不同的個人之間借助因特網(wǎng)解決問題的能力水平有較大的差異。
3)因特網(wǎng)或者搜索引擎對普通人解決問題能力水平的提升作用,在更簡單理性的問題上更顯著,相比之下更復(fù)雜感性、更需要個人理解的實際問題上提升的作用不那么明顯。
本文中作者研究了非專業(yè)人員在有與沒有計算機網(wǎng)絡(luò)的幫助下解決同一問題的能力以及前后的差別,然后將上述兩者得到的實驗數(shù)據(jù)同時與專業(yè)人員的數(shù)據(jù)進行比對。通過各方面分析,作者發(fā)現(xiàn)計算機網(wǎng)絡(luò)對于非專業(yè)人員而言計算機網(wǎng)絡(luò)能夠顯著地提高其解決問題的能力。除此之外,這樣的“普通人+計算機網(wǎng)絡(luò)”的組合在一定條件下,相比專業(yè)人員更能勝任對于專業(yè)領(lǐng)域知識的工作。
本文研究的課題也有一些局限性。本實驗只對英語這一專業(yè)進行了研究,樣本容量還是不夠大,問卷的相對難度、題量的把握還有待商榷,得出的結(jié)論只能是淺層次的。在下一步工作中,作者還考慮引入第四組人群,即精通信息檢索專業(yè)的實驗人群,得出數(shù)據(jù)再與專業(yè)組人群進行比對。同時,作者還會將本文中所提及的“專業(yè)領(lǐng)域”的范圍進行擴大,進一步針對計算機專業(yè)、數(shù)學(xué)專業(yè)、經(jīng)濟學(xué)專業(yè)等等其他專業(yè)進行研究。
[1]Gazan R.Social Q&A[J].Journal of the American Society for Information Science and Technology, 2011, 62(12): 2301-2312.
[2]Turing A M.Computing machinery and intelligence[J].Mind, 1950,59(236): 433-460.
[3]Results Loebner Prize 2012 [EB/OL], http://loebner.net/Prizef/2012Contest/Scoring-2012.html
[4]Feigenbaum E A.Some challenges and grand challenges for computational intelligence[J].Journal of the ACM (JACM), 2003, 50(1): 32-40.
[5]陸汝鈐,韋梓楚,張松懋等.圖靈測試——機器是否有智能[J].創(chuàng)新科技, 2008, 12: 034.