邢鴻飛/編譯
●科學(xué)家和出版商就使用機器查閱科研論文的許可產(chǎn)生分歧。
要是那些把守信息的人們能給科學(xué)家們自由,那么未來就會是基于計算機的研究時代。研究者們過去一年一直在苦苦抱怨,出版商不允許他們使用電腦程序下載或者瀏覽科研文章的文本,這一方法即是文本挖掘,可在研究中呈現(xiàn)范圍較大的整體模式。
出版商們擔(dān)心文章內(nèi)容可能會被任意重組,因此一般會屏蔽他們發(fā)現(xiàn)到的瀏覽全文的程序,對那些付費使用者也不例外。他們只就具體個例,給予那些對協(xié)議條款讓步的人使用許可。目前,歐盟委員會和出版社聯(lián)盟正準(zhǔn)備制定更明細(xì)的條款。但是上個月,有人向歐盟一個正在討論文本和信息挖掘相關(guān)內(nèi)容的小組投訴,這表明持不同意見者仍然為數(shù)不少。
去年九月,在布魯塞爾知識產(chǎn)權(quán)峰會上,歐盟委員會副主席尼利·克羅斯(Neelie Kroes)曾表示:“要是我們不再像現(xiàn)在這樣進行法律限制,信息和文本挖掘技術(shù)是通向下一次醫(yī)學(xué)重大突破的關(guān)鍵?!?/p>
將基因與研究論文相關(guān)聯(lián)?!拔谋荆蚪M”項目從大約三百萬份研究論文中找到DNA序列,創(chuàng)建了一個在線的基因組圖,圖中每個區(qū)域都與相關(guān)論文鏈接(go.nature.com/iupijx)。
繪制大腦譜圖?!吧窠?jīng)合成(NeuroSynth)”項目從大約4 400篇科研論文中提取出大腦掃描數(shù)據(jù),使用者可以將人腦部的不同位置與相關(guān)研究術(shù)語和研究主題相鏈接(neurosynth.org)。
化學(xué)數(shù)據(jù)。SureChem成果頗豐,擁有從約2 000萬項專利中獲取的有關(guān)分子研究的可用數(shù)據(jù)(surechem.com)。
新藥研發(fā)。研究者們從MEDLINE(聯(lián)機醫(yī)學(xué)文獻分析和檢索系統(tǒng))數(shù)據(jù)庫中的2 000多萬篇文章中免費搜索摘要,并發(fā)現(xiàn)E-cadherin(一種細(xì)胞黏附分子)和帕金森癥之間某種間接關(guān)聯(lián)(go.nature.com/fsv4az)。
出版商們表示,到目前為止,要求獲許挖掘文本的研究者寥寥無幾。盡管如此,據(jù)位于阿姆斯特丹的Elsevier出版公司說,2012年,機器人在整個網(wǎng)絡(luò)平臺上瀏覽其ScienceDirect網(wǎng)站的流量占總流量的百分之四,幾乎是2011年的兩倍。無論這些項目有任何意圖,這一數(shù)據(jù)表明,除了人類,現(xiàn)在越來越多的機器開始瀏覽相關(guān)的文章。
康涅狄格州瑞吉菲爾德的Boehringer Ingelheim醫(yī)藥公司的計算生物學(xué)家勞爾·羅德里格斯-埃斯特班(Raul Rodriguez-Esteban)說,他在 2012年處理了160次文本挖掘的查詢。其中有一次,他搜索了超過23 000篇文章后,選出上百個能夠緩解一個多發(fā)性硬化癥的小鼠模型的蛋白質(zhì)。接著,他將其他與之相關(guān)的蛋白質(zhì)草擬了一個網(wǎng)絡(luò),并由此發(fā)現(xiàn)新的潛在藥物靶標(biāo)。學(xué)術(shù)科研工作者垂涎這一技能,但也表示,對相關(guān)使用協(xié)議條款進行協(xié)商需要花上數(shù)月甚至數(shù)年。加利福尼亞州圣克魯斯大學(xué)的馬克斯·霍伊斯勒(Max Haeussler)花了三年的時間才爭取到下載三百萬篇文章的資格,從這些文章中他找到了所需的DNA數(shù)據(jù)來注解一個在線人類基因組圖(見《自然》483,134-135,2012)。
今年晚些時候,英國將允許非商業(yè)化使用文本挖掘,即允許科學(xué)家們挖掘他們付費查詢的任何內(nèi)容。文本挖掘者們希望歐盟委員會也能做到這一點。英國曼徹斯特大學(xué)國家文本挖掘中心的副主任約翰·麥克諾特(John McNaught)說道:“流傳在使用者們中的口號是‘閱讀權(quán)是我自己的權(quán)利’?!?/p>
然而,歐盟今年成立的討論文本和數(shù)據(jù)挖掘的工作小組已經(jīng)飽受爭議。2月4日的會議之后,研究者們和圖書管理者們抱怨該小組只是討論了如何處理文本挖掘的許可,并沒有討論如何給予文本挖掘免除版權(quán)的問題?!斑@將會對文本挖掘技術(shù)的使用制造障礙,并且使得諸多方面進行計算機輔助研究舉步維艱?!边@是他們2月26日寫給克羅斯以及其他三位歐盟委員的信中的一段,委員們并未對此做出任何回應(yīng)。
據(jù)英國巴斯大學(xué)的羅絲·芒瑟 (Ross Mounce)說,3月8日的第二次會晤幾乎沒有能夠?qū)γ庳?zé)條款進行正式討論,羅絲本人正在使用文本挖掘從文獻綜述中選取進化關(guān)系的樹狀結(jié)構(gòu)。歐盟工作小組希望能夠在年底達成相關(guān)結(jié)論。
同樣的問題在美國,情況略微好些。一些律師認(rèn)為,文本挖掘獲得允許的可能性在于“公平使用”權(quán)利,也就是說人們可復(fù)制文本的部分片段。但沒有人能夠肯定,而且很多研究者們擔(dān)心,這樣做會觸及到法律的灰色區(qū)域。
一些出版社表示,不受約束的文本挖掘會給他們的服務(wù)器增加負(fù)擔(dān),因此還需要有協(xié)議來明確說明下載文章的時間和方式。無數(shù)學(xué)術(shù)出版商的非營利合作平臺CrossRef,正在研發(fā)一種系統(tǒng),能夠讓研究者們通過點擊出版商網(wǎng)站上的按鈕接受標(biāo)準(zhǔn)格式的文本挖掘條款。CrossRef平臺的杰夫·比爾德(Geoff Bilder)希望該系統(tǒng)在年底能夠正式推出。
曼徹斯特丹佛的版權(quán)稅計算中心(CCC)與出版社就版權(quán)許可進行合作,他們的努力更加有野心。據(jù)該中心的羅伊·考夫曼(Roy Kaufman)介紹,他們想做中間人,收集各個出版社的相關(guān)條款和內(nèi)容,并將它們收錄進為研究者們開放的網(wǎng)站。目前該中心正就此與包括自然出版集團在內(nèi)的六家出版社,以及一些迫切需要挖掘文獻的醫(yī)藥化學(xué)公司合作。
北卡羅來納州達勒姆的美國國家進化綜合中心的希瑟·比沃華爾(Heather Piwowar)對研究者如何使用信息進行研究,她說,允許像谷歌這樣的大公司瀏覽網(wǎng)絡(luò)內(nèi)容并編入索引,而限制科學(xué)家們這樣做不公平。她在博客中寫道:“谷歌知道它在做什么,而我們這些人卻無法被人信任,這說得過去嗎?我希望不要這樣?!?/p>