国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文本和數(shù)據(jù)挖掘技術(shù)(TDM)與著作權(quán)保護(hù)

2018-05-30 08:33:37楊博宇
職工法律天地 2018年8期
關(guān)鍵詞:數(shù)據(jù)挖掘文本過程

楊博宇 余 萍

(611130 西南財經(jīng)大學(xué) 四川 成都)

一、TDM的定義

TDM,Text and Data Ming,也被稱做Content Mining,是一種基于計算機數(shù)據(jù)處理技術(shù)對數(shù)字化的數(shù)據(jù)進(jìn)行處理并提取隱含信息的過程。學(xué)界中對于其定義有諸多討論。

1.我國學(xué)者定義

郝文江(2007)認(rèn)為,文本和數(shù)據(jù)挖掘(TDM),是指通過運用自動分析技術(shù)對現(xiàn)有的文本和數(shù)據(jù)進(jìn)行考察分析,以便從中發(fā)現(xiàn)某種模型、趨勢或其他有用信息。化柏林(2008)認(rèn)為,數(shù)據(jù)挖掘是指從大量的、不完全的、模糊的、隨機的應(yīng)用數(shù)據(jù)中,提取隱含在其中的但又是潛在有用的信息和知識的過程。宋海艷、邵承瑾等(2014)認(rèn)為數(shù)據(jù)挖掘只是知識發(fā)現(xiàn)階段即從數(shù)據(jù)集中提取信息階段的一個關(guān)鍵環(huán)節(jié),整個知識發(fā)現(xiàn)階段應(yīng)當(dāng)包括數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘階段以及結(jié)果解釋與評價階段。

2.國際上典型的定義

更為明確的定義可以在英國知識產(chǎn)權(quán)辦公室(UK IPO)2012年針對TDM做的一項影響分析中找到,“文本和數(shù)據(jù)以及數(shù)據(jù)分析方法是從現(xiàn)有的電子信息中提取數(shù)據(jù),建立新的事實和關(guān)系,以從先前的研究中建立新的科學(xué)發(fā)現(xiàn)。這種方式包括復(fù)制已完成的工作成果,作為提取數(shù)據(jù)過程的一部分?!眹H科學(xué)、技術(shù)和醫(yī)學(xué)出版商協(xié)會(STM)認(rèn)為,“文本和數(shù)據(jù)挖掘意味著對發(fā)布者的內(nèi)容進(jìn)行廣泛的自動化的搜索,其包括對語言結(jié)構(gòu)的排序、分析、增補或刪除以及選擇和包含,常在行業(yè)索引或者數(shù)據(jù)庫中用于分類或識別關(guān)系?!?/p>

Jean-Paul Triaille et al (2014)的報告中將TDM稱做數(shù)據(jù)分析(Data Analysis,DA),認(rèn)為這是一種對于數(shù)字材料的自動化處理,包括文本、數(shù)據(jù)、聲音、圖像或其他元素,或這些元素的組合,以便發(fā)現(xiàn)新的知識或見解。這個過程有四個特點:①具有自動性:是電腦對于選擇的電子數(shù)據(jù)進(jìn)行自動獲取的過程(他們認(rèn)為正是這種區(qū)別于人為選擇的技術(shù)性特征使得TDM功能強大且引發(fā)了新的版權(quán)問題);②數(shù)據(jù)經(jīng)過處理:包括提取、復(fù)制、比較、分類以及其他數(shù)據(jù)分析過程;③對象是數(shù)字化材料,包括文本、數(shù)據(jù)、圖片及其他元素;④是為了發(fā)現(xiàn)新知識或啟示。

由上可知,生活中我們所進(jìn)行的數(shù)據(jù)檢索工作、數(shù)據(jù)庫使用過程,數(shù)字圖書館館藏圖書閱讀等操作,都是在TDM或DA的基礎(chǔ)上,對我們所選擇的數(shù)據(jù)進(jìn)行處理后所呈現(xiàn)的成果。

二、TDM的應(yīng)用和價值

當(dāng)前,TDM技術(shù)在多個領(lǐng)域都展現(xiàn)出極強的實用價值。出版研究聯(lián)盟針對期刊文本挖掘技術(shù)適用的一項調(diào)查(2016)表明,文本和數(shù)據(jù)挖掘技術(shù)正在被人們所認(rèn)知和接受,人們普遍認(rèn)為該技術(shù)能夠?qū)γ恳粋€領(lǐng)域的研究人員產(chǎn)生積極的作用。李鋼(2016)提出,在商業(yè)領(lǐng)域,商家解決信息不對稱問題的傳統(tǒng)方式是依賴統(tǒng)計數(shù)據(jù)推測消費者偏好,而文本挖掘通過自然語言分析使商家能夠直接了解消費者對產(chǎn)品的喜好,并對其市場策略做出相應(yīng)的調(diào)整。孟慶良、展俊平(2014)在一項醫(yī)學(xué)研究中運用TDM技術(shù),得出結(jié)論,認(rèn)為TDM技術(shù)能夠為中西醫(yī)結(jié)合研究提供更直觀的展示,為中醫(yī)臨床研究提供有益參考,更好地指導(dǎo)服務(wù)于臨床。郭金龍、許鑫(2012)從TDM在數(shù)字人文研究中的典型應(yīng)用出發(fā),指出TDM技術(shù)的發(fā)展將對創(chuàng)新人文科學(xué)的研究方法和研究范式產(chǎn)生深遠(yuǎn)的影響。

綜上而言,TDM技術(shù)可以被視為廣義上的一種利用“大數(shù)據(jù)”的網(wǎng)絡(luò)背景,對現(xiàn)有的電子化文本和數(shù)據(jù)進(jìn)行挖掘,處理并提煉出有用信息的過程,其具有知識發(fā)現(xiàn)、運用廣泛、商業(yè)潛力巨大的特點。

三、TDM與著作權(quán)保護(hù)的沖突

全球研究界每年將產(chǎn)生150多萬篇新的學(xué)術(shù)文章,這些文章以及其他類似文學(xué)、技術(shù)、科學(xué)作品經(jīng)過發(fā)表和數(shù)據(jù)化處理之后,就形成了一個極為龐大的全球性的文獻(xiàn)數(shù)據(jù)庫。由于訪問限制等原因,文章的數(shù)據(jù)會被分類儲存到不同的載體或者電子館藏圖書館中。但是TDM技術(shù)在一定程度上可以突破訪問壁壘,在將所能提取到的數(shù)據(jù)整合后,呈獻(xiàn)給訪問者一種可視化的數(shù)據(jù)分析后的成果。其結(jié)果可能是根據(jù)關(guān)鍵詞導(dǎo)出的段落化的文獻(xiàn),根據(jù)信息搜索出的碎片化的數(shù)據(jù)信息,或者根據(jù)圖片分類檢索功能產(chǎn)生的圖片映像等形式。

大致來說,TDM的應(yīng)用過程可以分為大致幾個階段:

(1)數(shù)據(jù)源的獲?。簩⑺枰膬?nèi)容從外部來源或內(nèi)部自有數(shù)據(jù)中提取出來,該內(nèi)容可能是受到版權(quán)保護(hù)或者是數(shù)據(jù)庫通過一定的技術(shù)手段進(jìn)行防護(hù)的;

(2)轉(zhuǎn)化內(nèi)容:必要時,將提取出的內(nèi)容轉(zhuǎn)化為所需要的形式;

(3)加載內(nèi)容:將需要的內(nèi)容加載到數(shù)據(jù)集、存儲庫或者內(nèi)容集合中;

(4)數(shù)據(jù)分析:對內(nèi)容數(shù)據(jù)進(jìn)行挖掘并分析;

(5)成果展現(xiàn):通過分析產(chǎn)生挖掘后的結(jié)果。

在這五個階段之中,無論是對于數(shù)據(jù)的獲取或者轉(zhuǎn)化、復(fù)制、重新加載以及分析,都會在一定程度上觸碰到法律的邊界。

I.Hargreaves (2011)在其研究中肯定了TDM的價值,認(rèn)為對學(xué)術(shù)文獻(xiàn)和其他數(shù)字化的文本進(jìn)行挖掘和分析為新知識的發(fā)展和創(chuàng)新提供了一個真正的機會。但Dr. Diane McDonald & Ursula Kelly(2012)指出,為了“被挖掘”,上述數(shù)據(jù)必須被訪問、復(fù)制、分析、注釋并與現(xiàn)存的信息和理解所關(guān)聯(lián),這在一定程度上,侵犯了出版商的利益。

對于這樣一種使用價值巨大、前景良好的技術(shù)來說,其還需要克服一些法律法規(guī)上的壁壘,尤其是在數(shù)據(jù)處理過程中所發(fā)生的,對數(shù)據(jù)進(jìn)行復(fù)制、分析、破解時的自主技術(shù)性操作和著作權(quán)法中為了保護(hù)版權(quán)所賦予權(quán)利人的權(quán)利價值之間,所產(chǎn)生的實踐價值和法律價值的沖突選擇。

四、數(shù)據(jù)的定義和分級

首先,我國著作權(quán)法應(yīng)當(dāng)在法律層面,對“數(shù)據(jù)”下一個符合使用目的的定義?,F(xiàn)行《著作權(quán)法》第五條規(guī)定了我國的版權(quán)客體排除規(guī)則,參照美國通過版權(quán)客體排除規(guī)則解決大數(shù)據(jù)產(chǎn)業(yè)排除困境的現(xiàn)行做法,我國或許可以將“數(shù)據(jù)”納入公有領(lǐng)域范疇,成為版權(quán)保護(hù)的例外性規(guī)定。

其次,既然TDM是針對電子化的文本和數(shù)據(jù)進(jìn)行挖掘的技術(shù),則法律應(yīng)當(dāng)從技術(shù)的本源出發(fā),對其所挖掘的客觀對象——數(shù)據(jù),進(jìn)行分級。

例如,有學(xué)者在將數(shù)據(jù)的獲取和展示分成了四個級別:

級別 種類完全公開 網(wǎng)絡(luò)數(shù)據(jù)多方對多方 社交媒體數(shù)據(jù)一方對多方 合同/出版商數(shù)據(jù)單方對單方 保密數(shù)據(jù)

針對不同級別的數(shù)據(jù),使用者需要不同程度的相應(yīng)授權(quán)。授權(quán)內(nèi)容應(yīng)當(dāng)包括使用的目的、使用的形式、使用的時間等基本的合同性約定。而在處理不同層次的數(shù)據(jù)時,數(shù)據(jù)處理者所承擔(dān)的責(zé)任也應(yīng)當(dāng)是有所區(qū)分的。

鑒于歐盟并未對TDM的具體使用模式作出限定,現(xiàn)有的主流立法模式主要有美國采取的“無條件例外”的合理使用模式和英國“版權(quán)例外”的模式。

許可方式的選擇實際上是一種對于傳統(tǒng)版權(quán)產(chǎn)業(yè)與新興大數(shù)據(jù)產(chǎn)業(yè)之間如何激勵取舍的制度安排問題。李國慶(2016)在審視了谷歌圖書案之后提出,我國的合理使用制度應(yīng)當(dāng):①以版權(quán)法目的——信息共享作為價值訴求;②為實現(xiàn)合理使用的價值訴求,合理使用制度應(yīng)當(dāng)具有一定的靈活性。

美國采取的“無條件例外”的“合理使用”許可模式并未對TDM技術(shù)的使用對象進(jìn)行限定,英國的特殊性版權(quán)例外許可允許任何非權(quán)利人按照規(guī)定模式使用,僅歐盟的《草案》將TDM的適用對象限定在研究機構(gòu)之上。

筆者認(rèn)為限制技術(shù)的使用對象是不適宜的?,F(xiàn)行的TDM技術(shù)的提供者和使用者主要集中在數(shù)據(jù)庫、數(shù)字型圖書館、搜索平臺等以研究機構(gòu)、高校、公司等集體性組織之上,普通大眾暫時只作為TDM技術(shù)的成果接收方和獲益者參與其中。作為成果第三方,普通人應(yīng)當(dāng)不與TDM技術(shù)提供方就TDM操作過程中可能存在的侵權(quán)事宜承擔(dān)連帶責(zé)任。但在獲取由TDM技術(shù)提供后的信息之后,新知識的再創(chuàng)建過程例如科學(xué)研究中利用所獲取的數(shù)據(jù)實驗得出研究成果,經(jīng)濟(jì)學(xué)家通過搜索到的經(jīng)濟(jì)數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)進(jìn)行重新編排制作觀察報告的過程可能涉及到對原始數(shù)據(jù)的再編排過程,該行為是否違反《著作權(quán)法》還有待討論。因而,現(xiàn)行立法過程中不應(yīng)該對技術(shù)的適用對象進(jìn)行限制。

[1]郝文江.基于數(shù)據(jù)挖掘技術(shù)對公安犯罪分析的改進(jìn).吉林公安高等??茖W(xué)院學(xué)報,2007年第3期,第112頁.

[2]化柏林.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)關(guān)系探析[J].情報理論與實踐 ,2008(4).

[3]宋海艷,邵承瑾,顧立平,張東榮,潘衛(wèi),黃文麗,蔣麗麗,陳天天,張浩.我國科研人員對機構(gòu)知識庫認(rèn)知與使用的現(xiàn)狀調(diào)查與分析[J].現(xiàn)代圖書情報技術(shù),2014,8-16.

[4]李鋼.大數(shù)據(jù)時代文本挖掘的版權(quán)例外[J],圖書館工作與研究,2016,1(3),28-31.

[5]袁軍鵬,朱東華,李毅,李連宏,黃進(jìn).文本挖掘技術(shù)研究進(jìn)展[J].計算機應(yīng)用研究,2006,23(2),1-4.

[6]UK IPO, An impact assessment for the introduction of the‘exception for coping of works for use by text and data analytics.’[7]The International Association of Scientific, Technical and Medical Publishers.

[8]STM, Text and Data Mining Sample Subscription,2012.

[9]Jean-Paul Triaille, Jér?me de Mee?s d’Argenteuil & Amélie de Francquan, Study on the Legal Framework of text and data mining(TDM),2014.

[10]Text Mining of Journal Literature 2016, Commissioned by Publishing Research Consortium.

[11]孟慶良,展俊平,郭會卿,郭洪濤,鄭光,呂愛平,姜淼.基于文本挖掘技術(shù)析甲氨蝶呤與中醫(yī)治療聯(lián)合應(yīng)用的規(guī)律[J].中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2014.

[12]郭金龍,許鑫.數(shù)字人文中的文本挖掘研究[J].大學(xué)圖書館學(xué)報,2012,30(3),11-18.

[13]M.Ware & M.Mabe, The stm report: An overview of scientific and scholar journal publishing,2009.

[14]李國慶.谷歌圖書館案The Authors Guild, Inc. v Google, Inc.判決述評——以合理使用制度為視角[J].中國版權(quán),2016.

猜你喜歡
數(shù)據(jù)挖掘文本過程
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
描寫具體 再現(xiàn)過程
臨終是個怎樣的過程
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
在這個學(xué)習(xí)的過程中收獲最大的是哪些,為什么?
Coco薇(2015年12期)2015-12-10 03:54:58
圓滿的過程
互助| 龙海市| 鄂温| 六盘水市| 霍城县| 错那县| 永丰县| 秦皇岛市| 汕头市| 和平区| 庆安县| 仲巴县| 乌兰察布市| 巴南区| 黄大仙区| 鄢陵县| 麻城市| 渑池县| 呼和浩特市| 牡丹江市| 宝坻区| 伊吾县| 沐川县| 吴川市| 永丰县| 绥中县| 平利县| 常德市| 阜平县| 怀化市| 临汾市| 汉寿县| 杂多县| 林西县| 黎川县| 通化县| 利川市| 高尔夫| 灵武市| 宣威市| 六盘水市|