国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于新聞信息抽取的人文社科非正式科學(xué)交流研究

2018-09-20 10:34王曉笛李廣建
圖書與情報(bào) 2018年2期

王曉笛 李廣建

摘 要:科學(xué)交流研究,是情報(bào)學(xué)長期關(guān)注的研究主題,其中非正式科學(xué)交流尤其是線下的交流活動(dòng)作為一種重要的信息交流方式,但長期以來由于受到數(shù)據(jù)的限制一直不能進(jìn)行大規(guī)模的研究。文章通過探索學(xué)術(shù)新聞中對(duì)于非正式科學(xué)交流活動(dòng)的記錄,將活動(dòng)拆解為參與者、時(shí)間、地點(diǎn)、事件類型、報(bào)告題目、觀點(diǎn)等元素,并對(duì)這些元素在新聞中的文本特征做了分析。研究證明利用信息新聞抽取,可以實(shí)現(xiàn)對(duì)非正式科學(xué)交流事件的了解,并可以以此為基礎(chǔ)研究線下非正式科學(xué)交流的某些特征和規(guī)律。

關(guān)鍵詞:非正式科學(xué)交流;信息抽取;人文社科

中圖分類號(hào):G250.2 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.11968/tsyqb.1003-6938.2018024

Research on the Informal Scientific Communication of the Humanities and Social Sciences Based on the Extraction of News Information

Abstract Scientific communication is a hot research topic in information science. Informal communication, especially those happened in real life is an important type of communication. However, there is no large scale study on this topic due to a lack of data. In this study we explore how these activities has been described in academic news and split a piece of news into participants, time, place, event, report title and opinion. We studied the patterns of how these elements are phrased. Based on these knowledge we use a program to implement a process which enables us to extract 160,312 communication activities from news crawled using Bing API and an expert list. Then we carried out a general analysis and a case study.

Key words informal scientific communication; information extraction; humanities and social sciences

1 引言

科學(xué)自誕生以來就伴隨著科學(xué)知識(shí)的傳播,從古希臘時(shí)期的口口相傳,到近代以牛頓等科學(xué)家為代表的歐洲科學(xué)研究開始出現(xiàn)了相對(duì)正式的文字科學(xué)交流。進(jìn)入20世紀(jì)后,隨著《科學(xué)革命的結(jié)構(gòu)》《無形學(xué)院——知識(shí)在科學(xué)共同體的擴(kuò)散》等專著的出版,科學(xué)共同體的互動(dòng)以及知識(shí)的交流作為一種特殊的交流形式開始得到研究者的關(guān)注,該研究在情報(bào)學(xué)領(lǐng)域被稱為科學(xué)交流研究,是情報(bào)學(xué)長期關(guān)注的研究主題。前蘇聯(lián)著名情報(bào)學(xué)家米哈依諾夫?qū)⒖茖W(xué)信息交流分為“正式交流過程”和“非正式交流過程”。正式交流過程指發(fā)生在科學(xué)信息生產(chǎn)者和科學(xué)信息消費(fèi)者借助于科技文獻(xiàn)進(jìn)行科學(xué)信息交流的過程;非正式交流過程指的是信息生產(chǎn)者與利用者之間直接進(jìn)行交流的過程,這種交流通常是口頭進(jìn)行的,一般的交流場(chǎng)景包括面對(duì)面交談、電話會(huì)議、邀請(qǐng)或訪問型現(xiàn)場(chǎng)講座等。來自拉夫堡大學(xué)的Brittain[1]對(duì)非正式科學(xué)交流的比例做了研究,估計(jì)在整個(gè)研究和學(xué)術(shù)環(huán)境中,非正式科學(xué)交流所占比重在50%到80%之間,而在社會(huì)科學(xué)的實(shí)際應(yīng)用、管理以及教學(xué)領(lǐng)域,非正式交流的比重甚至更高;Kraut等[2]的研究指出,非正式交流在組織交流形式中占有支配性地位。然而,從總體上看,當(dāng)前對(duì)于非正式交流的研究依然較少,且數(shù)據(jù)規(guī)模都較小[3]。一個(gè)重要原因是難以獲得相關(guān)數(shù)據(jù),因此無法開展大規(guī)模研究[3]。Brittain[1]的研究表明,較小的研究規(guī)模對(duì)于從整體上理解非正式科學(xué)交流活動(dòng)能起到的作用很小。

近年來,大數(shù)據(jù)、多源數(shù)據(jù)融合以及人工智能等技術(shù)經(jīng)歷了快速發(fā)展,研究者提出了學(xué)術(shù)大數(shù)據(jù)的概念[4],這為情報(bào)學(xué)研究者利用學(xué)術(shù)大數(shù)據(jù)對(duì)非正式科學(xué)交流進(jìn)行研究提供了數(shù)據(jù)基礎(chǔ)和技術(shù)條件。當(dāng)前已有學(xué)者開始探索利用各種互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行非正式科學(xué)交流的研究。如張立偉等[5]利用科學(xué)網(wǎng)中的博客數(shù)據(jù)對(duì)網(wǎng)絡(luò)空間中科學(xué)家的非正式科學(xué)交流研究,識(shí)別了交流的主要推動(dòng)力、交流的時(shí)間特征和主要內(nèi)容等;鄒儒楠和于建榮[6]利用小木蟲論壇數(shù)據(jù),從社會(huì)網(wǎng)絡(luò)分析的角度研究了非正式科學(xué)交流中知識(shí)轉(zhuǎn)移的問題;劉乙蓉[7]使用微博數(shù)據(jù),對(duì)圖書情報(bào)領(lǐng)域相關(guān)專家的交流網(wǎng)絡(luò)以及交流內(nèi)容做了研究。此外,還有研究者[8]利用諸如Github等平臺(tái)的數(shù)據(jù)對(duì)虛擬社區(qū)創(chuàng)新知識(shí)傳播進(jìn)行研究。然而,從科學(xué)交流所發(fā)生的空間來看,上述研究均關(guān)注的是網(wǎng)絡(luò)空間中的科學(xué)交流,正如方卿[9]所指出的,網(wǎng)絡(luò)中的科學(xué)交流定位于“點(diǎn)對(duì)點(diǎn)”的個(gè)人交流。然而,在非網(wǎng)絡(luò)環(huán)境下,即線下非正式科學(xué)交流依然存在,典型的活動(dòng)包括邀請(qǐng)?jiān)L問、學(xué)術(shù)會(huì)議、專家報(bào)告等。盡管并非所有的科學(xué)交流活動(dòng)都留有記錄,然而,依然有部分非正式科學(xué)交流以文字等形式被記錄下來。這其中,各種與學(xué)術(shù)相關(guān)的機(jī)構(gòu)的網(wǎng)站作為機(jī)構(gòu)的宣傳組織以新聞的形式就記錄了大量的科學(xué)交流信息。本文旨在通過探索這些與科學(xué)交流相關(guān)的新聞(以下稱為學(xué)術(shù)新聞),并以人文社科類學(xué)術(shù)新聞為主要對(duì)象,抽取其中的非正式科學(xué)交流相關(guān)信息并做分析。

2 新聞中的非正式科學(xué)交流信息

本文關(guān)注的新聞是學(xué)術(shù)新聞,具體指的是新聞中包含有科學(xué)交流活動(dòng)的新聞。這些新聞通常存在于帶有學(xué)術(shù)背景的機(jī)構(gòu)網(wǎng)站,如中國社會(huì)科學(xué)網(wǎng),或者存在于與學(xué)術(shù)專家相關(guān)聯(lián)的機(jī)構(gòu)網(wǎng)站,如北京大學(xué)官網(wǎng)。大量的記錄科學(xué)交流相關(guān)信息的新聞被發(fā)表在專家所在的機(jī)構(gòu)以及專家學(xué)術(shù)交流實(shí)際發(fā)生的機(jī)構(gòu)。專家所在的機(jī)構(gòu)通常是高等院?;蜓芯克?,學(xué)術(shù)交流實(shí)際發(fā)生的機(jī)構(gòu)指的是專家訪問、交流、報(bào)告、授課的機(jī)構(gòu),如高等院校、研究所以及各級(jí)政府和企事業(yè)單位等。

2.1 學(xué)術(shù)新聞的基本要素

新聞指的是對(duì)于有記錄價(jià)值的事件的記載。根據(jù)著名的新聞寫作“5W+1H”模式,一般可以將新聞所記錄的信息分解為事件(What)、事件的參與者或關(guān)聯(lián)者(Who)、事件的相關(guān)時(shí)間(When)、事件的相關(guān)地點(diǎn)(Where)、事件的起因(Why)以及事件的經(jīng)過(How)。從新聞的寫作風(fēng)格上看,可以將新聞分為概括新聞和敘述新聞[10]。概括新聞追求簡潔的寫作風(fēng)格,力求交代清楚時(shí)間、地點(diǎn)、人物、事件,與之相比,敘述新聞對(duì)事件的起因、經(jīng)過和發(fā)展記錄更為詳細(xì)。

學(xué)術(shù)新聞作為新聞的一種,同樣具備新聞的上述元素。通過對(duì)各機(jī)構(gòu)所刊載的學(xué)術(shù)新聞進(jìn)行調(diào)研,本文認(rèn)為學(xué)術(shù)新聞屬于概括新聞。學(xué)術(shù)新聞通常以極為簡潔的風(fēng)格記錄與學(xué)術(shù)相關(guān)的學(xué)者(Who)、時(shí)間(When)、地點(diǎn)(Where)等信息,如某專家(Who)在某年某月(When)來到某機(jī)構(gòu)(Where)做了報(bào)告(What)。除此以外,許多新聞中會(huì)簡要的記錄事件發(fā)生的經(jīng)過(How),如專家在講座這個(gè)事件中會(huì)先辨析概念,然后分析現(xiàn)狀,最后給出自己的判斷等。此外,部分新聞也會(huì)交代發(fā)生的原因(Why),如某專家是受某機(jī)構(gòu)邀請(qǐng)才安排了某次講座。

2.2 科學(xué)交流新聞中的非正式科學(xué)交流活動(dòng)

為了從學(xué)術(shù)新聞中進(jìn)行信息抽取,本文首先對(duì)非正式科學(xué)交流加以界定。根據(jù)米哈伊洛夫?qū)τ谡浇涣鬟^程和非正式交流過程的區(qū)分,本文所指的非正式交流是由有學(xué)科或?qū)W術(shù)背景的信息生產(chǎn)者或消費(fèi)者參與的,除正式出版物交流以外的所有科學(xué)交流。而根據(jù)交流是否依賴互聯(lián)網(wǎng)可以將非正式交流進(jìn)一步分為線上的非正式交流和線下的非正式交流。這里主要關(guān)注線下非正式交流。從交流的形式上看,線下非正式科學(xué)交流既包括知識(shí)型交流和非知識(shí)型交流。知識(shí)型交流包括講座、授課、研討、答辯等學(xué)術(shù)知識(shí)交流形式,也包括致辭、致謝等非學(xué)術(shù)型知識(shí)交流形式。非知識(shí)型交流則包括了接待、頒獎(jiǎng)、授牌、主持等由學(xué)者參與的與科學(xué)研究相關(guān)的其他活動(dòng)。

在非正式科學(xué)交流的研究中,學(xué)者會(huì)關(guān)注非正式科學(xué)交流是以什么形式進(jìn)行的[1-2,11,15],交流的主要內(nèi)容是什么[6-7],交流是在什么地點(diǎn)和環(huán)境下進(jìn)行的[2,12-13],交流的頻率如何以及持續(xù)的時(shí)間[2-3],還有非正式交流的參與者有哪些特征以及參與者之間的關(guān)系等[2,14,16]。由此可以發(fā)現(xiàn),非正式科學(xué)交流研究所關(guān)注的信息涵蓋了非正式科學(xué)交流活動(dòng)的各個(gè)方面,而科學(xué)新聞中記載了大量關(guān)于非正式科學(xué)交流活動(dòng)的信息。具體地說,從學(xué)術(shù)新聞元素的角度看,時(shí)間元素可以用來研究科學(xué)交流的頻率等,地點(diǎn)元素可以用來研究科學(xué)交流是在什么樣的地點(diǎn)進(jìn)行以及這些交流各自有什么特點(diǎn),人物元素則可以用來研究科學(xué)交流的參與者,包括參與者的機(jī)構(gòu)、稱謂等特征,事件元素作為一個(gè)整體性描述可以用來研究科學(xué)交流的形式,而具體的原因和經(jīng)過則可以用來研究科學(xué)交流的內(nèi)容和其他細(xì)節(jié)。

本文以一則中國社會(huì)科學(xué)院學(xué)部委員長黃長著教授在上海大學(xué)圖情檔系作學(xué)術(shù)報(bào)告的新聞[17]為例(見圖1)。該新聞?dòng)涊d的是2015年10月發(fā)生在上海大學(xué)的學(xué)術(shù)報(bào)告形式的一次非正式科學(xué)交流活動(dòng),該活動(dòng)的參與者(Who)主要包括黃長著、金波等。新聞不但記錄了報(bào)告的題目和交流的具體內(nèi)容。同時(shí)也記錄了整個(gè)交流活動(dòng)中每個(gè)人物的具體參與情況,如黃長著是受邀的報(bào)告者,而金波是活動(dòng)主持人,此外還有其他未具名的參與者包括圖情檔系老師、全體研究生等。

通過對(duì)大量學(xué)術(shù)新聞進(jìn)行分析,結(jié)合現(xiàn)有非正式科學(xué)交流的研究關(guān)注點(diǎn),本文對(duì)學(xué)術(shù)新聞中的與非正式科學(xué)交流相關(guān)的基本元素進(jìn)行了界定(見圖 2)?!笆录保淳唧w的交流活動(dòng),由于學(xué)術(shù)新聞通常都是圍繞一次事件展開的,因此本文假設(shè)一篇新聞只記錄一次非正式科學(xué)交流事件。交流活動(dòng)中的其他所有元素都是對(duì)事件的描述,是構(gòu)成事件的一部分?!皡⑴c者”指的是參與非正式交流事件的所有人物,參與者除了“姓名”以外,也包括人物的“機(jī)構(gòu)”和“稱謂”等修飾元素。“時(shí)間”和“地點(diǎn)”具體指新聞中或元數(shù)據(jù)中記錄的事件發(fā)生或記錄的時(shí)間和地點(diǎn)。“經(jīng)過”元素是活動(dòng)的具體體現(xiàn),具體包括每個(gè)“參與者”所具體參與的“事件類型”以及每個(gè)參與者的“交流內(nèi)容”,而“交流內(nèi)容”在具體表現(xiàn)形式上包括報(bào)告或講座的“報(bào)告題目”和交流的主要“觀點(diǎn)”。

3 非正式科學(xué)交流信息抽取規(guī)則

為了對(duì)學(xué)術(shù)新聞中的非正式科學(xué)交流元素信息進(jìn)行抽取,本文根據(jù)對(duì)新聞數(shù)據(jù)的研究和分析,制定了相應(yīng)的抽取規(guī)則。

3.1 參與者:姓名、機(jī)構(gòu)、稱謂

在學(xué)術(shù)新聞中,從參與者是否以姓名的形式出現(xiàn)可以將其中的人分為主要參與者和其他參與者,主要參與者包括非正式科學(xué)交流的學(xué)者、官員等,而其他參與者包括院系的教學(xué)人員、學(xué)生以及各種群體。

本文關(guān)注主要參與者,即以姓名的形式出現(xiàn)在新聞中的人。通過分析常見的新聞,可以發(fā)現(xiàn)絕大多數(shù)的參與者在新聞文本中遵循幾種常見模式(見表 1)。本文設(shè)計(jì)如下抽取規(guī)則對(duì)參與者進(jìn)行識(shí)別和抽取,該規(guī)則的主要功能是識(shí)別參與者的姓名、稱謂和機(jī)構(gòu)。

規(guī)則1: 姓名的出現(xiàn)代表一個(gè)參與者,姓名代表參與者的文本范圍。

規(guī)則2: 當(dāng)姓名的后一個(gè)詞或前一個(gè)詞為稱謂,稱謂是姓名所代表參與者的修飾語,將稱謂加入?yún)⑴c者的文本范圍。

規(guī)則3: 當(dāng)參與者的文本范圍前一個(gè)詞為機(jī)構(gòu)或稱謂時(shí),將稱謂或機(jī)構(gòu)加入到參與者的文本范圍,重復(fù)該規(guī)則,直到不再出現(xiàn)機(jī)構(gòu)或稱謂。

在上述規(guī)則的實(shí)現(xiàn)上,姓名和機(jī)構(gòu)使用命名實(shí)體識(shí)別的方法進(jìn)行識(shí)別,稱謂的識(shí)別需要借助人工構(gòu)建的稱謂表。

3.2 時(shí)間

時(shí)間一般出現(xiàn)在兩個(gè)位置,分別是新聞的正文以及新聞網(wǎng)頁的元數(shù)據(jù)。在時(shí)間的表示上,少部分新聞?wù)闹袝?huì)使用XXXX年XX月XX日這樣非常明確的表示方法。但絕大多數(shù)新聞則使用XX月XX日這種無法確定明確年份的表示方法。此外,大多數(shù)新聞也會(huì)使用近日、近期、本月、上月等與新聞發(fā)表時(shí)間與上下文信息極為相關(guān)的表示方法。對(duì)于絕大多數(shù)新聞網(wǎng)頁,一般都包含新聞的發(fā)布日期,這個(gè)發(fā)布日期通常會(huì)滯后于科學(xué)交流活動(dòng)實(shí)際發(fā)生的日期,鑒于正文中日期的缺失現(xiàn)象,因此本文使用新聞的發(fā)布日期作為實(shí)際科學(xué)交流日期的一種替代。時(shí)間的抽取規(guī)則如下:

規(guī)則1: 年份的識(shí)別。當(dāng)出現(xiàn)2或4個(gè)數(shù)字型字符,且數(shù)字范圍在00-99或1900-2099之間,且隨后出現(xiàn)破折號(hào)“-”、斜杠“/”、“年”字時(shí),繼續(xù)規(guī)則2。

規(guī)則2: 月份的識(shí)別。當(dāng)出現(xiàn)1或2個(gè)數(shù)字型字符,且數(shù)字分為在1-9之間或1-12之間,且隨后出現(xiàn)破折號(hào)“-”、斜杠“/”、“月”字時(shí),繼續(xù)規(guī)則3。

規(guī)則3: 日的識(shí)別。當(dāng)出現(xiàn)1或2個(gè)數(shù)字型字符,且數(shù)字分為在1-9之間或1-12之間,且隨后可能出現(xiàn)“日”時(shí),判定為時(shí)間。

3.3 地點(diǎn)

只有少數(shù)新聞會(huì)明確提到實(shí)際發(fā)生的地點(diǎn),絕大多數(shù)新聞?wù)膶?duì)于發(fā)生地點(diǎn)的描述非常模糊。而對(duì)于地點(diǎn),由于高校和政府媒體的特殊性,一般可以通過網(wǎng)頁的標(biāo)題、版權(quán)信息和網(wǎng)址等元數(shù)據(jù)進(jìn)行確定。本研究中具體的地點(diǎn)主要包括高等院校和政府機(jī)構(gòu),兩種機(jī)構(gòu)類型需要使用不同的規(guī)則進(jìn)行抽取。

高等院校由于受到教育部的統(tǒng)一管理,因此可以通過教育部網(wǎng)站獲取幾乎全部的高等院校名單,基于該名單可以直接對(duì)網(wǎng)頁的標(biāo)題、版權(quán)信息等位置進(jìn)行匹配,從而識(shí)別高等院校名稱。

政府機(jī)構(gòu)采用層級(jí)管理,目前沒有公開渠道可以獲取全國所有的政府機(jī)構(gòu)名單。通過分析中央和各級(jí)政府的機(jī)構(gòu)編制網(wǎng),本文制定如下政府機(jī)構(gòu)抽取規(guī)則:

規(guī)則1: 前綴為以中華人民共和國、國家(國家級(jí)機(jī)構(gòu)、部委)和地區(qū)名(地方政府機(jī)關(guān))。

規(guī)則2: 中間關(guān)鍵詞為相應(yīng)的管理范圍或職能范圍關(guān)鍵詞,例如司法、公安、民政、文化等。

規(guī)則3: 以部、廳、局、所、處、人民政府、委員會(huì)、辦公室作為后綴。

3.4 事件類型

事件是一個(gè)相對(duì)復(fù)雜的元素,如果需要對(duì)事件做完整的描述,那么通常需要使用復(fù)雜的句子甚至是段落。根據(jù)金宏奎[18]對(duì)國內(nèi)某高校門戶網(wǎng)站一年內(nèi)刊發(fā)的校內(nèi)自采新聞的研究,新聞中包括的活動(dòng)類型主要是出訪來訪、會(huì)議、慶典儀式、榮譽(yù)通報(bào)、演出比賽、講座以及其他類型。參考該研究的觀點(diǎn),本研究使用事件類型來表示事件。

事件指的是發(fā)生的具體事情,從新聞文本的角度看,其中最重要的文本元素是動(dòng)詞,本文采集大量的新聞文本進(jìn)行統(tǒng)計(jì)分析,通過將所有參與者姓名以及緊隨姓名后的動(dòng)詞進(jìn)行統(tǒng)計(jì)分析,每個(gè)動(dòng)詞抽取10個(gè)例句,然后進(jìn)行人工判別。通過研究采樣的數(shù)據(jù),參考金宏奎的研究結(jié)果,本文將事件類型做進(jìn)一步細(xì)分,列出全部事件類型和所有對(duì)應(yīng)動(dòng)詞,并得到3大類11個(gè)小類(見表 2)。在所列出的11個(gè)小類中,絕大多數(shù)可以通過動(dòng)詞判斷其含義,本文僅就內(nèi)容交流相關(guān)大類下的發(fā)言、交流、報(bào)告做簡要說明?!皟?nèi)容交流”大類指的是發(fā)生了實(shí)質(zhì)的信息交流。其中“報(bào)告”指的是學(xué)術(shù)型講座和報(bào)告,即新聞中明確提到有題目的講座報(bào)告,如“專家做了題為X的報(bào)告”;“發(fā)言”指的是除報(bào)告以外的顯式的信息交流,如“專家在會(huì)上致辭,歡迎大家的到來”;“交流”主要指的新聞中的私下交流,即由提及但是沒有進(jìn)一步記錄的交流,如“專家們?cè)跁?huì)后做了交流”。事件類型的識(shí)別相對(duì)簡單,只需要進(jìn)行動(dòng)詞的匹配即可。

3.5 觀點(diǎn)

在不同的科學(xué)交流中,專家往往會(huì)表達(dá)觀點(diǎn)和意見,而新聞通常會(huì)有選擇性的報(bào)道那些相對(duì)重要的觀點(diǎn)和意見,這些信息可能出現(xiàn)在不同的科學(xué)交流事件類型中。如當(dāng)專家在“報(bào)告”這種事件類型中,可能會(huì)提出針對(duì)某學(xué)術(shù)問題的觀點(diǎn)或看法;專家在致辭或致謝這種發(fā)言式的事件類型中,可能提出針對(duì)某一群體或事件的期望;此外,專家在主持會(huì)議的時(shí)候,可能對(duì)主講專家進(jìn)行接收或者對(duì)講座進(jìn)行點(diǎn)評(píng),本研究將上述類型的信息統(tǒng)稱為觀點(diǎn)。通過對(duì)新聞文本進(jìn)行分析,本研究認(rèn)為,在新聞文本中,絕大多數(shù)觀點(diǎn)都伴隨著一個(gè)與觀點(diǎn)相關(guān)的動(dòng)詞,這些動(dòng)詞是可以通過統(tǒng)計(jì)分析窮舉的,且都遵循兩種模式(見表 3)。

根據(jù)交流內(nèi)容的文本模式,本文制定如下規(guī)則對(duì)觀點(diǎn)進(jìn)行抽?。?/p>

規(guī)則1: 當(dāng)出現(xiàn)參與者且后跟觀點(diǎn)對(duì)應(yīng)的動(dòng)詞關(guān)鍵詞時(shí),則該動(dòng)詞其后的全部內(nèi)容為該參與者的觀點(diǎn)。

規(guī)則2: 當(dāng)出現(xiàn)參與者且后跟觀點(diǎn)對(duì)應(yīng)的動(dòng)詞關(guān)鍵詞和句號(hào)時(shí),則該句的前一句為該參與者的觀點(diǎn)。

3.6 報(bào)告題目

報(bào)告題目一般帶有明確的學(xué)術(shù)主題相關(guān)的信息,因此本文將其獨(dú)立出來形成單獨(dú)的元素。通過分析例句,本研究總結(jié)出報(bào)告題目的句子具有一些典型的特征(見表 4)。

從交流題目的文本模式可以看出,報(bào)告題目通常與固定的動(dòng)詞進(jìn)行搭配且以固定模式的名詞結(jié)尾,通過窮舉所有的動(dòng)詞和名詞結(jié)尾,本研究制定如下規(guī)則對(duì)題目的抽取:

規(guī)則1: 當(dāng)出現(xiàn)參與者且后跟報(bào)告題目對(duì)應(yīng)的動(dòng)詞關(guān)鍵詞時(shí),則句子的剩余部分為報(bào)告題目。

規(guī)則2: 當(dāng)句子的結(jié)尾出現(xiàn)報(bào)告題目所對(duì)應(yīng)的名詞時(shí),需要過濾這些名詞。

4 實(shí)驗(yàn)和結(jié)果分析

基于以上研究,本文對(duì)人文社科領(lǐng)域相關(guān)專家的新聞進(jìn)行非正式科學(xué)交流活動(dòng)信息抽取實(shí)驗(yàn)并對(duì)結(jié)果進(jìn)行分析。

4.1 流程和工具

為了實(shí)現(xiàn)非正式科學(xué)交流信息抽取,本研究設(shè)計(jì)了信息獲取和抽取流程,包括獲取新聞網(wǎng)頁、抽取網(wǎng)頁正文和元數(shù)據(jù)、進(jìn)行自然語言處理、實(shí)現(xiàn)基于規(guī)則的信息抽取(見圖 3)。本研究使用Python 3.6作為信息抽取的主語言。其中正文抽取部分采用Christian Kohlschütter等[19]提出的基于淺層本文特征的自動(dòng)抽取算法。自然語言處理的相關(guān)技術(shù)采用pyltp 1.9.1,其后臺(tái)實(shí)現(xiàn)版本為LTP 3.3.1。

4.2 數(shù)據(jù)獲取

實(shí)驗(yàn)所使用的數(shù)據(jù)分為專家列表和新聞數(shù)據(jù)。本文從國家社科基金項(xiàng)目數(shù)據(jù)庫中選擇立項(xiàng)時(shí)間自2008-2017十年間承擔(dān)過重大項(xiàng)目的1537位項(xiàng)目負(fù)責(zé)人作為專家。根據(jù)專家名單,采用必應(yīng)自定義搜索(Bing Custom Search)API進(jìn)行新聞獲取。在獲取時(shí),將搜索限定在edu.cn和gov.cn域名下。然后為每個(gè)專家構(gòu)建一個(gè)“姓名 所屬機(jī)構(gòu)”檢索式。對(duì)符合條件的網(wǎng)頁進(jìn)行抓取,并得出專家的人均網(wǎng)頁數(shù)量(見表 5)。

4.3 總體分析

通過正文抽取,得到574,040條正文信息。利用本文所提出的方法對(duì)全部新聞進(jìn)行信息抽取,共計(jì)得到與專家相關(guān)的160,312條非正式科學(xué)交流活動(dòng)事件。

4.3.1 事件類型

統(tǒng)計(jì)各種類型非正式科學(xué)交流事件的所占比例(見圖 4)可以發(fā)現(xiàn),會(huì)議是主要的交流事件,緊隨其后的是報(bào)告以及訪問。接待、榮譽(yù)等事件類型較少,這從整體上說明,絕大多數(shù)科學(xué)交流事件帶有顯著的信息交流,而對(duì)于工作、接待、榮譽(yù)類等更偏重形式的交流相對(duì)數(shù)量較少。這也反映了學(xué)術(shù)交流的客觀情況。

4.3.2 人均活動(dòng)情況

本研究根據(jù)專家所屬的學(xué)科,對(duì)每個(gè)學(xué)科做了人均非正式科學(xué)交流事件的統(tǒng)計(jì),并按照人均事件數(shù)量進(jìn)行排序(見圖 5)發(fā)現(xiàn),從非正式科學(xué)交流的人均次數(shù)上看,總體上各學(xué)科的科學(xué)交流數(shù)量基本相似,其中法學(xué)、圖書情報(bào)檔案、教育學(xué)等學(xué)科的交流明顯多于其他學(xué)科。從中也可以看出,與實(shí)踐結(jié)合較為緊密的且偏向社科類的學(xué)科,其交流更加頻繁。

4.3.3 跨校交流

根據(jù)科學(xué)交流活動(dòng)實(shí)際發(fā)生的地點(diǎn)以及科學(xué)交流專家所屬機(jī)構(gòu),利用有向網(wǎng)絡(luò)對(duì)交流最頻繁的100所高校進(jìn)行跨高校交流分析(見圖 6)可以看出,無論是交流活動(dòng)的頻繁程度還是從與之交流的高校數(shù)量上看,985類高校在交流中占據(jù)了絕對(duì)優(yōu)勢(shì)。其中,人文社科相對(duì)較強(qiáng)的北京大學(xué)、人民大學(xué)、武漢大學(xué)、北京師范大學(xué)等在科學(xué)交流中占據(jù)主要地位,清華大學(xué)、復(fù)旦大學(xué)、浙江大學(xué)、南京大學(xué)等綜合型名校也占據(jù)了交流的主要位置,而蘭州大學(xué)、西安交通大學(xué)、廈門大學(xué)、北京理工大學(xué)等在985高校中相對(duì)交流較弱。此外,交流呈現(xiàn)出明顯的地域傾向和學(xué)科背景傾向。從地域上看,河南大學(xué)和鄭州大學(xué)、西藏大學(xué)和西藏民族大學(xué)、廣西師范大學(xué)和廣西民族大學(xué)、西南大學(xué)和西南交通大學(xué)等高校盡管與其他高校的交流較少,但是彼此之間有著緊密的交流關(guān)系。從學(xué)科背景上看,位于網(wǎng)絡(luò)上方的師范類院校、網(wǎng)絡(luò)中部的政法類院校以及位于網(wǎng)絡(luò)下方的財(cái)經(jīng)類院校在各自的交流圈內(nèi)交流也相對(duì)頻繁。

4.3.4 跨地區(qū)交流

通過科學(xué)交流事件實(shí)際發(fā)生的機(jī)構(gòu)可以判斷交流活動(dòng)所在省份,利用有向網(wǎng)絡(luò)對(duì)跨省級(jí)行政單位交流進(jìn)行分析(見圖 7)可以發(fā)現(xiàn),首先,從交流數(shù)量上看,北京作為全國的教育中心在整個(gè)交流中居于最重要位置,廣東、上海、江蘇、浙江、山東等省份盡管交流活動(dòng)的相對(duì)數(shù)量也較多,但遠(yuǎn)不如北京,總體來看,從中國東部到西部,交流的頻繁程度逐漸減弱;其次,從交流的輸入和輸出上看,北京學(xué)者前往其他省份交流遠(yuǎn)多于其他省份學(xué)者來北京交流,這說明北京本地不但能夠吸引大量的非正式科學(xué)交流,同時(shí)由于聚集了大量有影響力的學(xué)者,北京在非正式科學(xué)交流中具有強(qiáng)大的輸出能力。具有類似特點(diǎn)的還包括上海、江蘇、浙江等省份。上述結(jié)論也反映了我國教育發(fā)展相對(duì)不均的現(xiàn)狀。

4.3.5 跨機(jī)構(gòu)類型交流

對(duì)各學(xué)科領(lǐng)域的非正式科學(xué)交流活動(dòng)網(wǎng)頁機(jī)構(gòu)根據(jù)類型分布(見圖 8)分析可以看出,考古學(xué)、體育科學(xué)、宗教學(xué)、法學(xué)等更偏向社會(huì)科學(xué)的學(xué)科與政府機(jī)關(guān)的交流更加頻繁,相反的,文學(xué)、歷史、哲學(xué)等偏人文科學(xué)的學(xué)科絕大多數(shù)交流都發(fā)生在高等院校。如與考古學(xué)、體育科學(xué)、法學(xué)和宗教學(xué)交流最多的政府機(jī)關(guān)中,有大量的政府機(jī)關(guān)帶有相關(guān)學(xué)科的背景,如考古學(xué)與文物局、旅游局等的交流、體育科學(xué)與體育局的交流、法學(xué)與司法相關(guān)部門的交流,以及宗教學(xué)與統(tǒng)一戰(zhàn)線、民宗委等相關(guān)機(jī)構(gòu)的交流。這說明這些學(xué)科專家的觀點(diǎn)可以從一定程度上影響和指導(dǎo)政府機(jī)關(guān)職能部門的管理和政策制定等。

4.4 個(gè)例分析

為了展示信息的抽取效果,本研究以河南大學(xué)文學(xué)院王立群教授為例做案例分析。王立群教授曾做客央視《百家講壇》欄目講解史記,此外還承擔(dān)一些社科重大項(xiàng)目,從多樣性的角度來說有一定代表性。由于數(shù)據(jù)量較大,本研究僅提取王立群教授的報(bào)告活動(dòng)進(jìn)行展示(見表6)。從抽取的題目信息中可以看出,在稱謂上,王立群教授在不同的活動(dòng)中被稱為教授、主講人、著名學(xué)者、導(dǎo)師等,而在交流的機(jī)構(gòu)上,主要包括河南大學(xué)、中央電視臺(tái)等,其交流的機(jī)構(gòu)中有6個(gè)高等院校,剩余22個(gè)全部為政府機(jī)構(gòu)。由此可以,王立群教授的影響力較為廣泛,其研究不但受到高等院校的關(guān)注,同時(shí)還受到各級(jí)政府的歡迎。

再進(jìn)一步對(duì)王立群教授非正式科學(xué)交流的具體內(nèi)容進(jìn)行分析。分析的信息來源包括王立群教授的報(bào)告題目和觀點(diǎn)。為了能夠清晰地展示王立群教授的交流內(nèi)容,本研究首先利用社科領(lǐng)域的關(guān)鍵詞詞表對(duì)上述內(nèi)容進(jìn)行抽取,然后基于關(guān)鍵詞的語義特征構(gòu)建向量,再基于特征向量利用余弦相似度方法計(jì)算關(guān)鍵詞的相似度,最后利用關(guān)鍵詞的相似度構(gòu)建關(guān)鍵詞相似網(wǎng)絡(luò)用于內(nèi)容分析(見圖 9)。從相似網(wǎng)絡(luò)圖可以看出,王立群教授的交流內(nèi)容以人文歷史為主,具體包括宋史(宋太祖、宋太宗)、秦漢史(漢武帝、秦始皇)、中華詩詞(詩人創(chuàng)作、中國詩詞)、歷史文化(中原文化、中國歷史、中華文明)等。此外,圖中較大的節(jié)點(diǎn)包括百家講壇、漢武帝、司馬遷等,這說明王立群教授作為一個(gè)公眾人物被大家所熟知的重要原因是其作為百家講壇的主講人講解史記、宋史等內(nèi)容。

最后,本研究對(duì)王立群教授的交流區(qū)域進(jìn)行分析(見圖10)可以發(fā)現(xiàn),王立群教授的絕大多數(shù)報(bào)告在河南,而其交流較多的省份包括陜西、四川、浙江等,這些省份距離河南相對(duì)較近,這從側(cè)面印證了地理位置對(duì)于非正式科學(xué)交流的重要性;其次,北京作為全國的文化教育中心,是王立群教授除本省之外交流最頻繁的地區(qū);最后,除了西藏、黑龍江等少數(shù)幾個(gè)省級(jí)行政區(qū),王立群教授的交流活動(dòng)遍布全國各地,這與王立群教授同時(shí)作為重大項(xiàng)目首席專家和百家講壇知名主講人的身份是匹配的,充分印證了王立群教授在各界的影響力。

5 結(jié)論

在科學(xué)交流的研究中,非正式科學(xué)交流受到數(shù)據(jù)收集的限制一直無法開展大規(guī)模的研究。為

了解決非正式科學(xué)交流數(shù)據(jù)獲取的問題,本研究在非正式科學(xué)交流的信息抽取方面做了探索,基于網(wǎng)絡(luò)上異質(zhì)化的新聞數(shù)據(jù),對(duì)于學(xué)術(shù)新聞中的非正式科學(xué)交流活動(dòng)做了分析,對(duì)參與者、時(shí)間、地點(diǎn)、事件類型、報(bào)告題目、觀點(diǎn)等元素在新聞中的模式做了分析。由此可以看出,利用信息新聞抽取,可以實(shí)現(xiàn)對(duì)非正式科學(xué)交流事件的了解,并可以此為基礎(chǔ)研究線下非正式科學(xué)交流的某些特征和規(guī)律,這將為我們探索非正式科學(xué)交流提供新的思路和途徑。

參考文獻(xiàn):

[1] Brittain J M.Pitfalls of user research,and some neglected areas[J].Social science information studies,1982,2(3):139-148.

[2] Kraut R E,F(xiàn)ish R S,Root R W,et al.Informal communication in organizations:Form,function,and technology[C].Human reactions to technology:Claremont symposium on applied social psychology,1990:145-199.

[3] Lacy W B,Busch L.Informal scientific communication in the agricultural sciences[J].Information processing & management,1983,19(4):193-202.

[4] Giles C L.Scholarly big data:information extraction and data mining[C].Proceedings of the 22nd ACM international conference on Information & Knowledge Management.ACM,2013:1-2.

[5] 張立偉,陳悅,王智琦,等.互聯(lián)網(wǎng)平臺(tái)下科學(xué)家非正式學(xué)術(shù)交流的探究——基于科學(xué)網(wǎng)博文數(shù)據(jù)的計(jì)量分析[J].情報(bào)學(xué)報(bào),2015,34(7):754-764.

[6] 鄒儒楠,于建榮.數(shù)字時(shí)代非正式學(xué)術(shù)交流特點(diǎn)的社會(huì)網(wǎng)絡(luò)分析——以小木蟲生命科學(xué)論壇為例[J].情報(bào)科學(xué),2015,33(7):81-86.

[7] 劉乙蓉.圖情領(lǐng)域?qū)W者的社會(huì)網(wǎng)絡(luò)關(guān)系與學(xué)術(shù)關(guān)注點(diǎn)[D].武漢:武漢大學(xué),2017.

[8] 葉騰,韓麗川,邢春曉,等.基于復(fù)雜網(wǎng)絡(luò)的虛擬社區(qū)創(chuàng)新知識(shí)傳播機(jī)制研究[J].現(xiàn)代圖書情報(bào)技術(shù),2016(Z1):70-77.[9] 方卿.論網(wǎng)絡(luò)環(huán)境下非正式交流的復(fù)興[J].情報(bào)理論與實(shí)踐,2002(4):258-261.

[10] 沈廣彩.新聞寫作“5W+1H”模式意義的生成與再造——從概括新聞到敘述新聞[J].科技信息,2010(22):759-760.

[11] Mahmood I,Hartley R,Rowley J.Scientific communication in Libya in the digital age[J].Journal of Information Science,2011,37(4):379-390.

[12] 夏能能.Web2.0環(huán)境下圖書情報(bào)學(xué)領(lǐng)域的非正式交流——基于博客好友鏈接的實(shí)證研究[J].情報(bào)雜志,2011,30(12):32-35.

[13] Hinds P,Kiesler S.What Do We Know about Proximity and Distance in Work Groups?A Legacy of Research[C].MIT Press,2002:57-81.

[14] 顧立平,張曉林.創(chuàng)建與使用型人——對(duì)非正式信息交流行為的實(shí)證研究與服務(wù)建議[J].中國圖書館學(xué)報(bào),2010,36(2):31-37.

[15] 葉鳳云,孫建軍,汪傳雷.網(wǎng)絡(luò)學(xué)術(shù)信息行為理論框架構(gòu)建與行為過程分析[J].圖書情報(bào)知識(shí),2011(5):82-88.

[16] 李貴成.基于Web2.0的非正式信息交流行為研究[J].情報(bào)探索,2014(6):28-31.

[17] 中國社會(huì)科學(xué)院學(xué)部委員黃長著教授蒞臨圖情檔系作學(xué)術(shù)報(bào)告——上海大學(xué) [EB/OL].[2018-02-06].http://www.shu.edu.cn/info/1056/4923.htm.

[18] 金宏奎,莊嚴(yán).高校門戶網(wǎng)站新聞對(duì)外發(fā)布狀況研究——基于實(shí)證的視角[J].當(dāng)代教育理論與實(shí)踐,2014,6(5):52-54.

[19] Kohlschütter C,F(xiàn)ankhauser P,Nejdl W.Boilerplate detection using shallow text features[C].Proceedings of the third ACM international conference on Web search and data mining.ACM,2010:441-450.

作者簡介:王曉笛,男,北京大學(xué)信息管理系情報(bào)學(xué)在讀博士生;李廣建,男,北京大學(xué)信息管理系教授,博士生導(dǎo)師。

榆中县| 张家口市| 古浪县| 通州市| 阳新县| 花垣县| 湖北省| 大城县| 来凤县| 尚义县| 南乐县| 千阳县| 武清区| 青岛市| 四川省| 轮台县| 甘南县| 桃源县| 项城市| 永修县| 江都市| 宁安市| 佳木斯市| 梨树县| 松阳县| 克什克腾旗| 永嘉县| 西乡县| 宜昌市| 商都县| 弥渡县| 孙吴县| 沐川县| 东丽区| 宜昌市| 鹤庆县| 合作市| 陇西县| 安多县| 富平县| 马公市|