国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)驅(qū)動(dòng)的科研機(jī)構(gòu)發(fā)展態(tài)勢(shì)感知技術(shù)研究

2022-10-08 11:32許文文徐霄驥
電視技術(shù) 2022年9期
關(guān)鍵詞:動(dòng)向科研機(jī)構(gòu)畫像

許文文,徐霄驥,馬 勛,張 峰

(中國(guó)電子科技集團(tuán)公司信息科學(xué)研究院 認(rèn)知與智能技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100086)

0 引 言

科研機(jī)構(gòu)是以社會(huì)和經(jīng)濟(jì)需求為導(dǎo)向,有明確研究方向和任務(wù)并持續(xù)有組織地開(kāi)展相關(guān)研究與開(kāi)發(fā)活動(dòng)的機(jī)構(gòu)[1]。全面了解和掌握科研機(jī)構(gòu)發(fā)展態(tài)勢(shì),是提升創(chuàng)新能力、開(kāi)展機(jī)構(gòu)間協(xié)同創(chuàng)新的重要基礎(chǔ)。然而,隨著科學(xué)技術(shù)的迅猛發(fā)展,科研機(jī)構(gòu)的科研活動(dòng)范圍越來(lái)越廣泛,科研成果呈多源化、海量化的速度增長(zhǎng)。如何將海量異構(gòu)的科研數(shù)據(jù)快速、精準(zhǔn)、高效地組織成高價(jià)值業(yè)務(wù)數(shù)據(jù),挖掘出科研機(jī)構(gòu)的特征,支撐機(jī)構(gòu)發(fā)展態(tài)勢(shì)認(rèn)知,成為學(xué)術(shù)界亟待解決的重點(diǎn)問(wèn)題,具體體現(xiàn)在以下方面。

(1)海量異構(gòu)的科研數(shù)據(jù)融合不足。受限于技術(shù)手段和人力成本開(kāi)銷,目前科研機(jī)構(gòu)相關(guān)分析主要基于論文或?qū)@葐我粩?shù)據(jù)進(jìn)行,在認(rèn)知完整性、準(zhǔn)確性等方面存在不足,需要開(kāi)展在論文、專利、項(xiàng)目及科研動(dòng)態(tài)資訊等數(shù)據(jù)融合基礎(chǔ)上的綜合分析。

(2)機(jī)構(gòu)科研情況認(rèn)識(shí)不清。大多數(shù)研究只是針對(duì)科研機(jī)構(gòu)某些屬性進(jìn)行統(tǒng)計(jì)性分析,缺乏對(duì)科研機(jī)構(gòu)的研究與開(kāi)發(fā)活動(dòng)屬性的綜合、全面的梳理。

(3)機(jī)構(gòu)發(fā)展趨勢(shì)認(rèn)知不深。現(xiàn)有分析主要依靠人工經(jīng)驗(yàn)進(jìn)行概略和粗放式進(jìn)行,在準(zhǔn)確性和預(yù)見(jiàn)性方面存在不足。

多源信息融合、知識(shí)圖譜等技術(shù)的發(fā)展為上述問(wèn)題的解決提供了可能。多源信息融合技術(shù)能夠?qū)⒍喾N(同類或異類)信息源的數(shù)據(jù)進(jìn)行綜合,獲得研究對(duì)象的較全面的描述和刻畫,使得信息系統(tǒng)具有更好的性能[2]。知識(shí)圖譜可對(duì)海量數(shù)據(jù)進(jìn)行重新抽象、整理和組織,以更加合理、有序、直觀的方式將知識(shí)展示給用戶,使之能更加有利于人的理解和認(rèn)知,從而更加有效地指導(dǎo)決策[3]。本文采用多源信息融合、知識(shí)圖譜構(gòu)建與分析等技術(shù),匯聚融合多個(gè)信息源的科研數(shù)據(jù),抽取出機(jī)構(gòu)、技術(shù)、專家等科技實(shí)體,通過(guò)對(duì)科技實(shí)體間關(guān)聯(lián)、組合、聚類等分析,建立科研機(jī)構(gòu)畫像,開(kāi)展機(jī)構(gòu)科研動(dòng)向分析等,為科研機(jī)構(gòu)的技術(shù)布局、研發(fā)動(dòng)向等認(rèn)知提供輔助支撐。

本文主要貢獻(xiàn)在于:提出了一種數(shù)據(jù)驅(qū)動(dòng)的科研機(jī)構(gòu)信息感知與融合框架,支撐對(duì)數(shù)據(jù)的要素抽取、關(guān)聯(lián)融合、分析挖掘,提高科研資源的深層次挖掘利用效率;提出了一種基于圖譜的科研機(jī)構(gòu)畫像技術(shù),實(shí)現(xiàn)對(duì)科研機(jī)構(gòu)的綜合全面梳理;提出了一種基于關(guān)聯(lián)挖掘的科研機(jī)構(gòu)動(dòng)向分析技術(shù),支撐機(jī)構(gòu)技術(shù)發(fā)展布局洞察,為機(jī)構(gòu)行為的預(yù)測(cè)提供支持。

1 科研機(jī)構(gòu)信息感知與融合框架

現(xiàn)階段,科研領(lǐng)域的數(shù)據(jù)呈現(xiàn)多源化、海量化的增長(zhǎng)趨勢(shì),極大地豐富了可利用的資源。與基于單一數(shù)據(jù)源的分析相比,基于多源信息融合的科研機(jī)構(gòu)分析能夠更全面地反映科研機(jī)構(gòu)的整體研究與開(kāi)發(fā)活動(dòng)情況,更準(zhǔn)確地定位機(jī)構(gòu)的研究重點(diǎn)、熱點(diǎn)和預(yù)測(cè)領(lǐng)域研究趨勢(shì)[4]。

數(shù)據(jù)融合是有效提升相關(guān)任務(wù)準(zhǔn)確率的手段[5]。本文結(jié)合數(shù)據(jù)爬蟲、自然語(yǔ)言處理、數(shù)據(jù)挖掘等技術(shù),開(kāi)展以科研成果、科研項(xiàng)目、科研新聞動(dòng)態(tài)等為主要內(nèi)容的科研數(shù)據(jù)感知與處理研究,構(gòu)建科研機(jī)構(gòu)信息感知與融合框架,集成文本挖掘、圖譜構(gòu)建等算法和模型,支撐對(duì)數(shù)據(jù)的要素抽取、關(guān)聯(lián)融合、分析挖掘,提高科研資源的深層次挖掘利用效率??蒲袡C(jī)構(gòu)信息感知與融合框架如圖1所示。

圖1 科研機(jī)構(gòu)信息感知與融合框架

數(shù)據(jù)源層,覆蓋機(jī)構(gòu)網(wǎng)站、科技成果、社交媒體網(wǎng)站、資訊網(wǎng)站等開(kāi)源數(shù)據(jù)以及內(nèi)部數(shù)據(jù),獲取、收集科研機(jī)構(gòu)的專利、論文、社交賬號(hào)動(dòng)態(tài)及新聞資訊等信息,實(shí)現(xiàn)信息的匯聚,為后續(xù)數(shù)據(jù)挖掘分析等提供數(shù)據(jù)支撐。具體地,采用定源跟蹤與開(kāi)放式獲取相結(jié)合的多源數(shù)據(jù)采集方法獲取數(shù)據(jù),并且建立多源信息監(jiān)測(cè)、長(zhǎng)期跟蹤機(jī)制,實(shí)現(xiàn)數(shù)據(jù)的定期更新。

數(shù)據(jù)治理層,基于匯聚的科研數(shù)據(jù)資源,結(jié)合文本挖掘、機(jī)器翻譯、知識(shí)圖譜構(gòu)建等技術(shù),以及人工輔助矯正的方式,開(kāi)展科研機(jī)構(gòu)、專家、技術(shù)等實(shí)體識(shí)別、實(shí)體間的關(guān)聯(lián)關(guān)系抽取、實(shí)體對(duì)齊以及實(shí)體融合等處理,構(gòu)建機(jī)構(gòu)庫(kù)、專家?guī)?、技術(shù)庫(kù)、項(xiàng)目庫(kù)及成果庫(kù)等科研資源庫(kù),構(gòu)建以科研機(jī)構(gòu)為核心的異質(zhì)關(guān)聯(lián)知識(shí)圖譜,實(shí)現(xiàn)多源信息的融合以及數(shù)據(jù)的關(guān)聯(lián)化、層次化、圖譜化,支撐科研資源的深度挖掘與利用。

數(shù)據(jù)分析層,在科研資源庫(kù)和機(jī)構(gòu)關(guān)聯(lián)知識(shí)圖譜的基礎(chǔ)上,結(jié)合復(fù)雜網(wǎng)絡(luò)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù),開(kāi)展基于圖譜的科研機(jī)構(gòu)畫像、機(jī)構(gòu)科研動(dòng)向分析等研究,形成針對(duì)科研機(jī)構(gòu)的一套深度分析工具集,實(shí)現(xiàn)對(duì)機(jī)構(gòu)科研產(chǎn)出、技術(shù)布局、研發(fā)動(dòng)向等的認(rèn)知。

業(yè)務(wù)應(yīng)用層,支撐科研機(jī)構(gòu)檢索、機(jī)構(gòu)合作分析、機(jī)構(gòu)發(fā)展態(tài)勢(shì)感知、科研機(jī)構(gòu)推薦、新興技術(shù)發(fā)現(xiàn)、機(jī)構(gòu)技術(shù)布局洞察等服務(wù),為掌握最新科技動(dòng)向、科學(xué)判斷、果斷決策等提供輔助支撐。

2 基于圖譜的科研機(jī)構(gòu)畫像技術(shù)

機(jī)構(gòu)畫像是通過(guò)分析機(jī)構(gòu)的固有屬性以及動(dòng)態(tài)行為和變化,提煉出以機(jī)構(gòu)為核心的各類屬性特征,實(shí)現(xiàn)對(duì)機(jī)構(gòu)的多個(gè)維度的綜合展示和分析??蒲袡C(jī)構(gòu)畫像可以真實(shí)、全面、準(zhǔn)確、動(dòng)態(tài)地描繪科研機(jī)構(gòu)的特征[6],支撐機(jī)構(gòu)檢索以及對(duì)相關(guān)機(jī)構(gòu)的篩選、統(tǒng)計(jì)或?qū)Ρ确治龅取?/p>

科研機(jī)構(gòu)除具有普通社會(huì)主體的法律特征、行為特征、經(jīng)濟(jì)特征以外,在研究與開(kāi)發(fā)活動(dòng)中還形成了自身的科研特征,如研究領(lǐng)域、科研產(chǎn)出及科研合作等。特別地,機(jī)構(gòu)合作已成為科研合作[7]的主要形式之一。對(duì)其合作結(jié)構(gòu)的研究,有助于把握科研機(jī)構(gòu)合作的規(guī)律和態(tài)勢(shì)[8]。按照特征類型,可以將科研機(jī)構(gòu)畫像分為基本屬性畫像、業(yè)務(wù)屬性畫像及關(guān)系屬性畫像?;緦傩援嬒裰饕ㄟ^(guò)機(jī)構(gòu)成立時(shí)間、所在地址、機(jī)構(gòu)類型及簡(jiǎn)介等基本屬性標(biāo)簽對(duì)機(jī)構(gòu)進(jìn)行刻畫。業(yè)務(wù)屬性畫像主要通過(guò)機(jī)構(gòu)涉及領(lǐng)域、科研產(chǎn)出、獎(jiǎng)項(xiàng)榮譽(yù)等屬性標(biāo)簽對(duì)機(jī)構(gòu)進(jìn)行刻畫。關(guān)系屬性畫像主要通過(guò)機(jī)構(gòu)科研合作關(guān)系、機(jī)構(gòu)隸屬關(guān)系、科研引用關(guān)系等屬性標(biāo)簽對(duì)機(jī)構(gòu)進(jìn)行刻畫。

基于圖譜的科研機(jī)構(gòu)畫像處理流程如圖2所示。首先,獲取機(jī)構(gòu)的基本屬性信息,它是科研機(jī)構(gòu)開(kāi)展相關(guān)研究與開(kāi)發(fā)活動(dòng)的基礎(chǔ)。機(jī)構(gòu)成立時(shí)間、所在地址、機(jī)構(gòu)類型、機(jī)構(gòu)簡(jiǎn)介、機(jī)構(gòu)法人以及組織架構(gòu)等信息可以通過(guò)機(jī)構(gòu)官網(wǎng)、機(jī)構(gòu)相關(guān)成果、機(jī)構(gòu)相關(guān)新聞資訊等獲取。其次,通過(guò)對(duì)科研機(jī)構(gòu)涉及的項(xiàng)目、發(fā)表成果、產(chǎn)品等進(jìn)行文本分析和統(tǒng)計(jì)分析,識(shí)別出機(jī)構(gòu)涉獵的科研領(lǐng)域、相關(guān)技術(shù)產(chǎn)出和產(chǎn)量,構(gòu)建機(jī)構(gòu)業(yè)務(wù)屬性畫像。最后,在關(guān)系屬性畫像方面,通過(guò)對(duì)機(jī)構(gòu)科研成果的分析,主要是對(duì)其論文、專利、獎(jiǎng)項(xiàng)等科研成果的署名信息進(jìn)行解析,構(gòu)建出機(jī)構(gòu)間的合作關(guān)系。機(jī)構(gòu)間合作的科研成果越多,它們之間的科研合作關(guān)系越緊密??梢圆捎蒙鐖F(tuán)發(fā)現(xiàn)、網(wǎng)絡(luò)重構(gòu)、圖分割等技術(shù),分析機(jī)構(gòu)間關(guān)系的緊密程度,進(jìn)而識(shí)別機(jī)構(gòu)科研合作圈。通過(guò)對(duì)機(jī)構(gòu)組織架構(gòu)、主管單位屬性、機(jī)構(gòu)發(fā)展歷程的分析,可構(gòu)建機(jī)構(gòu)的層級(jí)隸屬關(guān)系。

圖2 基于圖譜的科研機(jī)構(gòu)畫像處理流程

3 基于關(guān)聯(lián)挖掘的科研機(jī)構(gòu)動(dòng)向分析

科研機(jī)構(gòu)動(dòng)向分析是對(duì)一段時(shí)間內(nèi)科研機(jī)構(gòu)活動(dòng)情況進(jìn)行分析挖掘,得出其行動(dòng)或技術(shù)發(fā)展的方向。科研機(jī)構(gòu)動(dòng)向分析能夠洞察機(jī)構(gòu)的技術(shù)發(fā)展布局,為機(jī)構(gòu)行為的預(yù)測(cè)提供支持。

當(dāng)前,社交媒體與科研活動(dòng)的聯(lián)系日益密切。社交媒體讓科研過(guò)程管理更加公開(kāi)透明[9]??蒲袡C(jī)構(gòu)的社交媒體數(shù)據(jù)能夠反映機(jī)構(gòu)的參與項(xiàng)目情況、研究進(jìn)展信息、招聘需求信息等。機(jī)構(gòu)新聞資訊是由機(jī)構(gòu)本身或第三方反映機(jī)構(gòu)活動(dòng)的信息。相比論文、專利等科研成果,科研機(jī)構(gòu)的社交媒體信息、資訊信息具有高時(shí)效性、內(nèi)容豐富性等特征,為機(jī)構(gòu)動(dòng)向分析提供了有力數(shù)據(jù)支撐。

關(guān)聯(lián)分析能夠提高數(shù)據(jù)的價(jià)值和利用率。當(dāng)數(shù)據(jù)內(nèi)容具有時(shí)間、空間上的聯(lián)系時(shí),關(guān)聯(lián)分析可以將相似的數(shù)據(jù)進(jìn)行匯總,提取出有用的知識(shí)[10]。本文基于科研機(jī)構(gòu)的社交媒體信息、資訊信息等,運(yùn)用關(guān)聯(lián)分析技術(shù)進(jìn)行動(dòng)向事件提取,形成事件集合,從時(shí)空關(guān)聯(lián)挖掘、實(shí)體關(guān)聯(lián)挖掘等角度,挖掘事件間的時(shí)序和關(guān)聯(lián)關(guān)系,建立事件間的因果關(guān)系和發(fā)展脈絡(luò),形成科研機(jī)構(gòu)活動(dòng)情況的動(dòng)向信息。動(dòng)向事件包含時(shí)間(發(fā)生時(shí)間、涉及時(shí)間)、地點(diǎn)(發(fā)生地點(diǎn)、涉及地點(diǎn))、參與者以及內(nèi)容描述等要素。

基于關(guān)聯(lián)挖掘的科研機(jī)構(gòu)動(dòng)向分析處理流程如圖3所示。首先采用向量空間模型(Vector Space Model,VSM)對(duì)科研機(jī)構(gòu)相關(guān)的社交媒體信息、資訊信息等文檔進(jìn)行向量化表示。采用改進(jìn)的tf-idf(term frequency-inverse document frequency)的 詞語(yǔ)特征權(quán)重表示方法,將每篇文檔表示為一個(gè)向量,便于進(jìn)行文本聚類和關(guān)系建模等處理。得到文檔的向量表示模型后,通過(guò)聚類將文檔集合中描述不同內(nèi)容的文檔區(qū)分開(kāi)來(lái),將相似內(nèi)容的相關(guān)文檔聚為一類,即每類代表一個(gè)事件。其次進(jìn)行關(guān)鍵詞提取,通過(guò)文本聚類可以將文檔集中相關(guān)性強(qiáng)的文本聚集在一起,形成一個(gè)話題,并從聚類得出的每個(gè)事件中抽取出一些關(guān)鍵詞對(duì)事件進(jìn)行描述。再次,進(jìn)行關(guān)聯(lián)關(guān)系建模,通過(guò)事件之間的時(shí)序規(guī)律、關(guān)聯(lián)關(guān)系、因果規(guī)律挖掘以及關(guān)聯(lián)度的大小對(duì)事件的關(guān)聯(lián)關(guān)系進(jìn)行判斷,構(gòu)建出事件關(guān)聯(lián)關(guān)系模型。最后,結(jié)合專家知識(shí)預(yù)判科研機(jī)構(gòu)的發(fā)展動(dòng)向。

圖3 基于關(guān)聯(lián)挖掘的科研機(jī)構(gòu)動(dòng)向分析處理流程

4 結(jié) 語(yǔ)

科研機(jī)構(gòu)態(tài)勢(shì)感知能夠提升管理工作、輔助決策。不同源的信息能夠從不同的角度反映科研機(jī)構(gòu)的研究與開(kāi)發(fā)活動(dòng)情況。本文提出了一種數(shù)據(jù)驅(qū)動(dòng)的科研機(jī)構(gòu)信息感知與融合框架,實(shí)現(xiàn)了對(duì)官方網(wǎng)站、期刊論文、專利文獻(xiàn)、社交媒體、新聞資訊等多種渠道的信息采集,并對(duì)異構(gòu)信息進(jìn)行匯聚融合,形成規(guī)范統(tǒng)一、持續(xù)更新的科研機(jī)構(gòu)數(shù)據(jù)。針對(duì)機(jī)構(gòu)科研狀態(tài)的認(rèn)識(shí)需求,本文提出了一種基于圖譜的科研機(jī)構(gòu)畫像技術(shù),實(shí)現(xiàn)綜合性、關(guān)聯(lián)性的機(jī)構(gòu)科研情況分析。針對(duì)科研機(jī)構(gòu)發(fā)展趨勢(shì)認(rèn)知的需求,本文提出了一種基于關(guān)聯(lián)挖掘的科研機(jī)構(gòu)動(dòng)向分析技術(shù),支撐機(jī)構(gòu)技術(shù)發(fā)展布局洞察,為機(jī)構(gòu)行為的預(yù)測(cè)提供支持。下一步將針對(duì)具體領(lǐng)域開(kāi)展科研機(jī)構(gòu)發(fā)展態(tài)勢(shì)實(shí)證分析,對(duì)方法進(jìn)行優(yōu)化,對(duì)分析功能進(jìn)行完善。

猜你喜歡
動(dòng)向科研機(jī)構(gòu)畫像
威猛的畫像
解讀兩會(huì)代表提案,觀汽車行業(yè)發(fā)展動(dòng)向
動(dòng)向
吉林省加快發(fā)展新型科研機(jī)構(gòu)的綜合思考
高考全國(guó)卷集合命題動(dòng)向分析
高考全國(guó)卷解析幾何解答題命題動(dòng)向分析
畫像
逆行者的武漢
畫像
潛行與畫像
固阳县| 磐安县| 白沙| 绵阳市| 福清市| 依安县| 宁河县| 宣威市| 信丰县| 封开县| 始兴县| 中宁县| 喀喇沁旗| 广水市| 商南县| 海阳市| 黄冈市| 专栏| 行唐县| 通渭县| 深水埗区| 临漳县| 杭锦旗| 凭祥市| 灌南县| 长春市| 阿合奇县| 阳春市| 金华市| 迭部县| 海宁市| 高台县| 青州市| 历史| 南京市| 新野县| 昆明市| 柏乡县| 泸水县| 渭源县| 中西区|