石油工程科研項目立項人工智能評審場景設計及技術路徑

2024-10-28 00:00:00劉沙楊超王宣戰(zhàn)楊志國

石油工程建設 2024年5期

摘" " 要：在黨中央“科技自立自強”發(fā)展戰(zhàn)略的號召下，中國石油集團積極推進各業(yè)務領域的科研工作，激發(fā)了各單位的創(chuàng)新活力，同時帶來了科研項目立項評審管理成本的激增問題。傳統(tǒng)的人工審查科研項目立項方式存在工作量大、效率低、主觀性強的缺點。依托人工智能技術發(fā)展現(xiàn)狀，結合石油工程科研項目立項創(chuàng)新性評審業(yè)務特點，設計科研立項智能審查應用場景，包括立項材料自動審閱、文獻資料自動搜索、評價指標自動打分、審查結論自動生成等，同時分析了技術實現(xiàn)路徑及面臨的挑戰(zhàn)。

關鍵詞：人工智能評審；石油工程；科研立項；創(chuàng)新性

Scenario design and technical path for artificial intelligence review in petroleum engineering research project

LIU Sha1， YANG Chao2， WANG Xuanzhan1， YANG Zhiguo1

1.Kunlun Digital Technology Corporation Limited， Beijing 100040， China

2.China Petroleum Technical Service Corporation Limited， Beijing 100007， China

Abstract：Under the guidance of the concept of “independence and self-reliance in science and technology” proposed by the CPC， CNPC has been promoting scientific research in all business areas. It has stimulated the innovation vitality of all units but also has brought about a sharp increase in the management cost of scientific research project approval review. The traditional manual review method gives a heavy workload and has low efficiency and strong subjectivity. Based on the development status of artificial intelligence and the review characteristics of the innovation of scientific research projects on petroleum engineering， this paper designs an application scenario for intelligent review of scientific research projects， including automatic review of project approval materials， automatic search of literature， automatic scoring of evaluation indicators， and automatic generation of review conclusions， etc. At the same time， it analyzes the technical implementation path and challenges faced in this method.

Keywords：artificial intelligence review; petroleum engineering; scientific research project approval; innovation

DOI：10.3969/j.issn.1001-2206.2024.05.016

2021年5月28日，習近平總書記發(fā)表了《加快建設科技強國，實現(xiàn)高水平科技自立自強》的重要講話[1]，中國石油天然氣集團有限公司（簡稱中國石油）積極響應這一號召，加大了科技創(chuàng)新力度和投入，近年來，各級單位科研課題立項申報積極踴躍，激增的立項評審工作量與有限的評審專家資源之間的矛盾凸顯。傳統(tǒng)的人工審查方式存在耗時長、效率低、主觀性強等問題，已難以滿足科技管理工作降本增效、高質(zhì)量發(fā)展的迫切需求。近年來，人工智能技術（AI，Artificial Intelligence）的發(fā)展，特別是自然語言處理、機器學習等技術的歷史性突破，使得人工智能技術在科研課題立項評審領域的應用成為可能。

1" " 現(xiàn)狀及問題

在當今國際競爭愈發(fā)激烈、科技快速發(fā)展的背景下，準確把控科研方向?qū)τ跍p少科研經(jīng)費浪費、提高科研成果收益率至關重要。科研立項創(chuàng)新性和先進性指標審查是把控科研方向的核心環(huán)節(jié)[2]，然而傳統(tǒng)的課題立項評審方式存在難以解決的問題，主要體現(xiàn)在以下三個方面。

1）人工檢索查重耗時長，審查效率低。在與課題相關的國內(nèi)外研究現(xiàn)狀對比分析過程中，評審專家需要在各大國內(nèi)外文獻數(shù)據(jù)庫開展多輪文獻檢索，人工篩選出相關度較高的文獻及專利并逐一瀏覽分析，再對比全文內(nèi)容后得出相關度結論，這些工作耗費大量時間和精力。近年來，專家資源的增長速度遠低于新增科研課題增長速度，導致評審專家人均工作強度逐年增大。以中國石油下屬分公司中國石油集團油田技術服務有限公司（簡稱中油技服）為例，2022年共受理科研立項申請100余項，立項項目形式內(nèi)部審查專家僅有3人，人均年審查項目數(shù)量約33項，按照每人每天5～6項課題的審核速率，需要大約一個星期才能完成，在立項評審階段通常有時效性要求，評審專家需要在短時間內(nèi)審閱和分析大量資料，這給科研管理人員提出了極大挑戰(zhàn)，同時高工作強度易造成工作疲勞，進而影響評審質(zhì)量[3]。

2）評審質(zhì)量受制于評審專家能力水平。課題的創(chuàng)新性和先進性評審對專家專業(yè)素質(zhì)的要求極高，評審專家需要對相關技術領域的國內(nèi)外最新研究保持高敏感度，具備豐富的理論及實踐經(jīng)驗。在科技快速發(fā)展的今天，科技前沿技術不斷迭代更新，對評審專家的知識更新速度也提出了更高要求。然而，當某一技術領域存在專家資源不足甚至空白的情況下，科研課題研究方向的創(chuàng)新性評審結果的準確性也將受到影響，可能導致并不具備創(chuàng)新性的課題卻被準予立項[4]。

3）當前的科研管理系統(tǒng)中自動化立項審查方式存在一些局限性。中國石油一直在不斷探索和推進科技管理信息化、數(shù)字化、智能化發(fā)展，自建科技管理平臺經(jīng)過三代發(fā)展，在數(shù)據(jù)收集、資源共享、信息統(tǒng)計方面取得了顯著成果，但在數(shù)據(jù)智能處理方面仍有很大提升空間。新版科技管理平臺已實現(xiàn)對申請立項的科研項目名稱進行自動查重，與數(shù)據(jù)庫中已有文獻標題進行相似度對比，并列出相似論文標題、論文類型、作者、來源、發(fā)表時間等信息。然而，該系統(tǒng)仍無法對文獻資料全文進行檢索，也無法提取關鍵信息進行對比展示，全文內(nèi)容對比分析仍需要人工方式干預。對于課題創(chuàng)新性水平評估，真正有參考價值的信息主要體現(xiàn)在課題材料，以及對標文獻的研究目標、技術路線和預期成果等詳情描述中，因此，僅憑標題相似度的評估結果無法客觀反映課題的創(chuàng)新性水平，也不能作為課題創(chuàng)新性指標評審的權威依據(jù)。綜上所述，科研課題立項創(chuàng)新性評審工作面臨著工作量大、效率低、質(zhì)量難以保證等難題和痛點，亟需進一步探索實現(xiàn)基于大數(shù)據(jù)的人工智能評審技術，以實現(xiàn)創(chuàng)新性智能審查的新突破。

2" " 科研項目立項創(chuàng)新性評審工作流程

為實現(xiàn)科研立項創(chuàng)新性智能審查，首先需要了解傳統(tǒng)人工進行科研立項創(chuàng)新性審查工作的流程和關鍵控制點，然后逐項研究各個環(huán)節(jié)和控制點的人工智能技術方案。

傳統(tǒng)的科研立項創(chuàng)新性人工審查工作主要包括以下3個步驟。

1）立項材料分析及預期成果關鍵詞提取。評審專家需對立項申報材料進行全面、細致地審閱，準確識別和理解項目涉及的專業(yè)領域、研究方向、相關技術參數(shù)和預期成果等關鍵信息，不斷提取、凝練主要關鍵詞，形成關鍵詞組合，為文獻檢索做好前期準備。

2）在科研成果數(shù)據(jù)庫查驗是否已存在相關技術成果。評審專家結合自己在此技術領域的知識及經(jīng)驗，通過企業(yè)內(nèi)部科研成果數(shù)據(jù)庫及國內(nèi)外知名數(shù)據(jù)庫，如中國知網(wǎng)學術期刊網(wǎng)、萬方數(shù)據(jù)庫、維普數(shù)據(jù)庫、中國知識產(chǎn)權局專利檢索數(shù)據(jù)庫、Springer、Engineering Village、Web of science等進行關鍵詞組合檢索，人工識別匹配度較高的文獻資料進行全文閱讀及分析，了解國內(nèi)外相關技術的最新研究成果。

3）立項課題技術成果與數(shù)據(jù)庫查驗結果進行指標對比。評審專家將申報材料中的技術目標和研究內(nèi)容與國內(nèi)外技術現(xiàn)狀進行對比，完成相似度及差異性分析，評判材料的創(chuàng)新性程度，并結合具體的評價標準對立項材料進行評分。具體的創(chuàng)新性、先進性評價指標可參考圖1、圖2。

3" " 人工智能評審場景設計及技術路徑

根據(jù)前述科研立項創(chuàng)新性審查流程，結合當前人工智能技術的發(fā)展現(xiàn)狀，設計科研項目立項創(chuàng)新性人工智能評審的應用場景及技術路徑。

3.1" " 系統(tǒng)自動讀取立項材料關鍵信息

傳統(tǒng)的信息檢索功能已經(jīng)能夠?qū)崿F(xiàn)對單一或組合關鍵詞進行精確或模糊匹配檢索，并列出涵蓋關鍵詞的相關結果數(shù)據(jù)。但結果的準確性高度依賴于人工輸入關鍵詞的準確性，因此需要人工干預以確保關鍵詞質(zhì)量。例如，在中國知網(wǎng)總庫搜索“抗高溫鉆井液”關鍵詞，會檢索到667條結果，如果要進一步判斷抗高溫具體溫度限值，則需要更為精準的關鍵詞輸入，審核專家必須反復篩選、調(diào)整更為聚焦、貼切的關鍵詞，進行多輪檢索查詢，這無疑將耗費大量的時間和精力。而借助人工智能技術，可替代人工識別關鍵詞的環(huán)節(jié)，實現(xiàn)系統(tǒng)自動識別關鍵信息。

通過優(yōu)化設計立項申報功能數(shù)據(jù)模型，將業(yè)務數(shù)據(jù)盡可能結構化、標準化錄入，形成核心數(shù)據(jù)模型（見圖3）。同時，將可標準化填報的數(shù)據(jù)項以數(shù)據(jù)編碼形式內(nèi)置到系統(tǒng)中，如課題專業(yè)領域標準化分類（見圖4）、預期成果類型等數(shù)據(jù)，填報人可通過選項方式錄入，系統(tǒng)直接將其識別為關鍵詞；而對于暫不能標準化錄入的數(shù)據(jù)，如項目名稱、課題名稱、任務名稱、預期成果名稱、成果簡述及技術增量等文本數(shù)據(jù)，則需借助自然語言處理技術實現(xiàn)關鍵詞自動提取。自然語言處理技術使計算機可以理解人類語言并能夠進行閱讀和書寫，其實現(xiàn)主要得益于深度學習算法和機器學習算法，使得計算機可以對文本數(shù)據(jù)進行系統(tǒng)分析，提取關鍵信息以幫助用戶處理大量數(shù)據(jù)[5]。通過以上技術，計算機可以理解立項材料文本數(shù)據(jù)的語義，提取關鍵詞并建立關鍵詞組合。

為了實現(xiàn)自動提取文本數(shù)據(jù)關鍵詞的目標，必須首先建立石油工程技術專業(yè)大模型。根據(jù)《華爾街見聞》2023年5月24日的報道，一些擁有用戶數(shù)據(jù)積累的中小型企業(yè)，在醫(yī)療、金融、教育、繪畫等領域已開始利用國內(nèi)外大模型作為“底座”，訓練適合自身需求的垂類模型[3]。舉例來說，百度的文心千帆作為一個“AI大模型底座”，目前正與各行業(yè)中信息化和技術普及程度較高的企業(yè)進行共同測試和研發(fā)，如金融、能源、泛互聯(lián)網(wǎng)等行業(yè)[6]。

成功訓練大模型的先決條件包括高質(zhì)量的數(shù)據(jù)積累、充足的硬件及強大的算力支撐，以及對自身行業(yè)模型訓練和微調(diào)的能力。

在數(shù)據(jù)方面，石油工程技術科研立項創(chuàng)新性評價所需的數(shù)據(jù)來源主要有三個方面：中油技服科技管理系統(tǒng)數(shù)據(jù)庫、互聯(lián)網(wǎng)主流國際和國內(nèi)期刊文獻服務平臺，以及國家知識產(chǎn)權局專利檢索及分析系統(tǒng)。中油技服科技管理系統(tǒng)數(shù)據(jù)庫結構化存儲了生產(chǎn)需求、項目名稱、研究內(nèi)容、技術增量（創(chuàng)新點）及預期成果等數(shù)據(jù)，逐步構建科研項目數(shù)據(jù)庫；互聯(lián)網(wǎng)主流期刊文獻數(shù)據(jù)庫及國家知識產(chǎn)權專利數(shù)據(jù)庫通過購買數(shù)據(jù)或獲取數(shù)據(jù)庫訪問權限等方式，獲得高質(zhì)量的原始數(shù)據(jù)。

在硬件及算力方面，中油技服科技管理系統(tǒng)建設依托中國石油自建的數(shù)據(jù)中心，具備支撐行業(yè)模型訓練的基礎設施條件，且小模型訓練對于算力需求較低，而大模型訓練則需要大量算力支持。根據(jù)趨動科技聯(lián)合創(chuàng)始人兼CTO" 陳飛博士于2023年11月在數(shù)據(jù)中心標準大會上的主題演講《從小模型到大模型——AI時代下的數(shù)據(jù)中心建設》，大模型訓練需要搭載2 000多個英偉達A100高端顯卡，訓練時間從一個月到幾個月不等，其算力消耗較大。然而，基于開源大模型微調(diào)要求的資源消耗較少，可通過量化、剪枝等技術手段將大模型裁剪，從而顯著降低算力需求，甚至可以使用單卡完成微調(diào)[7]。

在石油工程技術行業(yè)模型訓練方面，中國石油信息化承建單位昆侖數(shù)智有限責任公司已經(jīng)開展相關研發(fā)工作。其通過本地化部署Llama、Baichuan、ChatGLM等開源大模型，并調(diào)用百度文心一言、訊飛星火等商用大模型相關服務接口，結合工程技術專業(yè)數(shù)據(jù)模型，構建適用于石油工程技術科研立項評審應用場景的專屬模型。

3.2" " 系統(tǒng)自動生成查新報告

在自動提取立項材料的關鍵信息后，系統(tǒng)采用關鍵詞組合模型算法模擬人工查詢方式，對本地科研項目數(shù)據(jù)庫、中國知網(wǎng)、維普網(wǎng)、專利網(wǎng)等平臺數(shù)據(jù)進行自動篩選和分級分類，篩選結果中的數(shù)據(jù)借助光學字符識別技術（OCR，Optical Character Recognition）進行全文掃描和文本提取，并通過語義對比技術和自然語言處理技術，根據(jù)其對語義的理解，尋找全文或部分相似的內(nèi)容，以及主要含義相同但文字發(fā)生變動的文本[8]，系統(tǒng)針對立項材料中的生產(chǎn)需求、研究目標、研究內(nèi)容、技術增量（創(chuàng)新點）以及預期成果描述等進行相似度計算，生成客觀準確的查新報告，供評審專家進一步快速對比分析。系統(tǒng)可以代替專業(yè)查新機構和人工方式進行查新的工作，并能自動生成查新報告，提高查新效率，縮短立項評審周期。

3.3" " 系統(tǒng)自動量化打分

若要實現(xiàn)系統(tǒng)自動量化打分，需要將創(chuàng)新性、先進性指標評分標準進行量化，拆分為可識別和可度量的數(shù)據(jù)項。當前，中油技服立項評審指標設置現(xiàn)狀如圖1、圖2所示，由于立項課題類型和研究內(nèi)容千差萬別，尚無針對不同細分專業(yè)領域的創(chuàng)新性和先進性評價標準量化指標，僅有粗略分值段設置，人工通過定性分析方法在評分區(qū)間內(nèi)給出相應得分。建議結合查新報告中相似度計算結果，設定“相似度”閾值，相似度數(shù)值越低，對應的創(chuàng)新性和先進性得分越高。

4" " 人工智能技術應用面臨的挑戰(zhàn)

4.1" " 模型訓練需要大量成本投入

1）數(shù)據(jù)采購成本。以中國知網(wǎng)數(shù)據(jù)庫采購報價為例，合作方式為將知網(wǎng)數(shù)據(jù)庫復制到企業(yè)本地數(shù)據(jù)庫，費用包括首次購買費及年度更新費，根據(jù)需求的不同，費用范圍從幾十萬到幾百萬不等。

2）人工成本。AI領域的人才包括AI算法工程師、開發(fā)工程師、數(shù)據(jù)分析師、AI產(chǎn)品經(jīng)理、測試工程師等。由于AI人才緊缺且供不應求，其薪資也水漲船高。根據(jù)獵聘網(wǎng)2024年2月最新數(shù)據(jù)查詢，全國AI工程師月均薪資為27 095元，其中北京、上海、深圳、杭州等一線城市AI工程師月平均薪資均達到3萬元以上[9]。

4.2" " 數(shù)據(jù)質(zhì)量風險

人工智能的深度應用需要防范一系列潛在風險隱患，例如訓練模型的語料庫和數(shù)據(jù)庫本身質(zhì)量欠佳，以及缺乏高質(zhì)量的開源文獻資料，這可能導致模型訓練進展緩慢，訓練結果差強人意甚至存在歪曲誤導的可能。根據(jù)《IT之家》2023年8月8日的報道，美國普渡大學的研究發(fā)現(xiàn)，美國人工智能研究公司OpenAI開發(fā)的人工智能聊天機器人ChatGPT在回答軟件編程問題時，錯誤率超過50%。其研究報告的結論稱：盡管ChatGPT的回答語言風格流暢，但其中52%的回答是錯誤的，77%的回答過于冗長。只有當回答中的錯誤很明顯時，參與者才能識別出來，否則他們?nèi)菀妆籆hatGPT的友好、權威和細致的語言風格所誤導[10]。因此，需要采取必要措施保證數(shù)據(jù)質(zhì)量，如加強本地內(nèi)部數(shù)據(jù)的治理和清洗工作，并積極與優(yōu)質(zhì)文獻供應商尋求合作來獲取高質(zhì)量數(shù)據(jù)。

4.3" " 信息安全風險

近年來，國際社會的信息戰(zhàn)愈演愈烈，這對各國有企事業(yè)單位的信息安全工作提出了更高的要求。在實現(xiàn)AI智能模型訓練過程中，不可避免地需要與互聯(lián)網(wǎng)優(yōu)質(zhì)數(shù)據(jù)資源進行互動，這就要求企業(yè)局域網(wǎng)進一步提升信息安全保護級別，以確保局域網(wǎng)與互聯(lián)網(wǎng)之間的數(shù)據(jù)交互安全，防止可能存在的攻擊、滲透，避免造成商業(yè)機密、個人隱私數(shù)據(jù)泄漏甚至遭黑客勒索的風險，這些風險給企業(yè)信息安全保障工作帶來了更多挑戰(zhàn)。

5" " 結束語

綜上所述，在可預見的人工智能應用場景中，利用人工智能技術實現(xiàn)立項信息自動讀取、對標數(shù)據(jù)庫進行自動檢索關聯(lián)數(shù)據(jù)并進行相似度計算、自動生成查新報告，以及自動進行創(chuàng)新性和先進性指標量化評分等。但也必須認識到這些場景實現(xiàn)過程中可能面臨的挑戰(zhàn)，在有效控制成本和風險的前提下，充分利用人工智能產(chǎn)品高效的數(shù)據(jù)處理能力開展智能產(chǎn)品的研發(fā)，使其更好地勝任評審專家智能助手的角色，幫助評審專家分擔海量材料瀏覽、信息提取、資料查詢及對比分析工作，可為評審專家進一步開展立項研判提供參考依據(jù)。

參考文獻

[1]" 習近平. 加快建設科技強國，實現(xiàn)高水平科技自立自強[J]. 求知，2022（5）：4-9.

[2]" 劉泓葦，劉江華，陳忠平. 科研課題的立題與信息檢索[J]. 醫(yī)學信息，2009，22（9）：1 758-1 760.

[3]" 樊俊. 中法科研項目立項評審機制比較研究——以法國國家科研署項目和國家重點研發(fā)計劃為例[J]. 科學管理研究，2019，37（1）：106-109.

[4]" 寧輝東. 工業(yè)制造企業(yè)的科研項目立項管理研究[J]. 財經(jīng)界，2020（4）：55-56.

[5]" 付晨. 基于人工智能技術的項目文檔規(guī)范性審核技術研究[J]. 電子技術與軟件工程，2019（14）：250.

[6]" 于惠如. 國內(nèi)大模型迎來中場戰(zhàn)事[Z]. 全天候科技，2023-05-24.

[7]" 星林科技. 從小模型到大模型——AI時代下的數(shù)據(jù)中心建設[EB/OL]. 脈脈. （2024-01-03）[2024-03-05].

[8]" 馬曉華. 基于自然語言處理技術的IT治理審計方法研究[J]. 財會通訊，2021（1）：144-148.

[9]" 獵聘網(wǎng). AI工程師薪資待遇[EB/OL].[2024-03-05]. https：//www.liepin.com/zpaigongchengshi/xinzi/

[10] IT之家. 研究發(fā)現(xiàn)：ChatGPT回答編程問題的錯誤率超過50%[EB/OL].（2023-08-08）[2024-03-05].https：//tech.ifeng.com/c/8S50jukVn0Y.

作者簡介：

劉" " 沙（1985—），女，河北涿州人，工程師，2008年畢業(yè)于燕山大學里仁學院法學專業(yè)，現(xiàn)從事石油工程信息系統(tǒng)方案設計、項目管理方面的工作。Email：liusha@cnpc.com.cn

收稿日期：2024-06-18

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

石油工程科研項目立項人工智能評審場景設計及技術路徑