吳勤浩,沈炫辰,陳 雨,朱智強,羅安滿
(中核核電運行管理有限公司,浙江 海鹽 314300)
秦山核電作為老發(fā)電基地,物資主數據管理模式與管理標準經過多次的調整,由于歷史原因,其數據質量存在一定的問題。
隨著公司精益化管理地不斷深入,降本增效工作地不斷推進,庫存控制管理已經逐漸成為公司急需解決的重要難題,以現有庫存清理、基礎數據清理為導向的解決思路日趨重要。
秦山核電在2012年之前物資數據由各電廠自行創(chuàng)建和維護,存在大量重碼問題,不利于物資共享、集中采購、成本控制。隨著庫存控制管理的持續(xù)開展,物資主數據作為供應鏈領域的基礎數據之一,發(fā)揮了越來越大的影響力,低質量的數據基礎逐漸成為了阻礙工作順利推進的制約因素。解決重碼問題,主要通過對不同物資數據的檢索對比完成,當前依靠電廠專業(yè)人員或外部廠商的方式費時費力。同時人員因素在重碼識別過程中也存在較大阻礙。
目前新興的知識圖譜IT技術,以數據為核心,打通所有數據連接,擺脫傳統數據查詢頁面的方式,采用圖譜展示方式方便實現用戶在信息檢索中的聯想式檢索,使系統中積累的海量數據得到有效的整合利用,并發(fā)揮其實效。
數潤大數據平臺為知識圖譜挖掘技術打下了良好的數據基礎和計算基礎,也為形成物資語義庫形成了數據基礎。本文相似性分析使用的10個數據(如表1),均由數潤大數據平臺提供,約330萬數據量。
表1 相似性分析數據清單Table 1 The list of similarity analysis data
(1)分析思路
傳統的物資主數據相似度分析主要從物資主數據數據本身進行分析,將代表物資本身屬性的字段進行相似度分析,利用相似度算法進行計算和排序,得到疑似清單,再由重碼識別人員和業(yè)務人員進行確認。
(2)相似度算法
余弦距離,也稱為余弦相似度,是用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異大小的度量。當兩條物資描述信息向量夾角余弦等于1時,這兩條物資描述完全重復;當夾角的余弦值接近于1時,兩條物資描述相似(可以用作文本分類);夾角的余弦越小,兩條物資描述越不相關。
JaccardSimilarity是兩個集合的交集除以兩個集合的并集,所得的就是兩個集合的相似度,數學表達式是:J(A,B)=|A∩B|/|A∪B|。Jaccard(杰卡德)相似性系數主要用于計算符號度量或布爾值度量的樣本間的相似度。
(1)最短編輯距離算法
編輯距離(Edit Distance),又稱Leven ̄shtein距離,是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數,編輯距離越小,兩個串的相似度越大,通過該算法,完成大部分字段的相似度對比。
(2)余弦相似度算法
余弦相似度,又稱為余弦相似性,是通過計算兩個向量的夾角余弦值來評估他們的相似度,對于物料描述字段是通過文本分詞、核電領域常用單位識別以及該算法結合的方式對其進行相似性分析。
(3)KL散度算法
KL散度是兩個概率分布P和Q差別的非對稱性的度量,通過該算法的思想對比不同權重占比時KL散度的變化,從而獲得一個較優(yōu)的初始權重占比,再結合專業(yè)人員的建議對權重占比進行細微調整,得出最終權重占比。
(4)AHP層次分析法
AHP層次分析法是多方案或多目標的決策方法,是一種定性與定量相結合的決策分析方法。
知識圖譜本質上是語義網絡,是一種基于圖的數據結構,由節(jié)點(Point)和邊(Edge)組成,從實際應用的角度出發(fā)其實可以簡單地把知識圖譜理解成多關系圖(Multi-relational Graph)。在知識圖譜里,每個節(jié)點表示現實世界中存在的“實體”,每條邊為實體與實體之間的“關系”。知識圖譜是關系的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關系網絡。知識圖譜提供了從“關系”的角度去分析問題的能力。知識圖譜這個概念最早由Google提出,主要是用來優(yōu)化現有的搜索引擎。不同于基于關鍵詞搜索的傳統搜索引擎,知識圖譜可用來更好地查詢復雜的關聯信息,從語義層面理解用戶意圖,改進搜索質量。
基于核電現有數據基礎,采用Neo4j圖數據庫,以圖中的節(jié)點和邊的方式來存儲數據,將離散的數據整合在一起,結合核電業(yè)務場景,采用自底向上的方式構建核電領域知識圖譜模型,如圖1所示支持各種上層智慧應用的實現?;赪ebGL技術實現圖譜可視化,通過3D的方式,立體直觀地將業(yè)務數據以及相互之間的關聯關系呈現給用戶。
圖1 物資知識圖譜Fig.1 The material knowledge graph
語義庫是一種重要的基礎性語言資源,可以為自然語言處理任務提供豐富的語料知識,常被廣泛應用于詞義消歧、機器翻譯、信息檢索以及自動問答等任務,是智能知識管理體系的重要組成部分,其規(guī)模與質量是智能知識管理體系成敗的關鍵。領域詞庫的儲備以及知識的積累是企業(yè)大數據語義分析能力的基礎,而大數據語義分析能力是建立語義平臺的必要條件,建立語義平臺可以為企業(yè)提供高效地處理大量非結構化數據、挖掘文本數據價值的能力。
本方法搜集整理核電領域專有用詞構建核電領域專有詞詞典,結合業(yè)務需求構建核電領域同義詞詞典,同時引用開源通用詞典,共同組成核電領域語義庫的基礎。
該語義庫具有高擴展性,具有可動態(tài)發(fā)展的能力,通過業(yè)務數據的不斷增多,可提取的語料會相應積累,結合標準化的更新機制和維護機制,實現語料庫的不斷擴充。
有別于之前僅從物資屬性,單一維度地設計物資重碼分析方法,本課題結合物資的物理屬性以及物資的使用場景,對物資重碼做多維度的分析。其中,基于物資物理屬性的重碼分析是指通過對描述物資的各字段做對比來判斷物資是否重碼;基于物資使用場景的重碼分析是指通過追溯分析物資的歷史使用場景,即物資是否使用在同一設備上來判斷是否重碼。最終,綜合考慮兩個維度的重碼分析結果決定物資是否重碼。
基于物資屬性的重碼分析涉及7個屬性(見表2),且根據數據類型不同,使用不同的相似性對比方法,并根據業(yè)務經驗,對不同的屬性賦予不同的權重,最終兩個物資的相似度為各屬性相似度乘以其權重之后的和,如下式所示:
表2 物資屬性Table 2 Material properties
總屬性相似度 = ∑屬性i權重×屬性i相似度
“危險品號”“是否工器具”是決定性屬性,是判斷兩個物資是否為重碼的先決條件,即如果這兩個屬性中任何一個屬性不相似,則認為兩個物資為非重碼物資。采用全匹配方式判斷兩個物資是否相同。
“物資名稱”“基本物料”“制造商零件編號”“制造商名稱”這類屬性涉及中英文、數字或其他文字,通過最短編輯距離算法計算相似度。最短編輯距離又稱Levenshtein Distance,是指兩個字符串之間,由一個轉成另一個所需的最少編輯操作次數。許可的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符。一般來說,編輯距離越小,兩個字符串的相似度越大。
“物資描述”屬性是由描述物資的多個屬性拼接而成,涉及表達方式多樣且語義豐富,因此對該屬性則先通過分詞的方法、詞語向量化之后,再使用余弦相似度算法計算其相似度。主要處理步驟如下:
1)字符串預處理,將物資名稱中英文部分進行大小寫字母轉化,將物資描述進行特殊符號的刪除處理;
2)分詞處理,使用結巴分詞工具中自帶詞典以及整理的核電領域專業(yè)詞典,對字符串預處理后的文本內容進行分詞處理;
3)近義詞替換,利用整理的核電領域同義詞詞典,對結巴分詞后的詞語進行同義詞搜索和替換,這樣能排出余弦相似度計算時,利用詞袋詞語去重,因詞語不同而帶來的影響;
4)余弦相似度計算,物資描述進行結巴分詞以后,將所切分的詞語進行去重排序,用排序后的下標對原有詞語位置進行替換,統計下標數量,并使用onehot編碼,將其轉為相對應向量,通過向量的內積去除以各自的模,獲得最終余弦相似度。
基于知識圖譜的重碼分析則是從物資的使用場景對比分析是否為重碼物資,這個維度的重碼分析是對基于物資屬性的重碼分析結果的補充和支持。該方法認為,如果兩個物資能通過不同或者相同的場景,使用在同一設備上,則這兩個物資具有一定的重碼可能性,尤其當兩物資具有較高的屬性相似度時。這一方法的實現借助知識圖譜中的路徑探索等方法,幫助物資搜索符合使用場景的路徑,并完成圖譜相似的計算。
核心權重思路:各條路徑在總權重占比并非線性下降,通常前N條的路徑的重要程度要更高,重要性差異也更明顯,因此使用分層決策方法,將目標路徑進行分層,不同層級權重按幾何對數下降。
涉及的圖譜路徑有5條,借助AHP (Anal-ytic Hierarchy Process)的方法對5條路徑的重要性做初步評估,并分配兩個物資的連通路徑權重,如表3所示。AHP (Analytic Hierarchy Process)層次分析法是種多方案或多目標的決策方法,是一種定性與定量相結合的決策分析方法,常被運用于多目標、多準則、多要素、多層次的非結構化的復雜決策和權限賦值問題。將決策的目標、考慮的因素(決策準則)和決策對象按它們之間的相互關系分層,確定某層所有因素對于總目標相對重要性的排序權值如表4所示。
表3 相似性圖譜路徑Table 3 Similarity map paths
表4 物資連通路徑權重分配Table 4 The weight distribution of material connectivity path
知識圖譜路徑分析規(guī)則如下(以5條指向BOM路徑為例):
1)每條路徑通過知識圖譜得出最終 BOM節(jié)點清單(清單中包含BOM號及路徑數量),每個物資的BOM節(jié)點清單有0~5個(無路徑連通則為0,每條路徑都連通則為5)。
2)統計并記錄清單中連通每個BOM節(jié)點的路徑數量(例如物資A通過路徑一得出的BOM節(jié)點清單結果為 BOM A,路徑數量20,則代表有20條通過路徑一模式連通物資A和BOM A的路徑)。
3)對每條路徑的BOM節(jié)點路徑數量設置域值M(閾值M通過對數據進行抽樣試驗,運用統計學方法進行調整,M可為0),當某個BOM節(jié)點的路徑數量大于M時,判定該BOM節(jié)點為有效節(jié)點,當路徑數量小于等于M時,判定該BOM節(jié)點為無效節(jié)點。
4)兩個物資的BOM節(jié)點清單相互之間做交叉對比計算,取BOM節(jié)點的交集,產生若干個對比結果集合。
5)每種路徑連通方式均有三種連通結果,分別為有效連通、無效連通、不連通,當兩條路徑所得的BOM節(jié)點清單存在有效節(jié)點的交集時,則判定其為有效連通;若交集中都是無效節(jié)點時,則判定其為無效連通;若無任何節(jié)點交集,則判定其為不連通。每種路徑連通方式的三種連通結果,分別對應三種權重,在兩個物資計算分析過程中,每種路徑連通方式,只會產生一個權重。
6)結合所有路徑的權重值得出圖譜部分的相似度。
結合字段部分的相似度及圖譜部分的相似度,計算出最終物資相似度。物資相似度大于0.6的數據,進入疑似重碼的物資清單,物資相似度大于0.8的數據,認為其相似度為高相似度。
表5 分析涉及字段和路徑清單Table 5 The list of fields and paths involved in the analysis
物資重碼分析主要經過查詢、分析、審定標識幾個過程,詳見圖2。
圖2 重碼分析流程圖Fig.2 The analysis flow chart of repeated codes
其中查詢是指通過設定一些查詢條件,詳見圖3,篩選出需要做重碼分析的物資;也可通過高級搜索功能,直接輸入sql語句,對物資數據進行篩選。這個步驟的目的在于通過已知條件,縮小重碼分析范圍,提高分析效率以及精確率。
圖3 重碼分析查詢界面Fig.3 The analysis query interface of repeated codes
分析步驟則是重碼分析方法,對篩選出的物資進行重碼分析,并將分析結果返回給用戶。其中的分析結果包括“字段相似度”和“圖譜相似度”,由“字段相似度”和“圖譜相似度”綜合得出的“相似度”和“備注”中提供的疑似相似字段,以及“查看疑似重碼原因”中提供的圖譜中連通的路徑。詳見圖4。審定步驟是指用戶對系統分析的重碼結果進行標識確認,如果為非重碼物資,則提供非重碼原因。
圖4 重碼分析結果Fig.4 Analysis results of repeated codes
基于知識圖譜技術的重碼分析不僅僅是對物資主數據本身的分析,更是引入了相關聯的業(yè)務數據和其他主數據作為數據分析的數據基礎,將業(yè)務數據和主數據各個數據對象關聯,并賦予重碼分析權重。
通過大數據挖掘,大大提高管理水平,節(jié)省管理成本,為秦山核電物資管理提供精益化管理,同時減少管理改進投入大量專業(yè)技術人員。
通過物資主數據重碼分析,一方面可以減少了存量數據中一物多碼的情況,優(yōu)化了數據質量;另一方面,為后續(xù)物資主數據運維管理提供了輔助手段,從源頭上最大限度的杜絕重碼現象的產生,從而降低供應鏈重復采購和庫存金額飆升的風險,提高了供應鏈風險管控和應對的能力。
在數據規(guī)范性方面也達到促進物資主數據具有唯一性、規(guī)范性和完整性的效果,滿足物資在采購、倉儲、設備和資產等各領域要求的同時,保障采購業(yè)務的準確性和相關業(yè)務人員得知數據變化的實時性,減少公司由于數據不準造成的采購損失。