尹曉明 徐紹倫 王智泉
(山東威海煙草有限公司,山東威海 264200)
近年來,各級煙草公司都遇到了不同程度的發(fā)展瓶頸,面臨諸多與生存和發(fā)展相關(guān)的痛點和難點問題。例如,在卷煙營銷活動中,常常要面對原有卷煙品牌的維護、新品牌的投放、滯銷品牌的退市等問題。以往,都是憑借員工的工作經(jīng)驗、專業(yè)知識,收集一定量的市場數(shù)據(jù),進行分析、判斷,在此基礎(chǔ)上策劃卷煙品牌的投放策略。但由于市場數(shù)據(jù)的抽樣樣本不足、人為因素的介入、營商環(huán)境的干擾,往往不能科學規(guī)劃卷煙品牌布局,不能科學設(shè)計品牌投放策略,不能及時啟動某些滯銷品牌的退市機制,使卷煙營銷工作一直很被動。與此同時,國際四大煙草公司包括菲莫國際公司、英美煙草公司、日本煙草公司、帝國煙草公司,在卷煙品牌培育、品牌衍生、品牌溢價等方面進行了大量探索和實踐,在國際煙草市場的份額合計約占50%,呈現(xiàn)壟斷格局。同時,這些國際煙草巨頭也相繼發(fā)力中國市場,外資煙草品牌在國內(nèi)市場逐步擴張,市場占有份額逐步擴大。2019 年全國煙草工作會議上,國家煙草專賣局提出了“136/345”發(fā)展目標;國家煙草專賣局還提出了建設(shè)大品牌、大企業(yè)、大市場的行業(yè)戰(zhàn)略目標,以及品牌要做大、規(guī)格要做精的具體要求;我國“十四五”規(guī)劃和2035 年遠景目標綱要都將“加快推動數(shù)字產(chǎn)業(yè)化,推進產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型”明確規(guī)定為打造數(shù)字經(jīng)濟新優(yōu)勢的重要內(nèi)容。
因此,煙草行業(yè)要引入先進的互聯(lián)網(wǎng)技術(shù)、數(shù)據(jù)挖掘技術(shù)、人工智能技術(shù),實現(xiàn)煙草行業(yè)數(shù)字化轉(zhuǎn)型,解決煙草企業(yè)發(fā)展的痛點和難點問題,是新時代下復雜的國際國內(nèi)競爭形勢給煙草行業(yè)帶來的重大挑戰(zhàn)和機遇,也是提高煙草企業(yè)核心競爭力,促進煙草經(jīng)濟快速發(fā)展,提升我國煙草行業(yè)國際競爭力的必然要求。
為推動煙草行業(yè)數(shù)字化,提高煙草企業(yè)的核心競爭力,研究面向煙草企業(yè)的數(shù)據(jù)集市構(gòu)建技術(shù),并提出以提高企業(yè)核心競爭力為導向的數(shù)據(jù)集市構(gòu)建框架圖,該框架主要包含數(shù)據(jù)收集、數(shù)據(jù)集市構(gòu)建、數(shù)據(jù)管理與分析和數(shù)據(jù)應(yīng)用等核心模塊。通過數(shù)據(jù)集市的構(gòu)建與應(yīng)用,為煙草產(chǎn)業(yè)深度賦能,推動產(chǎn)業(yè)變革、產(chǎn)業(yè)技術(shù)升級和產(chǎn)業(yè)經(jīng)濟發(fā)展,促進煙草行業(yè)數(shù)字化轉(zhuǎn)型,化解煙草企業(yè)發(fā)展過程中的問題,確保煙草公司的核心競爭力,從而從容應(yīng)對經(jīng)濟新常態(tài)的挑戰(zhàn)。同時,可以加速構(gòu)建卷煙“強國”,使我國煙草企業(yè)真正參與國際化競爭,減少國際煙草企業(yè)對我國煙草市場的沖擊。此外,可以優(yōu)化資源配置、促進生產(chǎn)要素合理流動,確保煙草行業(yè)的高質(zhì)量發(fā)展。
目前,中國煙草行業(yè)的數(shù)字化轉(zhuǎn)型得到了快速發(fā)展,不斷涌現(xiàn)出重要的研究文獻和研究成果。有研究者從市場狀態(tài)、終端需求強度、品牌貢獻度3 個維度設(shè)計卷煙品牌競爭力評價指標體系,構(gòu)建基于熵權(quán)法的品牌競爭力模型,基于品牌競爭力評價結(jié)果、品牌生態(tài)調(diào)優(yōu)模型結(jié)果,合理推薦卷煙品牌的發(fā)展建議[1]。有研究者認為,依托線上線下融合的體驗營銷對于卷煙品牌培育有至關(guān)重要的作用,應(yīng)用增強現(xiàn)實技術(shù)(Augmented Reality,AR)等新型技術(shù),創(chuàng)新體驗營銷場景與體驗策略,提升卷煙消費者的產(chǎn)品感知度、體驗度和友好度,有效增強其對卷煙品牌的認同度[2]。也有研究者對卷煙目標消費者的特征及購買行為進行了深入分析,針對卷煙品牌培育存在的問題,明確卷煙目標消費者理論對改善現(xiàn)狀的積極作用,并提出基于目標消費者的卷煙品牌培育策略。以推動卷煙企業(yè)順應(yīng)市場化改革,為實現(xiàn)大品牌、大企業(yè)、大市場的行業(yè)戰(zhàn)略目標,增強中式卷煙品牌的競爭力提供參考[3]。
此外,近年來知識圖譜相關(guān)技術(shù)在各行各業(yè)也得到了快速發(fā)展與應(yīng)用。知識圖譜是一種語義網(wǎng)絡(luò),通過三元組形式對客觀世界進行統(tǒng)一描述,其結(jié)點代表實體(Entity)或者概念(Concept),邊代表實體/概念之間的各種語義關(guān)系。實體是知識圖譜中最基本的元素,屬性是指一個實體指向它包含的屬性值,用實體、屬性、屬性值三元組刻畫實體的內(nèi)在特性,關(guān)系是指兩個實體之間的某種關(guān)聯(lián),用實體、關(guān)系、實體刻畫實體之間的相互關(guān)聯(lián)。知識圖譜有自頂向下和自底向上兩種構(gòu)建方式,針對自底向上的圖譜構(gòu)建技術(shù),主要包含數(shù)據(jù)清洗、信息抽取、知識融合、知識加工等幾個階段。
知識圖譜具有廣泛的應(yīng)用場景。在人工智能領(lǐng)域,有研究者提出利用知識圖譜挖掘標簽之間的語義關(guān)系,提升視頻和圖片分類任務(wù)的準確性。在煙草領(lǐng)域,為解決煙草行業(yè)各系統(tǒng)中的多源、異構(gòu)科研數(shù)據(jù)有效管理與利用問題,有研究者設(shè)計了煙草科研知識實體及關(guān)系的數(shù)據(jù)模型,研發(fā)了煙草科研知識圖譜服務(wù)平臺[4]。此外,隨著卷煙企業(yè)的不斷發(fā)展,在日常的生產(chǎn)工作中產(chǎn)生了大量寶貴的經(jīng)驗和極具研究價值的知識,為預防卷煙企業(yè)知識和經(jīng)驗的流失,有研究者提出將知識庫系統(tǒng)應(yīng)用到卷煙企業(yè)[5]。同時,有研究者利用標簽體系對零售客戶精準畫像進行分類,深入挖掘煙草企業(yè)內(nèi)部和企業(yè)外部數(shù)據(jù),設(shè)計了一套全域標簽體系,極大助力了卷煙市場大戶管理、貨源精準投放等工作[6]。
為推動煙草行業(yè)數(shù)字化,提高煙草企業(yè)的核心競爭力,解決煙草企業(yè)發(fā)展過程中遇到的諸多問題,提出了數(shù)據(jù)集市構(gòu)建與應(yīng)用框架圖,如圖1 所示。該框架圖主要包含數(shù)據(jù)收集、數(shù)據(jù)集市構(gòu)建、數(shù)據(jù)管理與分析和數(shù)據(jù)應(yīng)用等幾個核心模塊。
圖1 數(shù)據(jù)集市構(gòu)建框架圖
為高效構(gòu)建實用性強的數(shù)據(jù)集市,在數(shù)據(jù)收集階段需充分調(diào)研與煙草行業(yè)相關(guān)的各類數(shù)據(jù),確定合理有效的數(shù)據(jù)源。
主要包含兩大類數(shù)據(jù)來源,即企業(yè)數(shù)據(jù)和社會數(shù)據(jù)。企業(yè)數(shù)據(jù)包含主數(shù)據(jù)、生產(chǎn)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)和財務(wù)數(shù)據(jù);社會數(shù)據(jù)包含社會經(jīng)濟、政府管理和其他合作企業(yè)等數(shù)據(jù),例如普查數(shù)據(jù)、年鑒等。主數(shù)據(jù)包含煙草局主數(shù)據(jù)和煙廠主數(shù)據(jù),是核心基礎(chǔ)數(shù)據(jù),例如煙草行業(yè)卷煙生產(chǎn)決策管理系統(tǒng)、省局營銷平臺、市場信息采集系統(tǒng)、現(xiàn)代終端信息管理系統(tǒng)含有的數(shù)據(jù);生產(chǎn)數(shù)據(jù)主要包含工廠生產(chǎn)過程中需要采集的數(shù)據(jù),例如材料采購、加工生產(chǎn)、卷煙存儲、能源供給、備品備件等數(shù)據(jù);業(yè)務(wù)數(shù)據(jù)包含運輸配送、客戶銷售數(shù)據(jù)、客戶庫存數(shù)據(jù)、全方位用戶行為數(shù)據(jù)等與業(yè)務(wù)相關(guān)的多種數(shù)據(jù);消費者數(shù)據(jù)包含消費者性別、年齡、地址、消費結(jié)構(gòu)等;財務(wù)數(shù)據(jù)包含預算數(shù)據(jù)、成本數(shù)據(jù)、績效薪酬等多種數(shù)據(jù)。
總體而言,本文需采集的數(shù)據(jù)具有來源范圍廣、數(shù)據(jù)類型多、數(shù)據(jù)體量大等特點,同時涉及政府和企業(yè)內(nèi)部的核心關(guān)鍵數(shù)據(jù),故制定了符合法律法規(guī)要求的分布式數(shù)據(jù)采集和存儲機制。針對不同數(shù)據(jù)源的異構(gòu)數(shù)據(jù),解耦設(shè)計了多種符合需求的數(shù)據(jù)采集算法,并將算法分別部署在不同終端機器上,也將收集到的數(shù)據(jù)分別存儲于不同的終端機器。這種分布式數(shù)據(jù)采集和存儲機制可以按需分配計算和存儲資源,提高機器管理效率、數(shù)據(jù)共享效率和資源使用效率,在性能、可擴展性和可靠性方面具有較大優(yōu)勢。比如,單機數(shù)據(jù)存儲可能會由于機器故障導致關(guān)鍵數(shù)據(jù)丟失,而分布式數(shù)據(jù)采集和存儲,則可以有效應(yīng)對單機故障或者計算機網(wǎng)絡(luò)故障等突發(fā)問題。
知識圖譜是一種由三元組構(gòu)成的語義網(wǎng)絡(luò),其結(jié)點代表實體或者概念,邊代表實體/概念之間的各種語義關(guān)系。知識圖譜有自頂向下和自底向上兩種構(gòu)建方式,為高效構(gòu)建大規(guī)模實用數(shù)據(jù)集市,本文采用自頂向下的構(gòu)建方式,主要涉及Schema 模型定義、數(shù)據(jù)獲取與清洗、數(shù)據(jù)集市構(gòu)建與演化更新、人機協(xié)同等多個核心步驟。
首先,根據(jù)數(shù)據(jù)集市的構(gòu)建需要滿足實際應(yīng)用需求,構(gòu)建數(shù)據(jù)集市的初始Schema 模型,這是高效構(gòu)建高質(zhì)量數(shù)據(jù)集市的核心和基礎(chǔ)。Schema 模型規(guī)范化了數(shù)據(jù)集市中的數(shù)據(jù)表達,即數(shù)據(jù)集市中應(yīng)該包含哪些節(jié)點、節(jié)點之間有哪些連邊關(guān)系,以及節(jié)點和邊的屬性、數(shù)據(jù)類型的相關(guān)信息。一條數(shù)據(jù)只有滿足了Schema 模型的要求,才被允許更新到數(shù)據(jù)集市中。因此,初步抽象出數(shù)據(jù)集市應(yīng)該包含的多種不同類型實體和各類型實體間多種關(guān)系,以及相關(guān)的屬性等信息。例如,與卷煙銷售相關(guān)的實體可以包含香煙種類、香煙等級、香煙品牌、香煙名稱、生產(chǎn)公司、銷售區(qū)域、銷售周期、上市時間、銷量、利潤、用戶性別、用戶年齡、用戶教育背景、用戶籍貫、用戶收入、用戶工作等。
其次,收集的大量相關(guān)數(shù)據(jù)主要分為三類,一類是相關(guān)數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),一類是文本、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù),一類是網(wǎng)頁、百科等半結(jié)構(gòu)化數(shù)據(jù)。這些多源異構(gòu)數(shù)據(jù)難免存在數(shù)據(jù)重復、數(shù)據(jù)錯誤、數(shù)據(jù)之間存在沖突等多種問題。因此,需要通過數(shù)據(jù)挖掘、統(tǒng)計分析、預設(shè)規(guī)則等方法對數(shù)據(jù)進行清洗和整理,保證數(shù)據(jù)的一致性,以形成規(guī)范化數(shù)據(jù),方便構(gòu)建數(shù)據(jù)集市。
在數(shù)據(jù)清洗和整理過程中主要考慮以下幾個因素。一是處理數(shù)據(jù)中的無效值和缺失值,可以通過估算、變量刪除和成對刪除等方式完成,例如,通過平均值、最大值、最小值或概率估計等方式估算缺失值。二是檢查和刪除錯誤數(shù)據(jù),例如,通過偏差分析發(fā)現(xiàn)可能的錯誤或異常數(shù)據(jù),或者制定符合煙草行業(yè)數(shù)據(jù)特點的簡單規(guī)則進行錯誤數(shù)據(jù)識別。三是刪除重復數(shù)據(jù)。四是檢查數(shù)據(jù)的一致性,包括數(shù)據(jù)的取值范圍是否合理、數(shù)據(jù)語義是否存在沖突等。
數(shù)據(jù)集市的構(gòu)建和演化更新主要包含信息抽取、知識融合、知識加工等幾個關(guān)鍵階段。信息抽取是通過實體識別、關(guān)系抽取和屬性抽取等技術(shù)從多源數(shù)據(jù)中提取出符合數(shù)據(jù)集市Schema 模型要求的相關(guān)實體、屬性以及實體間的關(guān)聯(lián)關(guān)系。實體識別使利用基于規(guī)則的識別方法以及基于機器學習的識別方法。關(guān)系抽取是指識別圖譜中實體間關(guān)系,是構(gòu)建知識圖譜的重要環(huán)節(jié)。為高效抽取關(guān)系,聯(lián)合使用基于規(guī)則的關(guān)系抽取方法和聯(lián)合關(guān)系抽取方法。對于前者,本文設(shè)計了基于觸發(fā)詞模式的關(guān)系抽取模型。通過咨詢煙草行業(yè)的專業(yè)學者,依據(jù)煙草數(shù)據(jù)特點,本文構(gòu)建了相關(guān)觸發(fā)詞庫,用于抽取實體間關(guān)系。對于后者,通過模型直接完成三元組抽取,并非將任務(wù)拆分為實體識別和關(guān)系分類兩個子任務(wù)。例如,利用Transformer 等預訓練大模型完成實體識別和關(guān)系抽取,具體包含特征抽取模塊、實體抽取模塊、關(guān)系分類模塊,關(guān)系分類模型可以利用BERT[7]預測實體間關(guān)系。
知識融合是指,由于通過不同數(shù)據(jù)源獲取的實體和關(guān)系存在重復、沖突、缺失等問題,因此需要通過實體鏈接、實體對齊、實體消歧等技術(shù)整合提取的知識,以消除矛盾和歧義,獲得統(tǒng)一的數(shù)據(jù)集市。知識加工主要是利用知識推理技術(shù)推理實體對之間可能存在的關(guān)系,用于知識圖譜的自動化補全。同時,根據(jù)新的需求和原始數(shù)據(jù)的更新,可以利用相關(guān)技術(shù)對圖譜進行演化更新。其中,知識圖譜推理是構(gòu)建高質(zhì)量數(shù)據(jù)集市以及數(shù)據(jù)集市得以演化更新的重要途徑。
知識圖譜推理是根據(jù)圖譜中已有的事實和關(guān)系推斷出未知的事實和關(guān)系,其在數(shù)據(jù)集市構(gòu)建的各個階段都能發(fā)揮重要作用。例如,在知識融合過程中的實體對齊、在知識補全過程中的鏈接預測、在處理圖譜沖突信息時的實體消歧等都涉及知識圖譜推理技術(shù)。為充分發(fā)揮知識圖譜推理的作用,采用基于歸納的知識圖譜推理技術(shù),其核心思想是通過分析和挖掘知識圖譜已有信息進行分析推理,主要包含基于圖結(jié)構(gòu)的推理、基于規(guī)則學習的推理、基于表示學習的推理等方法,包含路徑排序算法(Path Ranking Algorithm,PRA)[8]、基于不完備知識庫的關(guān)聯(lián)規(guī)則挖掘算法(Association Rule Mining under Incomplete Evidence)[9]、Trans 系列算法(例如TransE[10])等算法。
因為數(shù)據(jù)規(guī)模大、數(shù)據(jù)集市體量大,完全依靠規(guī)則和算法構(gòu)建的數(shù)據(jù)集市難免存在低質(zhì)量信息或者錯誤信息,所以通過人機協(xié)同方式提升數(shù)據(jù)集市的質(zhì)量。具體通過主動學習技術(shù)對自動抽取的知識進行篩選,將算法不確定或可能預測錯誤的結(jié)果進行標記,并輸入智標注平臺進行核對。本文提出了基于信息最大化的主動采樣框架,由于沒有歷史標注信息,通過最大化Fisher 信息實現(xiàn)。首先對標注過程進行建模,得到所有標注結(jié)果的對數(shù)似然函數(shù)l(x),可據(jù)此計算得到如下Fisher 信息量:
該信息量通常與樣本標注結(jié)果無關(guān),僅取決于標注樣本本身,因此對標注噪聲魯棒。每次主動采樣時,需選擇使得Fisher 信息量最大的樣本進行標注。在該信息最大化問題中,本文以譜圖論為基礎(chǔ),將其轉(zhuǎn)化為非歸一化的圖拉普拉斯算子(unnormalized graph Laplacian)的相關(guān)問題進行求解。
本文最終采用Neo4j 圖數(shù)據(jù)庫作為數(shù)據(jù)集市的存儲方式。
數(shù)據(jù)管理主要利用數(shù)據(jù)集成管理工具從數(shù)據(jù)標準管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全管理、主數(shù)據(jù)管理等多個角度進行高效安全的數(shù)據(jù)管理。并通過數(shù)據(jù)分析建模工具從關(guān)聯(lián)、因果等多個角度深層挖掘數(shù)據(jù)價值,從企業(yè)經(jīng)營、生產(chǎn)運行、工藝質(zhì)量、財務(wù)等多個層面對業(yè)務(wù)經(jīng)營活動進行賦值。
數(shù)據(jù)應(yīng)用主要包含智能生產(chǎn)、智能物流、智能財務(wù)、智能營銷、供應(yīng)鏈、智能質(zhì)量、智能管理、戰(zhàn)略決策等全方位立體化的應(yīng)用服務(wù)。例如,智能財務(wù)可以實現(xiàn)自動化生成證財表、智能計算賦稅;智能營銷可以實現(xiàn)主動配貨,對客戶多維度分類,幫助零售戶提升、優(yōu)化卷煙營銷管理能力;智能物流可以實現(xiàn)物流線路的優(yōu)化、智能化工商網(wǎng)配管理等;智能生產(chǎn)可以指導原輔料進料、制絲生產(chǎn)、卷包生產(chǎn)、能源供給、備品備件物資供給直至卷煙成品打碼入庫的全生產(chǎn)過程。
本文提出了以提升企業(yè)核心競爭力為導向的數(shù)據(jù)集市構(gòu)建方案,旨在充分利用煙草行業(yè)相關(guān)的企業(yè)數(shù)據(jù)和社會數(shù)據(jù),構(gòu)建數(shù)據(jù)集市,充分分析和挖掘數(shù)據(jù)潛力,使其在煙草企業(yè)的發(fā)展和運營過程中充分發(fā)揮作用,為煙草企業(yè)充分賦能,促進煙草行業(yè)的數(shù)字化轉(zhuǎn)型,提高煙草公司的核心競爭力。