摘? 要:本文按照軟件中臺的思想,設(shè)計了一個針對先進先出(First-In First-Out, FIFO)[1]數(shù)據(jù)核銷的通用實現(xiàn)框架及其對應(yīng)的入庫數(shù)據(jù)模型、消費數(shù)據(jù)模型和匹配核銷模型。同時,設(shè)計了基于雙排序原理的先進先出數(shù)據(jù)核銷高速實現(xiàn)方法。該方法按照匹配規(guī)則先對數(shù)據(jù)進行排序,然后對兩個有序隊列進行單循環(huán)匹配查找,避免了傳統(tǒng)先進先出實現(xiàn)中的雙循環(huán)操作,可以大幅度提高運算性能,大幅度節(jié)省CPU開銷和存儲開銷,實現(xiàn)超大數(shù)據(jù)量的快速匹配,可以支持兩個億級數(shù)據(jù)庫的快速先進先出匹配。
關(guān)鍵詞:先進先出;存儲過程;雙排序;面向?qū)ο?/p>
中圖分類號:TP31? ? ?文獻標(biāo)識碼:A
Abstract: This paper proposed to design a general implementation framework for FIFO (First-In First-Out) data verification and its corresponding inbound data model, consumption data model and matching verification model based on idea of middle platform. At the same time, a high-speed realization method of FIFO data verification is designed based on the double sorting principle. This method first sorts data according to matching rules, and then performs a single-loop matching search on the two ordered queues, avoiding double-loop operation in traditional FIFO implementation. The proposed method significantly improves computing performance, and greatly saves CPU and storage overheads. As a result, it is capable of processing super large data volume, and can support fast FIFO matching of two databases with large data volume.
Keywords: First-In First-Out (FIFO); storage procedure; double sort; object-oriented
1? ?引言(Introduction)
先進先出是傳統(tǒng)庫存商品成本核算的一個通用方法,商品銷售先選擇最早采購的商品價格作為銷售商品的庫存成本。目前,國內(nèi)很多企業(yè)對于各類消費數(shù)據(jù)都需要用先進先出的方法進行核算。隨著互聯(lián)網(wǎng)新零售大幅度崛起,消費數(shù)據(jù)從傳統(tǒng)的商品批發(fā)零售擴大到很多場景,例如CRM[2](Customer Relationship Management)的積分核銷[3]就是十分典型的一個應(yīng)用,不同商家的積分產(chǎn)生和使用,需要相互結(jié)算。隨著全渠道零售的興起,各個結(jié)算主體之間也存在先進先出的結(jié)算需求。從軟件實現(xiàn)上來看,數(shù)據(jù)庫先進先出核銷需要解決模塊化和運算高效的技術(shù)難點。先進先出算法的缺陷會使系統(tǒng)運行性能變差,甚至導(dǎo)致系統(tǒng)癱瘓。
為了節(jié)省服務(wù)器的計算時間,需要設(shè)計一個通用的高速核銷引擎,方便應(yīng)用程序直接調(diào)用,大幅度降低普通程序員對出入數(shù)據(jù)核銷實現(xiàn)的門檻。目前數(shù)據(jù)基本上都存儲在數(shù)據(jù)庫中,而程序開發(fā)工具大部分是Java或C語言等,通過JDBC/ODBC和數(shù)據(jù)庫連接讀取和寫入數(shù)據(jù)。由于數(shù)據(jù)庫和開發(fā)工具都具備運算能力,因此先進先出引擎可以利用開發(fā)工具能力,也可以利用數(shù)據(jù)庫能力,以及兩者混合能力來實現(xiàn)。
本文按照軟件中臺的思想,設(shè)計了一個針對先進先出數(shù)據(jù)核銷的通用實現(xiàn)框架及其對應(yīng)的入庫數(shù)據(jù)模型、消費數(shù)據(jù)模型和匹配核銷模型。同時,為了克服傳統(tǒng)先進先出數(shù)據(jù)核銷中的雙循環(huán)操作瓶頸,設(shè)計了基于雙排序原理的先進先出數(shù)據(jù)核銷高速實現(xiàn)方法,通過先排序后先進先出,把先進先出算法從乘法變成加法,實現(xiàn)超高速的計算引擎[4],可以滿足超大數(shù)據(jù)的先進先出需求。
2? ?先進先出通用模型設(shè)計(Design of FIFO general model)
為了實現(xiàn)通用的先進先出引擎,本文設(shè)計了一個先進先出通用實現(xiàn)框架[5]。如圖1所示,該框架包含來源數(shù)據(jù)模型FIFO_in、消費數(shù)據(jù)模型FIFO_out和匹配核銷模型FIFO三個模塊。任何需要使用先進先出算法的系統(tǒng),只要將數(shù)據(jù)按照要求存入兩個出入表,然后調(diào)用先進先出引擎運行,即可得到結(jié)果。
入庫數(shù)據(jù)模型FIFO_in,存儲來源數(shù)據(jù)。例如對于商品,就是采購入庫數(shù)據(jù);對于顧客積分,就是顧客消費產(chǎn)生的積分。為了標(biāo)識來源數(shù)據(jù)唯一性,該表需要加入來源數(shù)據(jù)的唯一主鍵信息,主要字段為:先進先出種類(用于區(qū)分應(yīng)用場景,例如商品出入庫、顧客積分等)、來源數(shù)據(jù)關(guān)鍵詞(一般是入庫單號+商品+日期或產(chǎn)生積分的銷售小票單號+顧客信息+日期)、來源數(shù)據(jù)的數(shù)值(數(shù)量、金額、成本、積分等)、來源數(shù)據(jù)的優(yōu)先級(解決FI的不同場景,例如后進先出,只需要調(diào)整優(yōu)先級即可)、已核銷的數(shù)值(被FO匹配到的數(shù)值)、未被核銷的數(shù)值等。
消費數(shù)據(jù)模型FIFO_out,存儲使用數(shù)據(jù)。對于商品,就是銷售或批發(fā)數(shù)據(jù);對于顧客積分,就是使用積分(包括積分抵現(xiàn)、退貨、積分換券等用掉的積分)。為了標(biāo)識目標(biāo)數(shù)據(jù)唯一性,該表需要加入消費數(shù)據(jù)的唯一主鍵信息,主要字段為:先進先出種類(商品出入庫或積分核銷等場景)、消費數(shù)據(jù)關(guān)鍵詞(一般是銷售單號或積分使用單號,加上產(chǎn)品或顧客信息)、消費數(shù)據(jù)的數(shù)值(數(shù)量、金額、成本、積分等)、消費數(shù)據(jù)的優(yōu)先級(解決哪些數(shù)據(jù)優(yōu)先處理的問題)、已匹配數(shù)據(jù)(已經(jīng)匹配到的數(shù)值)等。
匹配核銷模型FIFO,存儲匹配記錄,即消費數(shù)據(jù)和來源數(shù)據(jù)核銷關(guān)系。這需要通過運行先進先出引擎從FIFO_out循環(huán),逐行從FIFO_in表尋找。FIFO匹配核銷模型主要信息為:先進先出種類、出方關(guān)鍵詞、入方關(guān)鍵詞及核銷數(shù)據(jù)。
3? ?五種先進先出算法(Five FIFO algorithms)
傳統(tǒng)數(shù)據(jù)核銷大部分是單個數(shù)據(jù)發(fā)生后,通過某些條件去尋找來源,這樣實現(xiàn)比較簡單。例如,顧客使用積分抵現(xiàn),由于積分可能是其他商家產(chǎn)生的,這樣就需要針對使用積分找到提供積分的商家銷售單進行結(jié)算。實現(xiàn)單個數(shù)據(jù)尋找算法很簡單,就是找到這個顧客以前的積分記錄,把未核銷的積分按照先進先出原則排序,逐個匹配,將匹配到的記錄存在數(shù)據(jù)庫中,并標(biāo)記已經(jīng)核銷的記錄,防止重復(fù)核銷。然而當(dāng)數(shù)據(jù)數(shù)量非常龐大時,先進先出引擎算法的效率直接決定了整個系統(tǒng)的運算性能,一個有缺陷的先進先出算法會使系統(tǒng)運行性能變差甚至導(dǎo)致系統(tǒng)癱瘓。
傳統(tǒng)的先進先出數(shù)據(jù)核銷采用雙循環(huán)機制,運算量大,不適用于處理大規(guī)模的數(shù)據(jù)。為了解決這個問題,本文設(shè)計了基于雙排序原理的先進先出數(shù)據(jù)核銷高速實現(xiàn)方法。該方法按照匹配規(guī)則先對數(shù)據(jù)進行排序,然后對兩個有序隊列進行單循環(huán)匹配查找,避免了傳統(tǒng)先進先出實現(xiàn)中的雙循環(huán)操作,可以大幅度提高運算性能,節(jié)省CPU開銷和存儲開銷,實現(xiàn)超大數(shù)據(jù)量的快速匹配,可以支持兩個億級數(shù)據(jù)庫的快速先進先出匹配。本節(jié)從先進先出數(shù)據(jù)核銷算法演進的角度,對以下五種算法的原理和優(yōu)缺點進行說明。
(1)軟件對象雙循環(huán)匹配查找:基于面向?qū)ο蟮能浖_發(fā)思想,先將來源數(shù)據(jù)和消費數(shù)據(jù)分別映射成開發(fā)工具環(huán)境的兩個對象,通過應(yīng)用軟件(Java/C#)雙循環(huán)進行匹配查找,然后把結(jié)果寫到數(shù)據(jù)庫中。
(2)軟件調(diào)用數(shù)據(jù)庫命令交互查找匹配:應(yīng)用軟件負(fù)責(zé)寫SQL查找和修改語句,交互式調(diào)用數(shù)據(jù)庫進行查找運算。這個方法中開發(fā)工具不存儲大量數(shù)據(jù),全部利用數(shù)據(jù)庫的存儲和SQL能力,進行循環(huán)調(diào)用。
(3)數(shù)據(jù)庫內(nèi)部雙循環(huán)匹配查找:利用數(shù)據(jù)庫的PL/SQL[6]能力,實現(xiàn)雙循環(huán)匹配查找,不需要非數(shù)據(jù)庫的開發(fā)語言代碼。
(4)開發(fā)語言雙排序單循環(huán)匹配查找:首先通過面向?qū)ο蟮拈_發(fā)語言排序,然后進行排序匹配查找,最后批量寫到數(shù)據(jù)庫中。
(5)數(shù)據(jù)庫排序單循環(huán)匹配查找:通過PL/SQL,利用數(shù)據(jù)庫的排序能力,直接在數(shù)據(jù)中排序快速匹配,不需要應(yīng)用開發(fā)工具反復(fù)調(diào)用數(shù)據(jù)庫計算能力。
3.1? ?方法1:軟件對象雙循環(huán)匹配查找
這是最傳統(tǒng)的面向?qū)ο蟮姆椒ǎ脩?yīng)用開發(fā)工具,例如Java、C++[7]或.net,將來源數(shù)據(jù)和消費數(shù)據(jù)分別映射成開發(fā)工具環(huán)境的兩個對象,然后采用雙循環(huán)方法,對兩個對象進行匹配,最后將匹配結(jié)果存在FIFO對象并刷新FIFO_in和FIFO_out對象的已匹配數(shù)量,把對象保存到數(shù)據(jù)庫的表中,如圖2所示。
上述方法利用開發(fā)工具能力雙循環(huán),總體的計算次數(shù)為:出數(shù)據(jù)記錄×進數(shù)據(jù)記錄,所以,總體運算量比較大,效率很低。其優(yōu)點是方便理解,調(diào)試運維效率高。
3.2? ?方法2:軟件調(diào)用數(shù)據(jù)庫命令交互查找匹配
本方法也是傳統(tǒng)的算法,消費數(shù)據(jù)和來源數(shù)據(jù)不需要映射到對象,通過逐條把數(shù)據(jù)庫消費數(shù)據(jù)讀取到內(nèi)存,然后根據(jù)條件從來源數(shù)據(jù)匹配,匹配到的直接寫入數(shù)據(jù)庫,如圖3所示。這個方法的特點是開發(fā)工具部署的應(yīng)用環(huán)境內(nèi)存消耗很低,存儲全部運用數(shù)據(jù)庫的能力,指示命令都是應(yīng)用程序下達給數(shù)據(jù)庫的。這個方法類似傳統(tǒng)的C/S架構(gòu),客戶端發(fā)命令,數(shù)據(jù)庫運算,并且一次命令對應(yīng)一個匹配運算。
這個方法的優(yōu)點是調(diào)試方便,容易運維;缺點是運行效率很低,應(yīng)用軟件和數(shù)據(jù)庫反復(fù)交互,每次SQL運行都需要編譯,代價比較大。這個算法一般是系統(tǒng)開發(fā)初期使用,成熟后需要升級到方法3。
3.3? ?方法3:數(shù)據(jù)庫內(nèi)部雙循環(huán)匹配查找
本方法是方法2的改進,將開發(fā)工具的循環(huán)代碼通過
PL/SQL[8]翻譯成數(shù)據(jù)庫的存儲過程,在數(shù)據(jù)庫內(nèi)部實現(xiàn)雙循環(huán)匹配查找,如圖4所示。這樣客戶端和數(shù)據(jù)庫只需要交互一次,具體循環(huán)全部在存儲過程中,大幅度減少了網(wǎng)絡(luò)交互的開銷和SQL反復(fù)編譯的代價。
該方法存儲過程的優(yōu)點是運行效率很高,SQL代碼都是預(yù)編譯好的,大幅度節(jié)省了數(shù)據(jù)庫編譯SQL的時間,同時節(jié)省了開發(fā)語言和數(shù)據(jù)庫交互的網(wǎng)絡(luò)時延代價;缺點是出現(xiàn)問題時調(diào)試運維不方便,所以需要等方法2成熟后,再翻譯成存儲過程比較好。
3.4? ?方法4:開發(fā)語言雙排序單循環(huán)匹配查找
前面三個方法的特點是運用內(nèi)外雙循環(huán)的傳統(tǒng)算法,運算量都是消費記錄和來源記錄的乘積,對于數(shù)據(jù)量很大的場景運算非常慢。特別是匹配出現(xiàn)異常,需要重新匹配的時間很長,無法快速高效支撐大型企業(yè)的應(yīng)用,所以理論上只能停留在實驗室,不能投入生產(chǎn)系統(tǒng)。
先進先出本質(zhì)上是兩個大表的匹配,雖然不是Join,實際上可以利用排序Join的思想,將運算量從乘法變成加法,極大提高運算的效率,有力支撐企業(yè)先進先出各種場景的應(yīng)用,包括BI(Business Intelligence)分析需要的先進先出應(yīng)用。
方法4通過開發(fā)語言將數(shù)據(jù)進行排序,然后基于排序后的隊列進行匹配查找,最后將結(jié)果批量寫到數(shù)據(jù)庫。圖5首先將來源和消費兩個大表數(shù)據(jù)映射成開發(fā)工具環(huán)境的兩個對象(類似方法1),然后分別按照匹配規(guī)則排序,變成兩個隊列。后續(xù)匹配算法變成了兩個隊列從頭開始同時向下循環(huán),把雙循環(huán)變成單循環(huán),運算量最大就是兩個隊列記錄數(shù)的總和。
排序是本方法的主要代價,需要利用已有的優(yōu)秀排序算法進行快速排序,這樣才可以將兩個對象按照各自的排序進行單循環(huán)匹配。匹配過程是消費數(shù)據(jù)對象外循環(huán),來源數(shù)據(jù)(進數(shù)據(jù))為內(nèi)循環(huán)。和雙循環(huán)的主要區(qū)別是,這兩個循環(huán)是同步進行的,誰匹配完一個就移到下一個,所以總的循環(huán)次數(shù)是兩個相加。匹配完成后,需要將匹配結(jié)果的對象寫回數(shù)據(jù)庫。
3.5? ?方法5:數(shù)據(jù)庫排序單循環(huán)匹配查找
方法4的缺點是需要將大量的數(shù)據(jù)讀到應(yīng)用服務(wù)器的內(nèi)存,匹配完還需要將大量的匹配數(shù)據(jù)寫回數(shù)據(jù)庫,代價比較大。所以方法5通過PL/SQL將方法4的代碼轉(zhuǎn)換成數(shù)據(jù)庫的存儲過程,利用數(shù)據(jù)庫的排序能力,可以大幅度提高運算性能,實現(xiàn)超大數(shù)據(jù)量的快速匹配,大幅度節(jié)省CPU開銷和存儲開銷。
圖6是數(shù)據(jù)庫排序匹配方法的流程圖,排序只需要數(shù)據(jù)庫建一個索引,每秒可以處理十萬條記錄。然后定義兩個Cursor,分別對應(yīng)消費數(shù)據(jù)和來源數(shù)據(jù),兩個循環(huán)組成單循環(huán),第一個循環(huán)和第二個循環(huán)同時進行匹配,整個計算量最多是兩個表的記錄數(shù)相加,所以可以支持兩個億級數(shù)據(jù)量的快速先進先出匹配。
4? ?結(jié)論(Conclusion)
本文按照軟件中臺的思想,設(shè)計了一個針對先進先出數(shù)據(jù)核銷的通用實現(xiàn)框架及其對應(yīng)的入庫數(shù)據(jù)模型、消費數(shù)據(jù)模型和匹配核銷模型,并對五種先進先出數(shù)據(jù)核銷的實現(xiàn)方法進行了闡述。對于企業(yè)應(yīng)用,大部分采用方法5。先進先出作為企業(yè)級應(yīng)用,模塊化價值比較高,可防止不同應(yīng)用場景重復(fù)開發(fā),造成額外開發(fā)量以及性能潛在的風(fēng)險。不同算法對系統(tǒng)的要求不一樣,效果差異很大。普通程序員很容易使用前面運行效率低的算法,在系統(tǒng)開始運行幾個月后,造成系統(tǒng)癱瘓。對于有一定規(guī)模的企業(yè)應(yīng)用數(shù)據(jù),數(shù)據(jù)庫使用效率是十分重要的。先進先出只是數(shù)據(jù)庫應(yīng)用中比較常用的一種方法,其他人工智能的算法也需要充分利用數(shù)據(jù)庫能力,合理設(shè)計算法。如果超過一個數(shù)據(jù)庫能力,就需要用多個數(shù)據(jù)庫以及大數(shù)據(jù)的方法解決。
參考文獻(References)
[1] 闞運奇.營銷零售行業(yè)先進先出算法設(shè)計[J].無線互聯(lián)科技,2012(12):98.
[2] 李靜.基于數(shù)據(jù)挖掘技術(shù)的電子商務(wù)CRM研究[J].現(xiàn)代電子技術(shù),2015(11):126.
[3] 蔣文書.運用數(shù)據(jù)挖掘技術(shù),精準(zhǔn)把握客戶需求[J].軟件和集成電路,2018(Z1):20.
[4] 侯寧.大數(shù)據(jù)環(huán)境下并行化先進先出成本算法研究[J].軟件導(dǎo)刊,2019,18(06):85.
[5] 許桂平.基于數(shù)據(jù)庫的通用驅(qū)動程序自動編寫算法研究[J].電子設(shè)計工程,2019(15):166-169;174.
[6] CJ Fernandez Candel, J Garcia Molina, FJ Bermudez Ruiz, et al. Developing a model-driven reengineering approach for migrating PL/SQL triggers to Java: A practical experience[J].The Journal of Systems and Software,2019(151):38-64.
[7] 鐘玲玲,劉冬雪,黃小平,等.基于C語言的學(xué)生信息管理系統(tǒng)設(shè)計與實現(xiàn)[J].河南科技學(xué)院學(xué)報(自然科學(xué)版),2019(04): 62-67;78.
[8] 周嵐.Oracle中基于Java的存儲過程[D].合肥:安徽大學(xué),2006.
作者簡介:
王國忠(1971-),男,碩士,講師.研究領(lǐng)域:大型分布式數(shù)據(jù)庫應(yīng)用,企業(yè)級應(yīng)用.