国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

分類信息的數(shù)據(jù)倉庫平臺設(shè)計及實施

2010-08-15 00:52:53汪榮榮
科技傳播 2010年22期
關(guān)鍵詞:數(shù)據(jù)倉庫工具分類

汪榮榮

同濟大學(xué)軟件學(xué)院,上海 201804

0 引言

分類信息又稱分類廣告,它是WEB2.0的衍生物,是新一代互聯(lián)網(wǎng)應(yīng)用模式。日常在電視、報刊上所看到的廣告,往往是被強加給觀眾和讀者的,這類廣告稱為被動廣告。而人們主動去查詢招聘、租房、旅游等方面的信息,對這些信息,稱它為主動廣告,也即是本文所說的分類信息。分類信息的崛起,很好的彌補了傳統(tǒng)分類廣告的不足。它不僅信息量大,而且信息隨時在線。更重要的是利用分類搜索,可以保證用戶在任何時間、任何地點,都能非常方便快捷的查詢。它也以內(nèi)容編排精細化、及時、空間無限等特質(zhì),在大眾生活及商務(wù)活動中備受關(guān)注和喜歡。

1 數(shù)據(jù)倉庫系統(tǒng)

1.1 數(shù)據(jù)倉庫具有以下4個最基本的特點

1)面向主題(Subject-Oriented):所謂主題是一個抽象的概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。

2)集成性(Integrated):數(shù)據(jù)倉庫的數(shù)據(jù)由于不是面向應(yīng)用,所以并不關(guān)心細節(jié)數(shù)據(jù),而是從原有的數(shù)據(jù)庫中抽取出來的,并經(jīng)過統(tǒng)一和綜合,再進入數(shù)據(jù)倉庫中。

3)穩(wěn)定性(Non-Volatile):數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,主要涉及的數(shù)據(jù)操作時數(shù)據(jù)查詢,一般情況下并不進行修改操作。

4)時間變異性(Time-Variant):在數(shù)據(jù)倉庫中,數(shù)據(jù)記錄總含有一個時間屬性,倉庫中記錄了數(shù)據(jù)隨時間變化的歷史。

1.2 一般數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)分為4個層次

1)數(shù)據(jù)源。是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的源泉。

2)數(shù)據(jù)的存儲與管理。是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲與管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。針對現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進行抽取、清理、并有效集成,按照主題進行組織。該過程是通過ETL Server將數(shù)據(jù)源中的操作型數(shù)據(jù)經(jīng)過必要的轉(zhuǎn)換,重組導(dǎo)入數(shù)據(jù)倉庫。

3)前段工具。主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。其中,數(shù)據(jù)分析工具主要針對OLAP服務(wù)器;報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。

4)數(shù)據(jù)用戶。即歷史數(shù)據(jù)等報表的使用者,一般為企業(yè)決策者。

1.3 ETL策略設(shè)計

ETL指的是數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)加載。

1)數(shù)據(jù)抽取。它完成從原有操作型數(shù)據(jù)庫中選擇與數(shù)據(jù)倉庫主體域相關(guān)的細節(jié)數(shù)據(jù)抽取到數(shù)據(jù)倉庫中。同時,數(shù)據(jù)抽取還要考慮源數(shù)據(jù)環(huán)境和ETL開發(fā)環(huán)境的接口問題,不同的業(yè)務(wù)系統(tǒng)有不同的平臺,相應(yīng)地采用不同的數(shù)據(jù)抽取接口,一般應(yīng)根據(jù)實際情況選擇可靠合適的源數(shù)據(jù)接口。比較典型的源數(shù)據(jù)接口有數(shù)據(jù)庫接口和文件接口。

2)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)倉庫的源數(shù)據(jù)之間往往出現(xiàn)不一致的字段長、不一致的賦值等問題。數(shù)據(jù)轉(zhuǎn)換負責將數(shù)據(jù)名稱和格式進行統(tǒng)一,同時對不存在的數(shù)據(jù)賦缺省值,創(chuàng)建新的數(shù)據(jù)邏輯視圖。數(shù)據(jù)轉(zhuǎn)換的目標是將每個字段轉(zhuǎn)換為符合數(shù)據(jù)倉庫標準的數(shù)據(jù)格式。

3)數(shù)據(jù)加載。數(shù)據(jù)加載有插入、增加和刷新3種模式。插入式加載對目標表進行增量操作;增加式加載需要對目標表同時做更新及插入操作,根據(jù)主鍵,對于已有的記錄進行更新,對于不存在的記錄做插入操作。

2 數(shù)據(jù)倉庫技術(shù)在分類信息中的應(yīng)用

2.1 分類信息對數(shù)據(jù)倉庫技術(shù)的需求分析

本文分析的是某跨國公司需要將其多個國家不同平臺的分類信息數(shù)據(jù)整合到統(tǒng)一格式的數(shù)據(jù)倉庫系統(tǒng)。具體這些信息包括廣告、用戶、回復(fù)、目錄、地址、支付、收費項目、網(wǎng)站等。它們的歷史數(shù)據(jù)為決策者們提供決策依據(jù)。

1)廣告:用戶免費將廣告發(fā)布到其所在地的分類信息平臺。這些廣告通常包括租房信息、工作招聘信息、閑置物品二手交易信息等。

2)用戶:即廣告投放者、回復(fù)廣告用戶以及注冊用戶。在該分類信息應(yīng)用中,非注冊用戶也可以投放以及回復(fù)廣告。

3)回復(fù):當網(wǎng)頁瀏覽者對廣告感興趣時,可以通過回復(fù)廣告即發(fā)郵件給投放者與對方聯(lián)系。

4)目錄:廣告的類別,又劃分為多級子目錄。根目錄如工作、房屋、汽車、寵物、服務(wù)等,在工作的根目錄下又細分為公寓出租、短期出租、旅游出租等。廣告被放在最底目錄下。

5)地址:分類信息一般為同城交易,因此廣告也只對同一城市或者地區(qū)有效。這樣,廣告投放者所在的地址信息如國家、城市甚至地區(qū)就變得至關(guān)重要。

6)收費項目:包括延長廣告有效期(默認免費廣告有效期為3個月)、將廣告靠前排放、彩色個性投放廣告等。

2.2 分類信息網(wǎng)站數(shù)據(jù)倉庫平臺的ETL設(shè)計

本系統(tǒng)采用E-L-T,即先將源數(shù)據(jù)從各個國家的操作型數(shù)據(jù)庫中抽取出來,再將這些數(shù)據(jù)直接裝載到數(shù)據(jù)倉庫平臺的DBMS- Teradata,最后在Teradata中對數(shù)據(jù)進行清洗轉(zhuǎn)換。由于Teradata有并行處理兼線性增長的數(shù)據(jù)處理功能,這樣設(shè)計的成本與性能要強于傳統(tǒng)的抽取-轉(zhuǎn)換-裝載流程。ETL的具體過程分為以下幾步:

1)使用Shell腳本將需要的字段從源操作型數(shù)據(jù)庫的表中選取出來,該步驟將抽取得到的數(shù)據(jù)生成由分割符和源數(shù)據(jù)組成的FLAT FILE。每次從不同的源數(shù)據(jù)平臺上抽取數(shù)據(jù)時,只需編寫對應(yīng)的SELECT SQL語句;

2)使用Ab-initio將上一步驟中生成的FLAT FILE中的源數(shù)據(jù)載入Teradata的對應(yīng)表中。在該步驟中,需要編寫數(shù)據(jù)格式轉(zhuǎn)換DML文件,該文件主要告訴Ab-initio如何讀取FLAT FILE中的分割符,以及如何將源數(shù)據(jù)匹配地存入Teradata中對應(yīng)的字段;

3)在上一步驟中,Teradata表中得到的數(shù)據(jù)是未經(jīng)任何清洗和轉(zhuǎn)換的臨時表數(shù)據(jù)。在數(shù)據(jù)轉(zhuǎn)換這一步驟里又分為兩步:INSERT SQL以及UPSERT SQL。INSERT SQL主要完成數(shù)據(jù)轉(zhuǎn)換工作,一般它需要左聯(lián)接不經(jīng)常變更的存放網(wǎng)站信息、地理信息、目錄信息的一些維度表,并作必要的數(shù)據(jù)清理和轉(zhuǎn)換工作,再講這些結(jié)果存入數(shù)據(jù)倉庫的臨時表中。UPSERT SQL實際又分為UPDATE SQL和INSERT SQL,即把上一步中INSERT SQL最后所得的臨時表數(shù)據(jù)導(dǎo)入最終表中。該最終表實際為最終數(shù)據(jù)用戶使用的表,它已包含歷史數(shù)據(jù)和其他國家平臺的數(shù)據(jù)。也即UPSERT SQL完成的是數(shù)據(jù)倉庫中的數(shù)據(jù)集成操作。

猜你喜歡
數(shù)據(jù)倉庫工具分類
分類算一算
波比的工具
波比的工具
分類討論求坐標
基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
“巧用”工具
讀者(2017年18期)2017-08-29 21:22:03
分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計
電子制作(2016年15期)2017-01-15 13:39:15
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
永德县| 梅河口市| 白朗县| 育儿| 西和县| 贵阳市| 柳林县| 上高县| 峨眉山市| 沂源县| 大方县| 怀安县| 西乌珠穆沁旗| 塔城市| 彭泽县| 渝中区| 砚山县| 荔浦县| 仪陇县| 太谷县| 房山区| 镇沅| 金秀| 运城市| 洛浦县| 加查县| 平阳县| 青龙| 勃利县| 榕江县| 阜宁县| 栾城县| 驻马店市| 新巴尔虎左旗| 阿巴嘎旗| 舟曲县| 平舆县| 开远市| 当雄县| 永善县| 民勤县|