精品蜜桃一区二区三区_精品国产一区二区三_久久久久免费_欧美日韩免费在线

win7系統(tǒng)下載
當(dāng)前位置: 首頁 > 網(wǎng)絡(luò)技術(shù)教程 > 詳細(xì)頁面

淺談數(shù)據(jù)倉庫與數(shù)據(jù)挖掘本質(zhì)

發(fā)布時間:2022-05-07 文章來源:xp下載站 瀏覽:

網(wǎng)絡(luò)技術(shù)是從1990年代中期發(fā)展起來的新技術(shù),它把互聯(lián)網(wǎng)上分散的資源融為有機整體,實現(xiàn)資源的全面共享和有機協(xié)作,使人們能夠透明地使用資源的整體能力并按需獲取信息。資源包括高性能計算機、存儲資源、數(shù)據(jù)資源、信息資源、知識資源、專家資源、大型數(shù)據(jù)庫、網(wǎng)絡(luò)、傳感器等。 當(dāng)前的互聯(lián)網(wǎng)只限于信息共享,網(wǎng)絡(luò)則被認(rèn)為是互聯(lián)網(wǎng)發(fā)展的第三階段。

數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是兩個比較大的概念,在國外已經(jīng)非常成熟,在國內(nèi)隨著前幾年企業(yè)數(shù)據(jù)的累計、ERP的成熟,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘開始起步。

如何建立數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是個不斷值得探討和優(yōu)化的問題,不僅僅在技術(shù)上,在商業(yè)應(yīng)用上也是如此。隨著新的技術(shù)和觀念的不斷引入,傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)方法有了很大的改變,基于數(shù)據(jù)倉庫的應(yīng)用也有了新的發(fā)展。每個企業(yè)的數(shù)據(jù)倉庫根據(jù)企業(yè)特點不同,可以采用非常靈活的選型方法進行選型設(shè)計、實施。本文根據(jù)一些比較新的技術(shù)特點,談?wù)剶?shù)據(jù)倉庫和數(shù)據(jù)挖掘的架構(gòu)。

從成熟的數(shù)據(jù)倉庫架構(gòu)入手來看,建立EDW(Enterprise Data Warehouse)是個比較好的選擇。EDW是企業(yè)數(shù)據(jù)倉庫,對整個企業(yè)數(shù)據(jù)有一個完整的不冗余的保留關(guān)鍵歷史變化信息的唯一視圖。基于EDW可以建立不同主題的數(shù)據(jù)集市Data Mart,數(shù)據(jù)集市不同的企業(yè)有不同的要求,基本上可以分用戶主題,業(yè)務(wù)流主題,產(chǎn)品主題等等,在EDW的基礎(chǔ)上可以有非常多的主題應(yīng)用,如何建立EDW是個比較重要的問題。

建立EDW的關(guān)鍵是要把握數(shù)據(jù)倉庫的本質(zhì),提供關(guān)鍵歷史變化信息,可以真實還原企業(yè)數(shù)據(jù)的關(guān)鍵歷史視圖。也就是現(xiàn)在提到比較多的DSS層,在DSS層之下有ODS層做當(dāng)前數(shù)據(jù)視圖,有緩沖層做增量數(shù)據(jù)視圖,利用增量數(shù)據(jù)視圖和DSS層數(shù)據(jù)視圖結(jié)合起來,利用緩慢變化維或者代理鍵技術(shù),從理論上就可以實現(xiàn)DSS層的任何數(shù)據(jù)歷史變化。但是在實際實施DSS層時候,一個能提供高性能計算的數(shù)據(jù)庫和選擇一個切合業(yè)務(wù)發(fā)展的增量時間頻率是兩個關(guān)鍵點。

緩慢變化維從具體實施過程的可以維護性出發(fā),比較統(tǒng)一通用的方法可以采用增加快照開始時間和快照結(jié)束時間,結(jié)合業(yè)務(wù)系統(tǒng)的主鍵,就可以完成DSS層真實企業(yè)數(shù)據(jù)關(guān)鍵歷史快照視圖。在實施過程中關(guān)鍵要把握增量數(shù)據(jù)緩沖層中三種集合數(shù)據(jù),純粹新增的數(shù)據(jù)A,關(guān)鍵歷史信息發(fā)生變化的數(shù)據(jù)B,關(guān)鍵歷史信息沒有發(fā)生變化的數(shù)據(jù)C。對集合A,B都需要增加快照記錄,對集合C則采用更新快照記錄。這個過程的重點是高性能計算和商業(yè)需求。

在DSS層之上,根據(jù)EDW方案種數(shù)據(jù)庫不同,可以采用建立數(shù)據(jù)集市。數(shù)據(jù)集市基本上可以采用星型模型建立,便于多維分析。

成熟EDW是用來支持商業(yè)應(yīng)用的,EDW之上的一個比較重要的應(yīng)用是數(shù)據(jù)挖掘,從EDW海量數(shù)據(jù)中尋找有用的信息,支持企業(yè)的發(fā)展。這里不具體到數(shù)據(jù)挖掘廠商,從一般性的概念上理解更加重要,數(shù)據(jù)挖掘需要EDW能夠基于DSS層的企業(yè)數(shù)據(jù)關(guān)鍵歷史視圖,重新組合成商業(yè)上決策因素集合。結(jié)合數(shù)據(jù)挖掘的一些成熟的算法,把EDW里面的海量數(shù)據(jù)處理成為信息決策源。在實施數(shù)據(jù)挖掘過程中,需要注意的是一定要根據(jù)企業(yè)本身的業(yè)務(wù)來制定模型,任何脫離企業(yè)業(yè)務(wù)的理論模型在具體實施過程中失敗的可能性很大。

談完了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的本質(zhì),那么目前可以值得選擇的一些廠商和技術(shù)是什么呢?

隨著商業(yè)智能,數(shù)據(jù)倉庫的成熟,進入這個領(lǐng)域的廠商越來越多,評測也是各有千秋。在EDW方面,根據(jù)數(shù)據(jù)倉庫的容量,計算復(fù)雜度,實時性要求,在低端可以考慮微軟的SQL Sserver ,目前SQL Sserver 2005在商業(yè)智能上有顯著增強。在中端可以考慮Oracle 的DW 解決方案,Sybase IQ在數(shù)據(jù)量不是非常大的時候性能還是不錯的。如果要做超大型的DW,那么需要考慮一些高端專業(yè)的DW解決方案,目前TERADATA和IBM的Share Nothing架構(gòu)的高端數(shù)據(jù)倉庫在海量數(shù)據(jù)處理,復(fù)雜商業(yè)計算,實時數(shù)據(jù)處理方面擴展性比較好,但是投入非常大。

數(shù)據(jù)倉庫和數(shù)據(jù)挖掘,從幾年前比較抽象的層次逐漸清晰起來,在企業(yè)決策和業(yè)務(wù)流程優(yōu)化中發(fā)揮的作用越來越大,一個好的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘方案是一個開始,更重要的是推動商業(yè)思想上從傳統(tǒng)的拍腦袋到精細(xì)化營銷和依靠數(shù)據(jù)做決策方面來。商業(yè)和技術(shù)是兩個互相推進的因素,商業(yè)是驅(qū)動,但是好的技術(shù)也可以推動商業(yè)的發(fā)展,適合的技術(shù)用在需要的商業(yè)驅(qū)動上才能發(fā)揮好作用。



網(wǎng)絡(luò)的神奇作用吸引著越來越多的用戶加入其中,正因如此,網(wǎng)絡(luò)的承受能力也面臨著越來越嚴(yán)峻的考驗―從硬件上、軟件上、所用標(biāo)準(zhǔn)上......,各項技術(shù)都需要適時應(yīng)勢,對應(yīng)發(fā)展,這正是網(wǎng)絡(luò)迅速走向進步的催化劑。

本文章關(guān)鍵詞: 路由器 路由交換 網(wǎng)絡(luò)技術(shù)