2006數(shù)據(jù)庫技術(shù)回顧與展望

字號：小 中 大

自從1970年E.F.Codd 博士發(fā)表那篇的論文（A Relational Model of Data for Large Shared Data Banks）以來，關(guān)系數(shù)據(jù)庫的發(fā)展已經(jīng)經(jīng)歷了一個漫長的歷史過程:關(guān)系數(shù)據(jù)庫理論早已成熟，而關(guān)系型數(shù)據(jù)庫技術(shù)卻只是在完善的道路上不斷前行。
    關(guān)系型數(shù)據(jù)庫將會走向何方？這么多年來一直是大家廣為關(guān)注的話題。長期以來，關(guān)系型數(shù)據(jù)庫一直向著容納更多、需求更少、應(yīng)用更高等方向發(fā)展。
    數(shù)據(jù)庫的發(fā)展方向之一
    ——容納更多
    所謂容納更多，也就是將更多樣的數(shù)據(jù)存入數(shù)據(jù)庫之中，不斷擴展數(shù)據(jù)庫的存儲能力。從早期的文本數(shù)據(jù)到現(xiàn)在的音頻、視頻數(shù)據(jù)，各類文檔、非結(jié)構(gòu)化XML數(shù)據(jù)等，幾乎所有的數(shù)據(jù)都可以被存儲在數(shù)據(jù)庫之中。
    從這個意義上說XML數(shù)據(jù)也只是數(shù)據(jù)庫向存儲更多方向發(fā)展的一個產(chǎn)物。
    在2006年，數(shù)據(jù)庫領(lǐng)域一個令人矚目的事件是IBM發(fā)布了DB2 V9 Viper數(shù)據(jù)庫版本，在這一數(shù)據(jù)庫版本中，IBM引入PureXML 支持，這意味著XML數(shù)據(jù)將以其自身固有的分層格式進行存儲和查詢；通過將原生XML帶入傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中，使得關(guān)系型數(shù)據(jù)可以和非關(guān)系型數(shù)據(jù)在同一數(shù)據(jù)庫中并存，IBM期望通過XML數(shù)據(jù)的靈活性來彌補關(guān)系型數(shù)據(jù)庫在這方面的不足。
    而且依托于IBM的種種技術(shù)創(chuàng)新，新的XML技術(shù)和傳統(tǒng)的以大對象方式存儲具有本質(zhì)的區(qū)別，這更被看作關(guān)系型數(shù)據(jù)庫向傳統(tǒng)數(shù)據(jù)庫的一種回歸。從這個意義上說，IBM在2006年引導(dǎo)了數(shù)據(jù)庫市場的一時之風。
    我們來看一些分析數(shù)據(jù)，根據(jù)Gartner公司的統(tǒng)計數(shù)據(jù)，在2005年，Oracle的全球市場份額為48.6%，IBM 而根據(jù)最近國內(nèi)統(tǒng)計公司易觀國際的統(tǒng)計數(shù)據(jù)，在2006年第三季度，國內(nèi)市場的數(shù)據(jù)庫市場規(guī)模達到4.63億元，具體份額分布情況為：Oracle占有39%，IBM占有26%，微軟為17.8% （統(tǒng)計數(shù)據(jù)來自互聯(lián)網(wǎng)）
    如果Q3國內(nèi)的統(tǒng)計數(shù)據(jù)基本準確的話，我們僅通過兩個統(tǒng)計數(shù)據(jù)粗略類比一下比例份額：Oracle份額有所下降，DB2取得了一些增長;
     那么這可能說明IBM的DB2 V9 Viper在國內(nèi)已經(jīng)取得了一定的進展，有的用戶已經(jīng)逐漸開始嘗試這一全新的數(shù)據(jù)庫版本。
    伴隨IBM鋪天蓋地的宣傳攻勢，可能有用戶已經(jīng)向DB2傾斜 ; 可是長期的趨勢有待更全面的統(tǒng)計數(shù)據(jù)。
    數(shù)據(jù)庫行業(yè)的者Oracle在2006年并未發(fā)布新的軟件版本，自2004年Oracle10g開始推出以來，Oracle一直在對這一版本進行不斷修正，在2005年Oracle發(fā)布了Oracle10g Release 2版本；而在2006年，Oracle在服務(wù)方面進行了大規(guī)模的調(diào)整，這包括使用Oracle自己的HTML DB技術(shù)重構(gòu)了Metalink站點（Oracle的技術(shù)支持站點）、修改用戶注冊和激活方式等，在新的模式下，服務(wù)過期的用戶將會無法訪問Metalink的資源，而在此之前，服務(wù)過期的用戶是可以訪問Metalink獲得文檔資源或下載補丁的；據(jù)統(tǒng)計，這一修正已經(jīng)促使了很多用戶續(xù)簽或再次購買Oracle的技術(shù)服務(wù)。所以我們猜測Oracle在2006年的營收方面仍然會有不俗的表現(xiàn)。
    在2006 Oracle OpenWorld技術(shù)大會上，Oracle又一強勢舉動是宣布提供企業(yè)級別的Linux 支持服務(wù)，并且很快發(fā)布了打上了Oracle Logo的Enterprise Linux，這也就意味著Oracle已經(jīng)開始染指操作系統(tǒng)，強化并完善其戰(zhàn)略布局。
    自從Oracle隨Oracle10g發(fā)布了群集支持軟件CRS(Cluster Ready Services-Oracle的群集支撐軟件)以后，大家一直在猜測Oracle進軍操作系統(tǒng)的步伐，現(xiàn)在Oracle已經(jīng)做出反映。
    雖然Oracle在2006年并沒有推出強勢的數(shù)據(jù)庫功能以抗衡IBM的PureXML技術(shù)，但是Oracle在完善戰(zhàn)略布局，加強服務(wù)等方面的確取得了重大進步。在2006年Oracle的舉措就是通過完善服務(wù)、升級軟件來進一步穩(wěn)固自己的市場。
    數(shù)據(jù)庫的發(fā)展方向之二
    ——需求更少
    隨著關(guān)系型數(shù)據(jù)庫的不斷成熟，數(shù)據(jù)庫向著需求更少的方向發(fā)展。所謂需求更少是指數(shù)據(jù)庫以更少的相對資源消耗、更高的性能運行，并且隨著技術(shù)的不斷進步，數(shù)據(jù)庫變得更加智能，維護和使用將更加簡單。
    在這一方面，Oracle數(shù)據(jù)庫一直走在前列，從Oracle9i開始，Oracle一直致力于是數(shù)據(jù)庫軟件更加自動化，在這一原則的支撐下，Oracle不斷實現(xiàn)了諸如自動PGA管理、自動SGA管理、自動段空間管理（ASSM）、自動存儲管理（ASM）等等新特性，這些新特性切實降低了DBA的工作量，使得數(shù)據(jù)庫的管理更加簡單；而IBM DB2也一直在加強這方面的功能，IBM的SMART技術(shù)（Self-Managing And Resource Tuning -自我管理和資源調(diào)優(yōu)）正是在這些方面的增強。在DB2 V9中IBM同樣推出了一系列的自動化特性，包括自動數(shù)據(jù)庫管理功能、自動統(tǒng)計數(shù)據(jù)收集等功能，但是這些特性相較Oracle而言是來之甚晚的，所以在2006年IBM主推的是XML這一重大改進。
    根據(jù)Oracle公司在2006年10月舉行的OpenWorld大會上公布的統(tǒng)計數(shù)據(jù)，自O(shè)racle10g發(fā)布以來，僅有約一半的用戶升級到Oracle10g，其他用戶仍然維持在原來的版本運行 ; 所以IBM的Viper能否得到用戶的認可取得成功，還有待檢驗。
    在2006年的OpenWorld大會上，Oracle展示了新的數(shù)據(jù)庫版本Oracle
    11g（正式版本可能不叫這個名字），從公開的有限的資料看，在這一版本中，Oracle在易用性方面做出了進一步的增強。這包括矚目的在線應(yīng)用升級等特性，Oracle期待通過Hot Patching等功能實現(xiàn)Oracle數(shù)據(jù)庫的無宕機(No Downtime) 維護，Oracle所作的所有增強都是用戶最為需要的。
    一直以來，用戶最關(guān)心的是XML技術(shù)的性能問題，由于在轉(zhuǎn)換過程中，大量標簽、標記的引入，XML會帶來大量的冗余數(shù)據(jù)，從而影響性能，那么XML數(shù)據(jù)庫的性能到底如何？我們可以從IBM官方的測試數(shù)據(jù)來獲取一點直觀的印象 :
    IBM工程師通過一個測試場景對金融公司在線經(jīng)紀業(yè)務(wù)進行建模。
    處理器：IBM System p5 560Q， 8處理器的邏輯分區(qū)（LPAR），1.5GHz 頻率
    內(nèi)存 : 32GB
    操作系統(tǒng) : AIX 5L v5.3 TL04
    存儲 : IBM TotalStorage DS8100
    測試插入工作負載的結(jié)果
    插入36,020,833個文檔花費的總時間大約是160分鐘，產(chǎn)生的平均吞吐量是每秒3770個插入。吞吐量隨文檔的大小而變化 :
     訂單文檔(1K到2K)以平均每秒 5320個插入的吞吐量插入。
     帳號文檔(3K到10K)以平均每秒1550個插入的吞吐量插入。
    插入這兩種文檔的數(shù)據(jù)量速度都是大約每小時30GB。下圖顯示隨著訂單數(shù)量增長到300萬個文檔，訂單插入的速度幾乎保持不變
    測試查詢工作負載的結(jié)果
    查詢工作負載隨著 CPU 利用率接近 100%，吞吐量曲線逐漸變平。的吞吐量出現(xiàn)在有 150 個用戶的情況下，在 CPU 利用率為 96% 時達到每秒 5480 個查詢
    測試混合工作負載的結(jié)果
    混合工作負載的性能也出現(xiàn)在有 150 個并發(fā)用戶時，吞吐量是每秒 1980 個事務(wù)
    大家可以根據(jù)自己的業(yè)務(wù)規(guī)模、設(shè)備性能大致估算出自己系統(tǒng)的性能指標。隨著硬件系統(tǒng)的不斷升級，性能也許不再是人們主要關(guān)心的問題。
    通常我們認為，技術(shù)的進步有兩種，一種是用戶推動的變革、一種是由廠商推動的革新。前者為用戶所接受是順理成章的，而后者則會相對困難。
    從目前的情況來看，Oracle為用戶所不斷推動，而2006年，IBM一直在不遺余力的推動其XML新特性，至于結(jié)果怎樣，也許只有時間能夠告訴我們。
    數(shù)據(jù)庫的發(fā)展方向之三
    ——應(yīng)用更高
    隨著數(shù)據(jù)庫技術(shù)的不斷完善，用戶數(shù)據(jù)的不斷積累，用戶的需求也不斷提高，在此之上，更高級的應(yīng)用應(yīng)運而生，這包括已經(jīng)成熟的數(shù)據(jù)倉庫應(yīng)用、廣為接受的商業(yè)智能（BI）應(yīng)用、以及方興未艾的SOA等。
    當數(shù)據(jù)庫能夠容納幾乎所有數(shù)據(jù)之后，我們必然面臨的一個問題是如何快速獲得我們需要的數(shù)據(jù)，這也就需要另外一項高級增強——面向搜索的增強或者說面向需求的增強——數(shù)據(jù)分析和挖掘。
    微軟公司2006年12月發(fā)布的Vista操作系統(tǒng)中，微軟已經(jīng)將搜索框加入到開始菜單的最初始位置，讓用戶最先接觸到搜索，最快的找到用戶的數(shù)據(jù) ;2006年，Google獲得了飛速發(fā)展，Google帶給我們的便利就是快速的獲取數(shù)據(jù)。
    那么無疑，關(guān)系型數(shù)據(jù)庫和相關(guān)應(yīng)用也必然朝著這個方向不斷發(fā)展和完善。

2006數(shù)據(jù)庫技術(shù)回顧與展望

字號： 小 中 大

字號：小中大